PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

阿新 • • 發佈：2019-01-09

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

最近在研究譜聚類時，遷移到主成分分析（PCA），發現兩者有著驚人的相似之處，同時還牽扯到Kmeans、SVD，甚至LDA也有相通的地方（雖然LDA是有監督學習），因此在這裡寫一篇總結，描述一下以上各個模型之間的共通性，有助於加深對這一類無監督學習演算法的理解。

PCA與SVD/EVD的關係

首先，從SVD入手：

X_{(d \times N)} = U Σ V^{T} \to X X^{T} = U Λ U^{T}

$X_{(d\times N)}=U\Sigma V^T\rightarrow XX^T=U\Lambda U^T$

U^{T}

XXTU=Λ" role="presentation">

U^{T} X X^{T} U = Λ

$U^TXX^TU=\Lambda$

然後，這是PCA的目標：

\begin{matrix} min_{W} & W^{T} X X^{T} W \\ s . t . & W^{T} W = I \end{matrix}

$\matrix{\min_W & W^TXX^TW\\s.t.&W^TW=I}$

因此PCA的實現，既可以對協方差矩陣 $XX^T_{(d\times d)}$ 做特徵值分解，也可以直接對 $X$ 做奇異值分解。

Kmeans與SVD/EVD的關係

首先從SVD出發：

X_{(d \times N)} = U Σ V^{T} \to X^{T} X = V Λ V^{T}

$X_{(d\times N)}=U\Sigma V^T\rightarrow X^TX=V\Lambda V^T$

V^{T} X^{T} X V = Λ

$V^TX^TXV=\Lambda$

然後看Kmeans。Kmeans對誤差的分佈有要求，即要求誤差服從標準正態分佈，因此，Kmeans在處理非標準正態分佈的資料集時，聚類效果會比較差。Kmeans聚類的每一次迭代，是根據現有的 $k$ 個類中心，樣本根據自身與中心的距離判斷類歸屬，然後計算出每一個類的中心進入下一次迭代。由於Kmeans的核心是基於樣本與類中心的歐式距離，伊霓裳可以將Kmeans聚類的目標理解為：劃分 $K$ 個類 $C={C_1,C_2,\cdots, C_K}$ ，使得各類樣本到各自類中心的歐式距離之和最小。

\begin{matrix} min_{C} \sum_{k} \sum_{i \in C_{k}} | | x_{i} - μ_{k} | |_{2}^{2} \\ = & min_{C} \sum_{k} \sum_{i \in C_{k}} (x_{i}^{T} x_{i} - 2 x_{i}^{T} μ_{k} + μ_{k}^{T} μ_{k}) \\ = & min_{C} (\sum_{i} x_{i}^{T} x_{i} - \sum_{k} \frac{1}{n_{k}} \sum_{i, j \in C_{k}} x_{i}^{T} x_{j}) \\ = & min_{C} (T r (X^{T} X) - T r (H X^{T} X H)) \end{matrix}

$\matrix{&\min_{C} \sum_{k}\sum_{i\in C_k}||x_i-\mu_k||^2_2\\ =&\min_C\sum_k\sum_{i\in C_k}(x_i^Tx_i-2x_i^T\mu_k+\mu_k^T\mu_k)\\ =&\min_C\left ( \sum_ix_i^Tx_i-\sum_k\frac{1}{n_k}\sum_{i,j\in C_k} x_i^Tx_j\right )\\ =&\min_C\left (Tr(X^TX)-Tr(HX^TXH)\right )\\}$

\Leftrightarrow \begin{matrix} max_{H} & T r (H^{T} X^{T} X H) \\ s . t . & H^{T} H = I_{K \times K} \end{matrix}

$\Leftrightarrow \matrix{ \max_H & Tr(H^TX^TX </div> <div class="entry-footer"> <div class="entry-tag"> </div> <div class="entry-page"> <center><script type="text/javascript" src="/js/article.js">$

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA與SVD/EVD的關係

Kmeans與SVD/EVD的關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA、SVD、譜聚類

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

《機器學習實戰》二分-kMeans演算法（二分K均值聚類）

瞭解 kmeans演算法和譜聚類演算法

PCA、SVD和協方差矩陣的關係

降維的四種方法：PCA、LDA、LLE、Laplacian Eigenmaps

四大機器學習降維演算法：PCA、LDA、LLE、Laplacian Eigenmaps

PCA、LDA的參考學習、理解、混亂、清晰的過程

特徵選擇和特徵提取區別、PCA VS LDA

PCA(主成分分析)降維的概念、作用及演算法實現

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、數據降維

NLP︱LDA主題模型的應用難題、使用心得及從多元統計角度剖析

機器學習（十六）無監督學習、聚類和KMeans聚類

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

三、降維——PCA, 3d視覺化以及R聚類

降維演算法（LASSO、PCA、聚類分析、小波分析、線性判別分析、拉普拉斯特徵對映、區域性線性嵌入）

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

Kmeans、Kmeans++、Birch和KNN四種聚類演算法對二維座標點的聚類分析對比實驗

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA與SVD/EVD的關係

Kmeans與SVD/EVD的關係

相關推薦