奇異值分解（SVD）和主成分分析（PCA）

阿新 • • 發佈：2019-01-29

設X是一個n*m的資料矩陣（在此不把它理解成變換），每一列表示一個數據點，每一行表示一維特徵。

對X做主成分分析（PCA）的時候，需要求出各維特徵的協方差，這個協方差矩陣是 $XX^T/n$ 。
（其實需要先把資料平移使得資料的均值為0，不過在此忽略這些細節）
PCA做的事情，是對這個協方差矩陣做對角化： $XX^T/n = P\Lambda P^T$
可以這樣理解上式右邊各項的物理意義：用一個均值為0的多維正態分佈來擬合數據，則正交矩陣P的每一列是正態分佈的概率密度函式的等高線（橢圓）的各個軸的方向，而對角矩陣 $\Lambda$ 的對角線元素是資料在這些方向上的方差，它們的平方根跟橢圓各個軸的長度成正比。

現在來看資料矩陣X的奇異值分解： $X=USV^T$ ，其中U、V各列是單位正交的，S是對角陣，對角元非零。
由此式可以得到 $XX^T/n = USV^TVSU^T/n = U(S^2/n)U^T$

。
也就是說，SVD中的矩陣U相當於PCA中的矩陣P，不過僅保留了 $\Lambda$ 的非零特徵值對應的那些特徵向量，而 $S/\sqrt{n}=\Lambda^{1/2}$ （也只保留了非零特徵值）。
所以，SVD中的U代表了X中資料形成的正態分佈的軸的方向（一組單位正交基）， $S/\sqrt{n}$ 代表了這些軸的長度（分佈的標準差）。
那麼V呢？可以把US放在一起看成一個由伸縮和旋轉組成的座標變換（不包括平移），資料矩陣X是由資料矩陣 $V^T$ 經此變換得來的，而 $V^T$ 的各列（V的各行）則服從標準正態分佈。這也就是說， $V^T$ 的各維特徵（ $V^T$ 的各行，V的各列）是互不相關的且各自的方差均為1，也就是說V的各列是單位正交的。

現在換一個角度，把X中的各行看作資料，那麼 $X=USV^T$ 就也有了新的理解。
現在， $V^T$ 的各行（V的各列）就成了X的各行形成的正態分佈的軸向（單位正交基）， $S/\sqrt{m}$

是這些軸的長度，而U中的各行資料服從標準正態分佈，U的各列單位正交。

可以看到，對於 $X=USV^T$ 這個式子，無論是把X的各行還是各列看成資料，都能解釋U、V各列的單位正交性，但它們的單位正交性的含義不同（一個是單位正交基，一個是標準正態分佈）。其中S除以資料個數的平方根後是標準正態分佈在各個軸上的標準差，從兩個角度看得到的標準差是成比例的。

奇異值分解（SVD）和主成分分析（PCA）

奇異值分解（SVD）和主成分分析（PCA）

Pipline（流水線）和主成分分析

從矩陣（matrix）角度討論PCA（Principal Component Analysis 主成分分析）、SVD（Singular Value Decomposition 奇異值分解）相關原理

主成分分析（PCA）和基於核函式的主成分分析（KPCA）入門

主成分分析（PCA）原理詳解（轉載）

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

對圖像進行主成分分析（PCV.tools.pca.pca）

【原始碼】主成分分析（PCA）與獨立分量分析（ICA）MATLAB工具箱

主成分分析（PCA）詳細講解

主成分分析（PCA，Principal Component Analysis）

吳恩達機器學習（十二）主成分分析（降維、PCA）

主成分分析（PCA）原理詳解

主成分分析（轉）

主成分分析（PCA）在壓縮影象方面的應用

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

使用主成分分析（PCA）方法對資料進行降維

機器學習實戰學習筆記5——主成分分析（PCA）

主成分分析（PCA）-理論基礎

主成分分析（PCA）的線性代數推導過程

【機器學習-斯坦福】學習筆記14 主成分分析（Principal components analysis）-最大方差解釋

奇異值分解（SVD）和主成分分析（PCA）

相關推薦