夜闌臥聽風吹雨,鐵馬是你,冰河也是你。
阿新 • • 發佈:2018-12-17
PCA原理
- 又叫KLT
- 動機:多個變數之間存在一定程度的相關性,可以通過線性組合的方式從中提取資訊
- 主成分分析:將原始的高維資料投影到低維空間,並儘可能的保留更多的資訊
- 衡量標準:
- 投影后資料方差最大(如下圖)
- 最小化重構平方誤差 ( 二者等價)
- 從而達到降維的目的:用較少的主成分得到較多資訊
下圖三維資料降維到灰色平面(二維空間),改平面使得資料方差最大
PCA演算法
PCA虛擬碼
建議PCA不要先用,一般用來做最後的優化才好 PCA
非監督的降維方法,使用SVD分解,進行壓縮去噪,還出現了PCA變種:非線性的KPCA(kernelPCA),還有解決記憶體限制的增量PCA方法incremental PCA(分批次,但是該演算法限制太大,一般的資料不適合) ,以及解決稀疏資料降維的PCA方法Sparse PCA 等,以及隨機PCA
優點: 1)只需要以方差衡量資訊量,不受資料集以外的資料影響 2)各主成分之間正交,可消除原始資料成分之間的相互影響的因素 3)計算方法簡單,主要運算時特徵值分解,易於實現 PCA的主要缺點: 1)主成分各個特徵維度的含義具有一定 的模糊性,不如原始樣本的特徵的解釋性強。 2)方差小的非主成分也有可能含有對樣本差異的重要資訊,因降維丟失可能對後續資料處理有影響
EVD
SVD用於和自然語言處理,推薦系統,是大部分的機器學習的基石