特徵降維一般有兩類方法：特徵選擇和特徵抽取。特徵選擇即從高緯度的特徵中選擇其中的一個子集來作為新的特徵；而特徵抽取是指將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。常用的特徵抽取方法就是PCA。

PCA（Principal Component Analysis）是一種常用的資料分析方法。PCA通過線性變換將原始資料進行線性變換、對映到低維空間中，使得各維度線性無關的表示，可用於提取資料的主要特徵分量。

向量的表示及基變換

向量即為有方向和大小的量，例如a(3,2)本身可以表示向量，其中包含了隱式的定義：以x軸和y軸上正方向長度為1的向量為標準，a=x⃗ (1,0)T+y⃗ (0,1

)T，可以證明x⃗ ,y⃗ 即為二維空間中的一組基。

要準確描述向量，首先要確定一組基，然後給出在基所在的各個直線上的投影值，就可以了

一組基的唯一要求就是線性無關，非正交的基也是可以的。

基變換的矩陣表示

可以用矩陣的變換表示上面變數將基變為(12√,12√),(−12√,12√)：

⎡⎣⎢⎢⎢12√−12√12√12√⎤⎦⎥⎥⎥∗[32]=⎡⎣⎢⎢⎢52√−12√⎤⎦⎥⎥⎥

變換的基向量，原始向量如圖：

有M個N維向量，想將其變換為由R個N維向量表示的新空間中，那麼首先將R個基按行組成矩陣A，然後將向量按列組成矩陣B，那麼兩矩陣的乘積AB就是變換結果，其中AB的第m列為A中第m列變換後的結果

。數學表示：

⎡⎣⎢⎢⎢⎢p1p2...pR⎤⎦⎥⎥⎥⎥∗[a1,a2,...,aM]=⎡⎣⎢⎢⎢⎢p1a1p2a1....pRa1p1a2...p1aMp2a2...p2aMpRa2...pRaM⎤⎦⎥⎥⎥⎥
其中pi是行向量，每一個都是一個基，aj是一個列向量，表示原始機率。R決定了變換後資料的維度

兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去

協方差矩陣及優化目標

如何選擇基才是最優的。或者說，如果我們有一組N維向量，現在要將其降到K維（K小於N），那麼我們應該如何選擇K個基才能最大程度保留原有的資訊？

如果我們必須使用低維來表示高緯資料，又希望儘量保留原始的資訊，要如何選擇？

通過上一節對基變換的討論我們知道，這個問題實際上是要在二維平面中選擇一個方向，將所有資料都投影到這個方向所在直線上，用投影值表示原始記錄。這是一個實際的二維降到一維的問題。

那麼如何選擇這個方向（或者說基）才能儘量保留最多的原始資訊呢？一種直觀的看法是：希望投影后的投影值儘可能分散。

方差

投影后投影值儘可能分散，而這種分散程度，可以用數學上的方差來表述。

Var(a)=1m∑i=1m(ai)2

其中，ai=(a‘i−μ)，即每個欄位都均值化為0。

尋找一個一維基，使得所有資料變換為這個基上的座標表示後，方差值最大。

協方差

找到一個方向使得投影后方差最大，這樣就完成了第一個方向的選擇，繼而我們選擇第二個投影方向。

單純只選擇方差最大的方向，很明顯，這個方向與第一個方向應該是“幾乎重合在一起”，因此不希望它們之間存在（線性）相關性的，因為相關性意味著兩個欄位不是完全獨立，必然存在重複表示的資訊。

數學上可以用兩個欄位的協方差表示其相關性，由於已經讓每個欄位均值為0，則：

Cov(a,b)=1m∑i=1mai

『特徵降維』PCA原理-Principal Component Analysis

向量的表示及基變換

基變換的矩陣表示

協方差矩陣及優化目標

方差

協方差

『特徵降維』PCA原理-Principal Component Analysis

基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

從矩陣（matrix）角度討論PCA（Principal Component Analysis 主成分分析）、SVD（Singular Value Decomposition 奇異值分解）相關原理

主成分分析（PCA，Principal Component Analysis）

[機器學習]PCA（principal component analysis）

deep learning PCA(主成分分析)、主份重構、特徵降維

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

機器學習實踐（五）—sklearn之特徵降維

吳恩達機器學習（十二）主成分分析（降維、PCA）

降維(一) PCA

機器學習--降維技術PCA

機器學習實戰（十二）降維（PCA、SVD）

資料降維(三)PCA主成分分析

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree

特徵選擇與特徵降維的差別

機器學習---降維之PCA主成分分析法

機器學習-->特徵降維方法總結

機器學習筆記（二）——廣泛應用於資料降維的PCA演算法實戰

降維演算法--PCA 與 t-SNE

吳恩達機器學習總結：第十一降維（PCA）（大綱摘要及課後作業）

『 特徵降維』PCA原理-Principal Component Analysis

向量的表示及基變換

基變換的矩陣表示

協方差矩陣及優化目標

方差

協方差

相關推薦

『特徵降維』PCA原理-Principal Component Analysis