1 PCA

主成分分析法，一般用於資料降維。WHY?
影象中相鄰的畫素高度相關，輸入資料是有一定冗餘的。具體來說，假如我們正在訓練的16x16灰度值影象，記為一個256維向量，其中特徵值對應每個畫素的亮度值。由於相鄰畫素間的相關性，PCA演算法可以將輸入向量轉換為一個維數低很多的近似向量，而且誤差非常小。

1.1 PCA例項

資料：

這些資料已經進行了預處理，使得每個特徵和具有相同的均值（零）和方差。PCA演算法將尋找一個低維空間來投影我們的資料。從下圖中可以看出，是資料變化的主方向，而是次方向。

也就是說，資料在方向上的變化要比在

2方向上大。為更形式化地找出方向

和

，我們首先計算出矩陣

，如下所示：

假設的均值為零，那麼就是x的協方差矩陣。可以證明，資料變化的主方向就是協方差矩陣的主特徵向量，而是次特徵向量。
先計算出協方差矩陣的特徵向量，按列排放，而組成矩陣：

此處，是主特徵向量（對應最大的特徵值），是次特徵向量。以此類推，另記為相應的特徵值。

在本例中，向量和構成了一個新基，可以用來表示資料。令為訓練樣本，那麼就是樣本點

在維度

上的投影的長度（幅值）。同樣的，

是

投影到

維度上的幅值。

1.2 旋轉資料

可以把用基表達為：

（下標“rot”來源於單詞“rotation”，意指這是原資料經過旋轉（也可以說成對映）後得到的結果）。
對資料集中的每個樣本分別進行旋轉： for every ，然後把變換後的資料顯示在座標圖上，可得：

這就是把訓練資料集旋轉到，基後的結果。一般而言，運算表示旋轉到基之上的訓練資料。矩陣有正交性，即滿足

TU=UUT=I，所以若想將旋轉後的向量

還原為原始資料

，將其左乘矩陣

即可：

, 驗算一下：

1.3 資料降維

資料的主方向就是旋轉資料的第一維。因此，若想把這資料降到一維，可令：

更一般的，假如想把資料降到維表示（令）,只需選取的前個成分，分別對應前個數據變化的主方向。

PCA的另外一種解釋是：是一個維向量，其中前幾個成分可能比較大（例如，上例中大部分樣本第一個成分的取值相對較大），而後面成分可能會比較小（例如，上例中大部分樣本的較小）。

PCA演算法做的其實就是丟棄中後面（取值較小）的成分，就是將這些成分的值近似為零。具體的說，設是的近似表示，那麼將除了前個成分外，其餘全賦值為零，就得到：

在本例中，可得的點圖如下（取）：

然而，由於上面的後項均為零，沒必要把這些零項保留下來。所以，我們僅用前個（非零）成分來定義維向量。

這也解釋了我們為什麼會以為基來表示資料：要決定保留哪些成分變得很簡單，只需取前個成分即可。這時也可以說，我們“保留了前個PCA（主）成分”。

1.4 還原近似資料

給定，我們應如何還原原始資料呢？
只需即可，我們把看作將的最後個元素被置0所得的近似表示，因此如果給定，可以通過在其末尾新增來得到對的近似，最後，左乘便可近似還原出原資料。具體來說，計算如下：

上面的等式基於先前對的定義。在實現時，我們實際上並不先給填0然後再左乘，因為這意味著大量的乘0運算。我們可用來與的前列相乘，即上式中最右項，來達到同樣的目的。將該演算法應用於本例中的資料集，可得如下關於重構資料的點圖：

由圖可見，我們得到的是對原始資料集的一維近似重構。

在訓練自動編碼器或其它無監督特徵學習演算法時，演算法執行時間將依賴於輸入資料的維數。若用取代作為輸入資料，那麼演算法就可使用低維資料進行訓練，執行速度將顯著加快。對於很多資料集來說，低維表徵量是原資料集的極佳近似，因此在這些場合使用PCA是很合適的，它引入的近似誤差的很小，卻可顯著地提高你演算法的執行速度。

1.5 選擇主成分個數

我們該如何選擇，即保留多少個PCA主成分？在上面這個簡單的二維實驗中，保留第一個成分看起來是自然的選擇。對於高維資料來說，做這個決定就沒那麼簡單：如果過大，資料壓縮率不高，在極限情況時，等於是在使用原始資料（只是旋轉投射到了不同的基）；相反地，如果過小，那資料的近似誤差太太。

決定值時，我們通常會考慮不同值可保留的方差百分比。具體來說，如果

深度學習基礎（五）—— 資料預處理

1 PCA

1.1 PCA例項

1.2 旋轉資料

1.3 資料降維

1.4 還原近似資料

1.5 選擇主成分個數

深度學習基礎（五）—— 資料預處理

深度學習基礎（五）--聚類

CS231n課程學習筆記（七）——資料預處理、批量歸一化和Dropout

深度學習筆記（五）第五章深度學習基礎

機器學習基礎系列（2）——資料預處理

（轉載）深度學習基礎（1）——感知器

（轉載）深度學習基礎（3）——神經網路和反向傳播演算法

深度學習方法（五）：卷積神經網路CNN經典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning

（轉載）深度學習基礎（7）——遞迴神經網路

深度學習基礎（一） —— softmax 及 logsoftmax

深度學習基礎（二）—— 從多層感知機（MLP）到卷積神經網路（CNN）

深度學習基礎（七）—— Activation Function

深度學習系列（五）：一個簡單深度學習工具箱

TensorFlow：實戰Google深度學習框架（五）影象識別與卷積神經網路

Torch7深度學習教程（五）

深度學習筆記（五）用Torch實現RNN來製作一個神經網路計時器

深度學習基礎（九）—— 稀疏編碼（sparse coding）

深度學習基礎（六）：LSTM模型及原理介紹

資料探勘筆記（三）—資料預處理

Nematus（一）資料預處理與超引數配置

深度學習基礎（五）—— 資料預處理

1 PCA

1.1 PCA例項

1.2 旋轉資料

1.3 資料降維

1.4 還原近似資料

1.5 選擇主成分個數

相關推薦