深度學習不深度-PCA與AutoEncoder

阿新 • • 發佈：2018-12-10

1.AutoEncoder

AutoEncoder稱之為自編碼器,自編碼器過程如下：

我們的目標是使得 $x和\tilde{x}$ 越接近越好。x經過Encoder後得到y（code）可以看作是一個降維的過程，因此與PCA類似。AutoEncoder原理十分簡單，可以利用y（code）做分類，在y（code）較少的情況下，則需要考慮加入噪音來平衡。

2. PCA涉及數學知識

PCA是一種資料分析方法，將原始資料變換成一組各維度線性無關的表示，可以用來提取主要特徵，進而實現降維。眾所周知，在機器學習演算法中，演算法的複雜度與資料的維度是緊密相關的，因此提取資料的主要特徵來降低演算法的複雜度是一個不錯的選擇。

相關性：

兩個變數的關聯程度。舉個例子：電商某一商品的銷量與訪問量相關，一般情況下訪問量高，銷量也高，如果此時刪除訪問量，根據銷量也可以推出訪問量的大小（反之亦然），因此訪問量這個屬性對資料分析影響不大。再舉個例子：新生入學，男女選項有兩個，設定為0和1,即非男即女（陰陽人不算），如果在男女結果兩列中刪除一列，可以根據一列推出另一列的值。上面兩個例子都可以看出本來兩個屬性（欄位），刪除其中一個，依然可以根據另一個推出，這就是直觀理解降維過程了。

內積幾何解釋：向量A和向量B，A $\cdot$ B=|A|*cos( $\alpha$ )*|B|，也就是A在B上的投影長度 $\times$ B的模。

基：線上性代數中，基（也稱為基底）是描述、刻畫向量空間的基本工具。向量空間的基是它的一個特殊的子集，基的元素稱為基向量。向量空間中任意一個元素，都可以唯一地表示成基向量的線性組合。如果基中元素個數有限，就稱向量空間為有限維向量空間，將元素的個數稱作向量空間的維數-----來自百度百科。說來說去，基就類似於一個單位，某一個向量可以表示為基向量的線性組合，基向量的維度決定了變換後向量的維度，因此在降維中可以選擇維度較小的基。

問題在於：在PCA降維過程中如何合理的選擇基呢？（先留著，最後回答）

具體問題：在儘量保持原有二維資料的資訊的基礎上，如何用一維資料來表示二維資料呢？

採用的方法是：選取一條直線，把所有二維上的點投影到該直線上，計算出新的座標，最合理的直線選擇就是希望投影后的投影值儘可能的分散，這樣對原有資料影響最小。

方差：在數學上有一個術語可以用來衡量資料的分散程度，那就是方差。

如果把資料a中所有欄位都去均值，則方差就如下：

此時降維問題就可以表示為：尋找一個低維度的基，使得所有資料在新基上表示後，新的座標（值）方差最大。

協方差：對於高維（3維以上），我們希望找到一個方向，使得向量投影后的方差最大，但如果低維有2個以上分量該如何做呢？（如何投影？）此時就不能像在2維降低到一維一樣投影了。在利用新的基變換後的欄位儘可能表示更多的原始資訊，同時希望變換後的欄位（分量）之間無相關性，否則就重複表示了（見相關性

解釋）。在數學上，協方差可以表示相關性，協方差為0的兩個隨機變數不相關，但是不一定獨立。

降維優化的目標直觀表達：將一組N維向量降低至K維（K>0,K<N)，目標是選擇K個單位（模為1)的正交基，使得原始資料變換到這組基上後，各欄位兩兩間協方差為0，而欄位的方差則儘可能大（在正交的約束下，取最大的K個方差）。

矩陣乘法：在連結中第1,2節有介紹。矩陣乘法可以看作是（行/列）向量的線性組合。

協方差矩陣：上面我們匯出了優化目標，但沒有說怎麼做。所以我們要繼續在數學上研究計算方案。我們看到，最終要達到的目的與欄位內方差及欄位間協方差有密切關係。因此我們希望能將兩者統一表示，仔細觀察發現，兩者均可以表示為內積的形式，而內積又與矩陣相乘密切相關。於是我們來了靈感：假設我們只有a和b兩個欄位，那麼我們將它們按行組成矩陣X：