機器學習筆記(四）PCA主成分分析

阿新 • • 發佈：2018-12-13

首先先複習一下要用到的基礎的知識：

（一）、協方差和方差

樣本均值：

樣本方差：

樣本X和樣本Y的協方差：

協方差代表了兩個變數之間的相關關係，協方差為正時，說明X和Y是正相關關係；協方差為負時，說明X和Y是負相關關係；協方差為0時，說明X和Y是相互獨立。Cov(X,X)就是X的方差。當樣本是n維資料時，它們的協方差實際上是協方差矩陣(對稱方陣)。例如，對於3維資料(x,y,z)，計算它的協方差就是：

（二）、特徵值與特徵向量

如果向量v與變換A滿足Ax=λx，則稱向量x是變換A的一個特徵向量，λ是相應的特徵值。

描述正方形矩陣的特徵值的重要工具是特徵多項式，λ是A的特徵值等價於線性方程組(A – λI) x = 0 （其中I是單位矩陣）有非

零解x (一個特徵向量)，因此等價於行列式|A – λI|=0 。

函式p(λ) = det(A – λI)是λ的多項式，因為行列式定義為一些乘積的和，這就是A的特徵多項式。矩陣的特徵值也就是其特徵多項式的零點。一個矩陣A的特徵值可以通過求解方程pA(λ) = 0來得到。若A是一個n×n矩陣，則pA為n次多項式，因而A最多有n個特徵值,包括虛數。但是如果是是對稱矩陣的話他的特徵值都是實數。Ax表示對向量x的旋轉拉伸。如果Ax和x的方向一樣，只是長度不一樣，說明x是A的特徵向量，拉伸倍數為λ。例如下圖，x3是A的特徵向量。

如果有n個線性無關的特徵向量，與它們對應的特徵值是，以

為列向量組作成一個可逆矩陣T，對角矩陣

對角元素的分別是

，可以得到

（三）、PCA演算法的數學原理。

先看下面這幅圖：

先假定只有二維，即只有兩個變數，它們由橫座標和縱座標所代表；因此每個觀測值都有相應於這兩個座標軸的兩個座標值；如果這些資料形成一個橢圓形狀的點陣，那麼這個橢圓有一個長軸和一個短軸。在短軸方向上，資料變化很少；在極端的情況，短軸如果退化成一點，那只有在長軸的方向才能夠解釋這些點的變化了；這樣，由二維到一維的降維就自然完成了。上圖中，u1就是主成分方向，然後在二維空間中取和u1方向正交的方向，就是u2的方向。則n個數據在u1軸的離散程度最大（方差最大），資料在u1上的投影代表了原始資料的絕大部分資訊，即使不考慮u2，資訊損失也不多。而且，u1、u2不相關。只考慮u1時，二維降為一維。

對給定的一組資料（下面的闡述中，向量一般均指列向量）：

其資料中心位於:

資料中心化（將座標原點移到樣本點的中心點）：

中心化後的資料在第一主軸u1方向上分佈散的最開，也就是說在u1方向上的投影的絕對值之和最大（也可以說方差最大），計算投影的方法上面已經闡述，就是將x與u1做內積，由於只需要求u1的方向，所以設u1也是單位向量。

在這裡，也就是最大化下式：

由矩陣代數相關知識可知，可以對絕對值符號項進行平方處理，比較方便。所以進而就是最大化下式：

兩個向量做內積，可以轉化成矩陣乘法：

所以目標函式可以表示為：

括號裡面就是矩陣乘法表示向量內積，由於列向量轉置以後是行向量，行向量乘以列向量得到一個數，一個數的轉置還是其本身，所以又可以將目標函式化為：

去括號：

又由於u1和i無關，可以拿到求和符外面，上式化簡為：

學過矩陣代數的同學可能已經發現了，上式括號裡面求和後的結果，就相當於一個大矩陣乘以自身的轉置，其中，這個大矩陣的形式如下：

X矩陣的第i列就是xi

於是有：

所以目標函式最終化為：

其中的就是一個二次型，

我們假設的某一特徵值為λ，對應的特徵向量為ξ，有

所以，是半正定的對稱矩陣，即是半正定陣的二次型，由矩陣代數知識得出，目標函式存在最大值

由於我們做過均值化處理，正好為X的協方差矩陣,假設為C。此時優化目標變為

max

subject ,(我們只需要找到投影u的方向，因此將u的長度設為1，方便計算)

lagrange 函式為：

對u求導可得

可知為C的特徵值，u為C的特徵向量。此時

因此u1就是C的最大特徵值對應的特徵向量。

總結一下PCA的演算法步驟：

設有m條n維資料。

1）將原始資料按列組成n行m列矩陣X

2）將X的每一行（代表一個屬性欄位）進行零均值化，即減去這一行的均值

3）求出協方差矩陣C=1mXXTC=1mXXT

4）求出協方差矩陣的特徵值及對應的特徵向量

5）將特徵向量按對應特徵值大小從上到下按行排列成矩陣，取前k行組成矩陣P

6）Y=PXY=PX即為降維到k維後的資料

宣告：參考了大量文章並加入自己的理解，非完全原創

機器學習筆記(四）PCA主成分分析

首先先複習一下要用到的基礎的知識：（一）、協方差和方差樣本均值：樣本方差：樣本X和樣本Y的協方差：協方差代表了兩個變數之間的相關關係，協方差為正時，說明X和Y是正相關關係；協方差為負時，說明X和Y是負相關關係；協方差為0時，說明X和Y是相互獨立

機器學習（七）：主成分分析PCA降維_Python

六、PCA主成分分析（降維） 1、用處資料壓縮（Data Compression）,使程式執行更快視覺化資料，例如3D-->2D等 …… 2、2D–>1D，nD–&

機器學習---降維之PCA主成分分析法

（一）、主成分分析法PCA簡介 PCA 目的：降維——find a low dimension surface on which to project data ~如圖所示，尋找藍色的點到

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

機器學習（十四）——協同過濾的ALS演算法（2）、主成分分析

Kendall秩相關係數（Kendall rank correlation coefficient）對於秩變數對(xi,yi),(xj,yj)： (xi−xj)(yi−yj)⎧⎩⎨>0,=0,<0,concordantneither con

機器學習回顧篇（14）：主成分分析法（PCA）

1 引言¶ 在展開資料分析工作時，我們經常會面臨兩種困境，一種是原始資料中特徵屬性太少，“巧婦難為無米之炊”，很難挖掘出潛在的規律，對於這種情況，我們只能在收集這一環節上多下功夫；另一種困境剛好相反，那就是特徵

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

機器學習之PCA主成分分析

ping app 最大們的理解 style 避免 -m size 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　在用統計分析方法研究多變量的課題時，變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較

【模式識別與機器學習】——PCA主成分分析

基本思想其基本思想就是設法提取資料的主成分（或者說是主要資訊），然後摒棄冗餘資訊（或次要資訊），從而達到壓縮的目的。本文將從更深的層次上討論PCA的原理，以及Kernel化的PCA。引子首先我們來考察一下，這裡的資訊冗餘是如何體現的。如下圖所示，我們有一組二維資料點，從圖上不難發現

資料探勘學習------------------1-資料準備-４-主成分分析（PCA）降維和相關係數降維

１.４資料降維在分析多個變數時發現它們中有一定的相關性。有一種方法將多個變數綜合成少數幾個相互無關的代表性變數來代替原來的變數，這就是資料降維，可以考慮主成分分析法。 1)、主成分分析法（PCA） 1、基本思想（1）如果將選取的第一個線性組合即第一個綜合變數記為F

如何輸出格式化的字符串（學習筆記四）

linux python 格式化整數浮點數如何輸出格式化的字符串（學習筆記四）我們經常會輸出類似 ‘親愛的xxx你好！你xx月的話費是xx，余額是xx‘ 之類的字符串，而xxx的內容都是根據變量變化的，所以，需要一種簡便的格式化字符串的方式。在Python中，采用的格式化方式和C語言是一致的，

機器學習（四）—邏輯回歸LR

-s 劃分也有進行完美特征處理 tin 向量進一步 1、關於模型在各個維度進行不均勻伸縮後，最優解與原來等價嗎？　　答：等不等價要看最終的誤差優化函數。如果經過變化後最終的優化函數等價則等價。明白了這一點，那麽很容易得到，如果對原來的特征乘除某一常數，則等價。

機器學習（四）機器學習與深度學習的實際應用整理

前言本文主要是整理備份機器學習與深度學習的實際應用，儘量給出原始作者網站，包括論文、程式碼和github等原始資料。共勉！實際應用基於深度神經網路的免費開源的人臉識別系統 openface已經到了0.2.1了，備份一個基

【Mark Schmidt課件】機器學習與資料探勘——主元分析PCA

本課件主要內容包括：上次課程回顧：MAP估計人類 vs. 機器感知隱因子模型向量量化向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式英文原文課件下載地址： h

演算法工程師修仙之路：吳恩達機器學習（四）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸分類在分類問題中，要預測的變數y是離散的值，邏輯迴歸 (Logistic Regression) 演算法是目前最流行使用最廣泛的一種學習演算法。在分類問題中，我們嘗試預測的是結果

機器學習（四）邏輯迴歸模型訓練

本篇不講演算法只講用Python （pandas, matplotlib, numpy, sklearn) 進行訓練的一些要點 1.合併index np.concatenate([index1,index2]) 2.from sklearn.cross_va

Python教程：進擊機器學習（四）--Matplotlib

介紹 Matplotlib是Python庫中最經常用來繪製圖的，它可以快速的視覺化你的資料，並且匯出不同的格式。用Matplotlib繪製的圖可以達到出版書籍和論文的質量要求。我們開始探索在處理一些常見的資料時應用Matplotlib。 pyplo

R語言 PCA(主成分分析）

1、關鍵點綜述：主成分分析因子分析典型相關分析，三種方法的共同點主要是用來對資料降維處理的從資料中提取某些公共部分，然後對這些公共部分進行分析和處理。 #主成分分析是將多指標化為少數幾個綜合指標的一種統計分析方法主成分分析是一種通過降維技術把多個變數化成少數幾個主成分的方法，這些主成分能夠反映原

機器學習（四）：BP神經網路_手寫數字識別_Python

機器學習演算法Python實現三、BP神經網路全部程式碼 1、神經網路model 先介紹個三層的神經網路，如下圖所示輸入層（input layer）有三個units（為