主成分分析與SPSS實例分析
今天,在西瓜書上看到了主成分分析法,之前建模有接觸過但是理解不夠深刻,今天再次和這一位老朋友聊聊。
主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。
主成分分析,是考察多個變量間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
簡單說,主成分分析的作用是降維。通過降維將原來多變量解釋的問題,映射到更少指標,轉換成少變量的可解釋性問題。但是註意經過主成分分析後的變量與原變量不存在邏輯關系,僅僅是存在線性組合的關系。[1]
。
一、算法原理:
輸入:樣本集D={x1,x2...xm};
低維空間維數d‘.
過程:
1.對所有樣本進行中心化:
2.計算樣本的協方差矩陣XXT;
3.對協方差矩陣XXT做特征值分解;
4.取最大的d‘個特征值所對應的特征向量w1,w2...wd‘;
輸出:投影矩陣W*=(w1,w2...wd‘) .[2]
二、PCA原理
三、SPSS進行主成分分析
由於SPSS本身就是一個用於數據分析的軟件,因此操作簡單無需編程,即可直觀感受主成分分析帶來的效果。
先胡亂編制了一些數據:
在SPSS裏,點擊分析->降維->因子,在彈出的對話框中,將需要分析的變量都送入變量欄中。根據個人需要在描述、提取、旋轉、得分、選項中勾選。此處我們註意在提取中勾選主成分。
點擊“確定”:
最後我們可以看到提取了兩個主成分
觀察兩個主成分中的貢獻率,我們會發現第一個主成分包含貢獻率較高的項為數學、物理、化學、生物,實際意義即理科,第二主成分包含歷史、地理,即文科。具有良好解釋性。
(未完待續)
參考文獻:
[1] https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840?fr=aladdin
[2]周誌華,機器學習,清華大學出版社,2016年1月1版.
2019-03-09
00:05:40
主成分分析與SPSS實例分析