1. 程式人生 > >因子分析

因子分析

pan alt 知識 重要性 描述 目錄 什麽是 背景 -c

目錄:

  • 什麽是因子分析
  • 因子分析的作用
  • 因子分析模型
  • 因子分析的統計特征
  • 因子載荷矩陣的估計方法
  • 因子旋轉
    • 為什麽要做因子旋轉
    • 因子旋轉方法
  • 因子得分
  • 因子分析步驟
  • 舉例
  • 因子分析和主成分分析區別

1、什麽是因子分析?

因子分析是一種數據簡化技術

  • 它通過研究眾多變量間的依賴關系,探求觀測數據中的基本數據結構,並且用少數幾個假象變量(因子)來表示其基本數據結構
  • 這幾個假想變量(因子)可以表示原來眾多的原始變量的主要信息
  • 原始變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,即因子

即一種用來在眾多變量中辨別、分析和歸結出變量間的相互關系用簡單的變量(因子)來描述這種關系

的數據分析方法

如考察中學生的語文、英語、歷史,數學、物理、化學成績;

  • 語文、英語、歷史有很強的正相關;
  • 數學、物理、化學有很強的正相關;

於是可以提取出兩個因子:文科因子和理科因子

2、因子分析的主要作用?

  • 尋求基本數據結構
  • 數據簡化
    • 強相關問題會對分析帶來困難
    • 通過因子分析可以找出少數的幾個因子替代原來的變量做回歸分析、聚類分析和判別分析

3、因子分析模型

技術分享圖片

A稱為因子載荷矩陣

4、統計特征

因子載荷$a_{ij}$是第i個變量與第j個公共因子的相關系數;

共同度:變量$X_i$的共同度是因子載荷矩陣的第i行的元素的平方和,記為$h_i^2=\sum_{j=1}^{m}a_{ij}^2$;所有的公共因子和特殊因子對變量$X_i$的貢獻為1,若$h_i^2$非常接近1,則因子分析的效果好,從原變量空間到公共因子空間的轉化性質好;

貢獻:因子載荷矩陣中各列元素的平方和$S_j=\sum_{i=1}^p a_{ij}^2$,稱為Fj對所有的$X_i$的方差貢獻和,衡量Fj的相對重要性;

5、因子載荷矩陣的估計方法

  • 主成分分析法

  1)得到原始變量的相關系數矩陣;

  2)主成分分析,得到特征值和特征向量;

  3)確定因子個數(特征根大於1的;碎石原則:特征根從大到小排列,篩掉減小速度變緩的特征根);

  4)載荷矩陣等於:特征向量*√(λ_i );

註:主成分分析法忽略了特殊因子。

  • 主因子法
  • 極大似然法

6、因子旋轉(正交變換)

技術分享圖片 技術分享圖片

為什麽要因子旋轉?

  • 因子分析的目的不僅僅是要找出公共因子以及對變量進行分組,更重要的是要知道每個公共因子的意義,以便進行進一步的分析。如果每個公共因子的含義不清,則不便於進行實際背景的解釋。
  • 初始因子的綜合性太強,難以找出因子的實際意義。由於因子載荷陣是不唯一的,所以可以對因子載荷陣進行旋轉,使因子載荷陣的結構簡化,使其每列或行的元素平方值向0和1兩極分化。

因子旋轉方法

  • 方差最大法:使得每個因子上的載荷盡量拉開差距,各自趨向於0,1;
  • 四次方最大法:使得每個變量上的載荷盡量拉開差距,各自趨向於0,1;
  • 等量最大法:結合上兩個方法;

7、因子得分
當我們需要用因子再做分析時,就需要對因子進行測度,給出公共因子的值;

技術分享圖片

因子得分函數:把因子表示成原變量的線性組合;(得不到精確的值,只能估計)

方法:

  • 巴特萊特因子得分(加權最小二乘法)
  • 回歸方法

8、因子分析步驟
1)選擇分析的變量

  因子分析的前提條件是觀測變量間有較強的相關性,因為如果變量之間沒有相關性或者相關性較小的話,他們不會有共享因子;

2)計算所選原始變量的相關系數矩陣

  這也是判斷所選變量是否有相關關系,如果沒有,做因子分析是不恰當的;

3)提取公共因子

  需要確定因子求解的方法和因子的數目。跟經驗關系很大,一般方差小於1的因子貢獻就很弱了,或者累計貢獻率可以達到60%;

4)因子旋轉

  通過坐標變換使得原始變量和盡可能少的因子有密切關系,這樣的因子實際意義更易解釋;

5)計算因子得分

  有了因子得分值,則可以在以後的分析(聚類分析、回歸分析)中繼續使用因子;

9、舉例

技術分享圖片 技術分享圖片

技術分享圖片 技術分享圖片

註:
  因子分析是十分主觀的,得到的因子究竟有什麽意義也都是憑借自己的先驗知識才可以知道的,所以評價因子分析的質量也很主觀了。

10、主成分分析和因子分析的區別

  • 主成分分析僅是變量變換,而因子分析需要構造因子模型;

  主成分分析是用原始變量的線性組合來表示新的綜合變量,即主成分;

  而因子分析是用潛在的假想變量和隨機影響變量的線性組合來表示原始變量;因子分析除了公共因子外還有特殊因子。

  • 由於模型的特點,因子分析還多了”因子旋轉“這一步,旋轉後的公共因子一般沒有主成分那麽綜合,公共因子往往可以找到實際意義,而主成分一般沒有實際意義;

最後:

若數據本身就十分的獨立,就很難用少數的變量取表示原始變量,降維可能失敗,數據越相關,降維效果越好,可用如下辦法進行變量間的相關性檢驗:

  • KMO樣本測度:KMO>0.7:適合;KMO<0.5:不適合;
  • 巴特萊特球體檢驗:H0:相關系數矩陣R為單位陣,拒絕H0可作因子分析;

因子分析