sklearn因子分析（python）

阿新 • • 發佈：2019-01-11

因子分析

因子分析（Factor Analysis）是指研究從變數群中提取共性因子的統計技術，這裡的共性因子指的是不同變數之間內在的隱藏因子。例如，一個學生的英語、資料、語文成績都很好，那麼潛在的共性因子可能是智力水平高。因此，因子分析的過程其實是尋找共性因子和個性因子並得到最優解釋的過程。

因子分析有兩個核心問題：一是如何構造因子變數，二是如何對因子變數進行命名解釋。因子分析有下面4個基本步驟：

過程

1、確定原有若干變數是否適合於因子分析。因子分析的基本邏輯是從原始變數中構造出少數幾個具有代表意義的因子變數，這就要求原有變數之間要具有比較強的相關性，否則，因子分析將無法提取變數間的“共性特徵”（變數間沒有共性還如何提取共性？）。實際應用時，可以使用相關性矩陣進行驗證，如果相關係數小於0.3，那麼變數間的共性較小，不適合使用因子分析（

檢視變數間的相關性，也就是共有特徵是否有必要提取共性）

mport pandas as pd
mydata = pd.read_csv(r'D:\PythonDDD\datafiles\data.csv')
mydata.describe()import math
df = pd.DataFrame(mydata)
df['行駛里程1'] = df['行駛里程'].apply(lambda x: math.log(x))
df.boxplot(column = '行駛里程1', by='車號')#檢視車號的行駛里程
df.boxplot(column = '平均時速', by='車號')#檢視車號的平均時速



#樣本離差矩陣
import numpy as np
mydata = mydata.drop('車號', 1)
mydata = mydata.drop('行駛里程1', 1)
mydata_mean = mydata.mean()
E = np.mat(np.zeros((14, 14)))
for i in range(len(mydata)):
    E += (mydata.iloc[i, :].reshape(14, 1) - mydata_mean.reshape(14, 1)) * (mydata.iloc[i, :].reshape(1, 14) - mydata_mean.reshape(1, 14))


#樣本相關性矩陣
R = np.mat(np.zeros((14, 14)))
for i in range(14):
    for j in range(14):
        R[i, j] = E[i, j]/math.sqrt(E[i, i] * E[j, j])

或者

R1 = mydata.corr()       #樣本相關性矩陣

2、構造因子變數。因子分析中有多種確定因子變數的方法，如基於主成分模型的主成分分析法和基於因子分析模型的主軸因子法、極大似然法、最小二乘法等。其中基於主成分模型的主成分分析法是使用最多的因子分析方法之一。（不同方法不同效果）

import numpy.linalg as nlg
eig_value, eigvector = nlg.eig(R)#求矩陣R的全部特徵值，構成向量E。
print(eig_value, eigvector)
eig = pd.DataFrame()
eig['names'] = mydata.columns
eig['eig_value'] = eig_value
eig.sort_values('eig_value', ascending=False, inplace=True)


#求因子模型的因子載荷陣，尋找公共因子個數m
for m in range(1, 14):
    if eig['eig_value'][:m].sum()/eig['eig_value'].sum() >= 0.8:
        print(m)
        break

#因子載荷矩陣，只是因子，
A  = np.mat(np.zeros((14, 6)))
A[:,0]=math.sqrt(eig_value[0])*eigvector[:,0]
A[:,1]=math.sqrt(eig_value[1])*eigvector[:,1]
A[:,2]=math.sqrt(eig_value[2])*eigvector[:,2]
A[:,3]=math.sqrt(eig_value[3])*eigvector[:,3]
A[:,4]=math.sqrt(eig_value[4])*eigvector[:,4]
A[:,5]=math.sqrt(eig_value[5])*eigvector[:,5]

a=pd.DataFrame(A)
a.columns=['factor1','factor2','factor3','factor4','factor5','factor6']

3、利用旋轉使得因子變數更具有可解釋性。在實際分析工作中，主要是因子分析得到因子和原變數的關係，從而對新的因子能夠進行命名和解釋，否則其不具有可解釋性的前提下對比PCA就沒有明顯的可解釋價值。

4、計算因子變數的得分。計算因子得分是因子分析的最後一步，因子變數確定以後，對每一樣本資料，希望得到它們在不同因子上的具體資料值，這些數值就是因子得分，它和原變數的得分相對應。（生成新的資料）

from sklearn.cluster import KMeans

for i in range(2, 10):
    clf = KMeans(n_clusters=i)
    clf.fit(train_data)
#    print(clf.cluster_centers_)#類中心
    print(i, clf.inertia_)#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數

sklearn因子分析（python）

因子分析

過程

sklearn因子分析（python）

利用ARIMA進行時間序列資料分析（Python）

UCI 人口收入數據分析（python）

用實戰玩轉pandas資料分析（一）——使用者消費行為分析（python）

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

python的計數引用分析（一）

python的引用計數分析（二）

python的random模塊函數分析（一）

[讀書筆記] Python數據分析（一）準備工作

數據分析——作圖（Python）

主成分分析和因子分析（未完成）

Python數據分析（二）pandas缺失值處理

用Python預測某某國際平臺概率分析（一）：這個到底是什麽，是什麽樣的規則？

python 二元Logistics Regression 回歸分析（LogisticRegression）

基於Python的頻譜分析（一）

python資料探勘實戰筆記——文字分析（6）：關鍵詞提取

Python 金融資料分析（二）

X.509證書的讀取操作與分析（Python版）

【專欄】- 資料分析（python、SQL）

【機器學習-斯坦福】因子分析（Factor Analysis）

sklearn因子分析（python）

因子分析

過程

相關推薦