1. 程式人生 > 其它 >迴歸分析案例分析全流程

迴歸分析案例分析全流程

一、案例說明

1.案例資料

在“工資影響因素”的調查問卷中,調查了每個人的起始工資、工作經驗、受教育年限、受僱月數、職位等級以及當前工資六個方面。

2.分析目的

目的是建立以當前工資為因變數的迴歸模型,並得出結論。[案例來源於:SPSS統計分析(第5版)盧紋岱,硃紅兵主編,案例有一些變動 具體請看分析。]

二、資料清理

在資料分析之前,首先需要進行資料檢視,包括資料中是否有異常值,無效樣本等。如果有異常值則需要進行處理,然後再進行分析。另外如果資料中有無效樣本也需要進行處理後再進行分析。無效樣本會干擾分析研究,扭曲資料結論等,因而在分析前先對無效樣本進行標識顯示尤其必要。異常值的鑑別與處理一般分為三個部分,其中分別是判斷標準,鑑別方法以及異常值的處理,以下從這三個方面進行說明。

異常值的判斷標準如下:

檢驗資料是否有異常值的方法:

異常值處理方法:

此案例對於異常值參照的標準為大於±3個標準差

使用描述分析進行檢視發現沒有異常值。

除了對異常值處理外,還需要對於無效樣本的檢查:如果資料來源為問卷,則很可能出現無效樣本,因為填寫問卷的樣本是否真實填寫無從判定;如果資料庫下載或者使用二手資料等,也可能出現大量缺失資料等無效樣本。以下從無效樣本場景、SPSSAU設定標準、處理三方面進行說明。

1.常見場景

2.設定標準

3.無效樣本的處理

設定好無效樣本後,預設會新生成一個標題,用來標識那些樣本是有效,那些是無效,在分析的時候直接進行篩選下就好。

本次案例分析將以相同數字大於70%為標準進行檢驗,結果顯示沒有無效樣本。

三、基本關係檢視

1.散點圖

做資料的散點圖,觀察因變數與自變數之間是否具有線性特點。

從上圖中可以看出,當前工資和起始工資、受教育年限、職位等級以及工作經驗均存線上性關係,其中Y軸為因變數當前工資,X軸為自變數,但是從圖中觀察到對於“起始工資和當前工資”及“工作經驗和當前工資”可能存在異常值,進行資料複查後發現,資料均在可接受範圍內,所以不進行處理。

2.相關性分析

相關分析是研究有沒有關係,迴歸分析是研究影響關係。明顯地,相關分析是基礎,然後再進行迴歸分析。首先需要知道有沒有相關關係;有了相關關係,才可能有迴歸影響關係;如果沒有相關關係,是不應該有迴歸影響關係的。

分析結果來源於SPSSAU

從上表可知,利用相關分析去研究當前工資和受教育年限, 職位等級, 起始工資, 工作經驗共4項之間的相關關係,使用Pearson相關係數去表示相關關係的強弱情況。具體分析可知:
當前工資與受教育年限, 職位等級, 起始工資, 工作經驗共4項之間的相關關係係數值呈現出顯著性。具體分析請看SPSSAU智慧分析:

四、模型效果

1.F檢驗

分析結果來源於SPSSAU

從上表可以看出,離差平方和為1461615.460,殘差平方和為579191.966,而回歸平方和為882423.494。迴歸方程的顯著性檢驗中,統計量F=178.635,對應的p值遠遠小於0.05,被解釋變數的線性關係是顯著的,可以建立模型。建立模型後,需要檢視模型擬合優度是否可以,其中就可以檢視R方與調整R方值。

2.R方和調整R方

分析結果來源於SPSSAU

從上表可知,將起始工資,受教育年限,職位等級,工作經驗作為自變數,而將當前工資作為因變數進行線性迴歸分析,從上表可以看出,模型R方值為0.604,調整R方為0.600,其中R方是決定係數,模型擬合指標。反應Y的波動有多少比例能被X的波動描述。調整R方也是模型擬合指標。當x個數較多是調整R²比R²更為準確。意味著起始工資,受教育年限,職位等級,工作經驗可以解釋當前工資的60.4%變化原因。可見,模型擬合優度較好,說明被解釋變數可以被模型解釋的部分較多。接下來檢視變數是否具有多重共線性。

3.VIF值

分析結果來源於SPSSAU

VIF值用於檢測共線性問題,一般VIF值小於10即說明沒有共線性(嚴格的標準是5),有時候會以容差值作為標準,容差值=1/VIF,所以容差值大於0.1則說明沒有共線性(嚴格是大於0.2),VIF和容差值有邏輯對應關係,因此二選一即可,一般描述VIF值。在【線性迴歸】分析時,SPSSAU會智慧判斷共線性問題並且提供解決建議。 結果中可以看出,變數的VIF值均小於5,所以此案例不存在多重共線性的問題。

但是如果存在多重共線問題,建議三種解決方法一是使用逐步迴歸分析(讓模型自動剔除掉共線性過高項);二是使用嶺迴歸分析(使用數學方法解決共線性問題),三是進行相關分析,手工移出相關性非常高的分析項(通過主觀分析解決),然後再做線性迴歸分析。

多重共線性問題,如何解決?

結果中的DW值有什麼用呢?下面進行說明。

4.DW值

D-W值也稱Durbin-Watson值,一般對於時間序列分析才會考慮DW值:

  1. 當殘差與自變數互為獨立時,DW≈2;
  2. 當相鄰兩點的殘差為正相關時,DW<2;
  3. 當相鄰兩點的殘差為負相關時,DW>2;

5.AIC和BIC

分析結果來源於SPSSAU

最後針對模型中的AIC值與BIC值說明如下:

AlC值是衡量統計模型擬合優良性的一種標準,AIC越小,模型越好。BIC值一可有效防止模型精度過高造成的模型複雜度過高。接下來對模型結果進行一一分析。

五、模型結果

1.模型公式

分析結果來源於SPSSAU

從上表可知,將起始工資,受教育年限,工作經驗,職位等級作為自變數,而將當前工資作為因變數進行線性迴歸分析,從上表可以看出,模型公式為:當前工資=-41.634 + 0.425*起始工資 + 6.176*受教育年限-0.051*工作經驗 + 29.819*職位等級。

2.迴歸係數

分析結果來源於SPSSAU

上圖所示,迴歸方程的常數項約為-41.63,以及起始工資、受教育年限、工作經驗以及職位等級的非標準化係數分別為0.425、6.176、-0.051、29.819。表中4個變數的p值均小於0.05,並且VIF值均正常,因此4個變數可以顯示在模型中。

3.coefPlot

coefPlot展示具體的迴歸係數值和對應的置信區間,可直觀檢視資料的顯著性情況,如果說置信區間包括數字0則說明該項不顯著,如果置信區間不包括數字0則說明該項呈現出顯著性。所以上圖中四個分析項的置信區間都不包括0,都呈現顯著性。

4.標準化係數

起始工資、受教育年限、工作經驗以及職位等級的標準化係數分別為0.163、0.320、-0.096、0.415. 標準化係數一般可用於比較自變數對Y的影響程度。係數值越大說明該變數對Y的影響越大。可以看出模型中職位等級對當前工資影響較大。

5.模型預測

總結來看,模型公式為:當前工資=-41.634 + 0.425*起始工資 + 6.176*受教育年限-0.051*工作經驗 + 29.819*職位等級(案例資料分析結果僅供參考)。

6.殘差圖

上圖為殘差正態分佈圖(P-P圖),由上圖可以看出殘差的分佈符合大致正態分步。說明迴歸結果就資料而言是較為可靠的。

六、模型綜述

通過資料清理髮現資料適合做迴歸分析,然後對模型進行分析與總結。,比如多重共線性等,經過分析,得到起始工資、工作經驗、受教育年限、受僱月數、職位等級4個自變數以及當前工資因變數之間的關係,對預測模型進行分析。迴歸分析不只是線性迴歸,還包括曲線迴歸、非線性迴歸等,這些知識的學習還需要大家進行檢視相關資料自行摸索。