1. 程式人生 > 其它 >速進!!關於多重共線性你知道多少?

速進!!關於多重共線性你知道多少?

一、多重共線性說明

多重共線性有時也稱多重相關性,一般是指自變數間存線上性關係或者高度相關(比如相關係數大於0.8)的現象。自變數之間具體的線性相關關係一般分為完全相關性,存在一定程度的相關性以及完全不相關,相關關係如何界定如下:

  1. 完全相關:分析項之間的相關係數為1。
  2. 一定程度相關:分析項之間的相關係數在0-1之間變化。
  3. 完全不相關:分析項之間的相關係數為0。

二、多重共線性形成原因

多重共線性形成的原因有很多,可能由於樣本量過少所導致,樣本量少有可能是資料蒐集具有限制性,比如已經完成實驗或者經費有限等一些其他原因。還有可能是本身分析項之間就存在某種關係,比如某品牌電腦營業額和銷量等。而且我們在建模分析時,為了更好描述分析結果,以及分析項之間的關係,常常傾向於選擇有關指標,這可能也會對模型帶來多重共線性。那麼多重共線性有哪些危害呢?

三、多重共線性危害

在迴歸分析中,當自變數之間出現多重共線性現象時,一般會出現使模型或者檢驗存在一些問題。具體如下:

  1. 一般會降低估計的精準度,並且穩定性也會降低。
  2. 無法判斷單獨變數的影響。
  3. 迴歸方程的標準誤差增大。
  4. 變數顯著性可能會失去意義。

四、判斷標準

常見的直觀判斷方法共有四個,如下:
(1)某些自變數的相關係數值較大(比如大於0.8)等,可以利用pearson相關係數檢驗法一般是利用解釋變數之間的線性相關程度判斷,一般標準是係數大於0.8則認為可能存在多重共線性。
(2)如果增加一個變數或者刪除一個變數,迴歸係數的觀測值變化很大。
(3)如果說F檢驗通過,並且決定係數值也較大,但是t檢驗並不顯著,也可能存在多重共線性。
(4)迴歸係數的正負符號與專業知識相反或與實際分析結果不符,也會存在多重共線性的可能。
以上方法可能會存在誤差,更多偏向於主觀,還有一種正規檢驗方法,觀察迴歸分析中的VIF值(方差膨脹因子),這個檢驗方法更為嚴謹、準確。通常的判斷標準是VIF值大於10即具有多重共線性,有的文獻也說大於5即有共線性。
其中VIF值如下:

VIF=(1−R2)−1
從公式中我們發現VIF和R方是有直接關係的。
當VIF>5, 1- R2 <0.2, R2 >0.8;
當VIF>10, 1- R2 <0.1, R2 >0.9;
從上式可以看出,VIF若大於10其R方相對應也大於0.9,若VIF大於5其R方相對於大於0.8,如果存在這種現象,可以認為該自變數是其他自變數的近似線性組合,也就是說,在自變數之間存在高度相關的現象。

五、處理多重共線性

處理多重共線性經驗式做法:

(1)刪除不重要的共線性變數

但是刪除變數後可能會導致模型和原本分析的模型不一樣,可能會出現決策錯誤等現象。

(2)增加樣本容量

多重共線性有可能與樣本量過少有關,所以如果存在也可以加大樣本量。但是加大樣本量具有侷限性比如實驗已經結束或者其它原因。

(3)變數轉換

構造一個新的變數,這一新變數是多重共線性變數的函式,然後用這個新的變數代替多重共線性的變數,但是要注意組合後的資料需要有實際意義否則模型不好解釋。

其它處理方法:

  1. 嶺迴歸
    嶺迴歸分析是一種修正的最小二乘估計法,當自變數系統中存在多重共線性時,它可以提供一個有偏估計量,這個估計量雖有微小偏差,但它的精度卻能大大高於無偏估計。
    如果使用SPSSAU進行分析嶺迴歸一般有兩個步驟:嶺迴歸通過引入k個單位陣,使得迴歸係數可估計;單位陣引入會導致資訊丟失,但同時可換來回歸模型的合理估計。針對嶺迴歸:其研究步驟共為2步,分別是結合嶺跡圖尋找最佳K值;輸入K值進行迴歸建模。
  2. 逐步迴歸
    逐步迴歸分析方法視自變數對因變數的影響顯著性大小從大到小逐個引入迴歸方程,從處理角度來看逐步迴歸比嶺迴歸和主成分迴歸要好一些。逐步迴歸面臨著檢驗的顯著性水平的選擇困難它通常得不到最優變數子集,可以利用SPSSAU進階方法中逐步迴歸進行分析。

3.主成分迴歸

主成分迴歸根據主成分分析的思想提出的。主成分估計和嶺迴歸類似都是一種有偏估計。主成分分析利用降維的思想對資料資訊進行濃縮,將多個分析項濃縮成幾個關鍵概括性指標;剔除對系統影響微弱的部分。通過對各個主成分的重點分析,來達到對原始變數進行分析的目的。主成分迴歸就是用對原變數進行主成分分析後得到的新的指標來代替原變數,再使用最小二乘法進行迴歸分析。由於對原變數的綜合,就可以起到克服多重共線性所造成的資訊重疊的作用,從而消除多重共線性對迴歸建模的影響。

4.偏最小二乘法

偏最小二乘法不僅可以用單變量回歸分析方法,也可以用於多變量回歸分析方法,一般情況下處理樣本量相對較小,自變數多的資料。

六、總結

本篇文章主要講述多重共線性形成原因,以及危害,如何判斷多重共線性,以及如果出現多重共線性需要解決如何去解決。解決的辦法有很多,具體使用那種方法,還需要研究者根據自己的資料情況進行衡量。