多重共線性的處理(一般現象,迴歸中,自變數係數從正變成負,不符合理論)
造成多重共線性的原因有一下幾種:
1、解釋變數都享有共同的時間趨勢;
2、一個解釋變數是另一個的滯後,二者往往遵循一個趨勢;
3、由於資料收集的基礎不夠寬,某些解釋變數可能會一起變動;
4、某些解釋變數間存在某種近似的線性關係;
多重共線性的檢驗;
1、相關性分析,相關係數高於0.8,表明存在多重共線性;但相關係數低,並不能表示不存在多重共線性;
2、容忍度(tolerance)與方差擴大因子(VIF)。某個自變數的容忍度等於1減去該自變數為因變數而其他自變數為預測變數時所得到的線性迴歸模型的判定係數。容忍度越小,多重共線性越嚴重。通常認為容忍度小於0.1時,存在嚴重的多重共線性。方差擴大因子等於容忍度的倒數。顯然,
3、迴歸係數的正負號與預期的相反。
解決方法:
1、增加樣本容量:多重共線性問題的實質是樣本資訊的不充分而導致模型引數的不能精確估計,因此追加樣本資訊是解決該問題的一條有效途徑。
2、如果要在模型中保留所有的自變數,那就應該:避免根據t統計量對單個引數β進行檢驗;對因變數y值的推斷限定在自變數樣本值的範圍內。
3、刪除一個或幾個共線變數:實際操作中常用逐步法作為自變數篩選方法。
4、嶺迴歸法;嶺迴歸法是通過最小二乘法的改進允許迴歸係數的有偏估計量存在而補救多重共線性的方法。
5、主成分分析法。
處理多重共線性的原則:
1、多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施;
2、嚴重的多重共線性問題,一般可根據經驗或通過分析迴歸結果發現。如影響係數符號,重要的解釋變數t值很低。要根據不同情況採取必要措施。
3、如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果。
採用兩種方法檢驗自變數之間的多重共線性
自變數之間的迴歸係數
從表可以得知GDP與RD_exp之間的迴歸係數為0.94大於0.8,存在嚴重的共線性問題;GDP與rel之間的迴歸係數為0.824大於0.8,存在嚴重的共線性問題;RD_exp與rel之間的迴歸係數為0.745,存在輕微的多重共線性,因為多重共線性普遍存在,所以輕微的多重共線性問題可不採取措施。
方差擴大因子(
從表可以得知GDP的方差擴大因子為12.29大於10,存在嚴重的多重共線性。
由迴歸係數檢驗和方差擴大因子檢驗可知,導致多重共線性的原因,由控制變數GDP引起,因此可以可通過刪掉這個變數,再次進行共線性檢驗。PS:這個圖太醜了,哪位大神知道怎麼優化這一塊。