1. 程式人生 > >多重共線性的解決方法

多重共線性的解決方法

  多重共線性(Multicollinearity)是指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確[百度百科]。通俗的說,就是變數之間有較強的相關性,影響模型的預測能力。解決多重共線問題可以考慮一下幾種方法:

1、直接刪除

如果明確的知道是哪個變數引起的多重共線問題,可以將該變數直接刪除。但是要注意刪除的變數確定為相對不重要並從偏相關係數檢驗證實為產生多重共線的原因。

2、採用逐步迴歸法

逐步迴歸的相關理論可以參考百度百科:

3、改變特徵(變數)的表現形式

有些變數可以改變其表現形式,如像網頁的瀏覽次數、點選次數等特徵屬於長尾分佈,可以對其進行

log變換,變換後的變數可以有效的降低變數之間的相關性。

4、增加樣本的數量

樣本資訊的不充分導致變數之間的相關性係數較高,增加樣本可以降低變數之間的相關性,但是由於樣本的獲取較為困難,因此該方法並不常用。

5、正則化

可以不直接對特徵進行改變,而是在訓練模型時,加入正則化項,如L2正則化項。

6、主成分分析(PCA

通過主成分分析提取主要的特徵,從而忽略次要的成分,得到相關性很低的特徵。

主成分的計算過程可以參考: