1. 程式人生 > >ML筆記 - 迴歸模型診斷之違背基本假設

ML筆記 - 迴歸模型診斷之違背基本假設

在迴歸模型中,常見違背基本假設的情況有異方差、自相關和異常值。

異方差

迴歸模型中的異方差是指隨機誤差項的方差不是一個常數,而是隨著自變數的取值變化而變化。

由於不滿足迴歸分析中的同方差的前提假設,異方差將可能帶來以下問題:

  • 對使用最小二乘法求解引數時,引數估計值雖然無偏,但是不是最小方差線性無偏估計。
  • 引數的顯著性檢驗失效。
  • 迴歸方程的應用效果不理想。

造成異方差的常見原因:

  • 模型缺少了某些解釋變數,預設變數本身的方差被包含在了隨機誤差的方差中。
  • 模型本身選取有誤,比如原本是非線性的,結果使用了線性模型。
  • 其他原因,包括但不限於:
    • 樣本量過少
    • 測量誤差
    • 異常資料
    • 時序分析或使用面板資料等

異方差的檢驗:

  • 殘差圖分析
  • 等級相關係數法,又稱斯皮爾曼檢驗
  • 相關圖分析
  • Park檢驗與Gleiser檢驗
  • Goldfeld-Quandt檢驗
  • Breusch-Pagan檢驗
  • White檢驗

消除異方差的方法:

  • 加權最小二乘法
  • BOX-COX變換法
  • 方差穩定性變換法等

自相關

迴歸模型中的自相關是指隨機誤差項的協方差,即變數前後數值之間存在相關關係。

由於不滿足迴歸分析中的不相關的前提假設,自相關將可能帶來以下問題:

  • 對使用最小二乘法求解引數時,引數估計值雖然無偏,但是OLS估計量的方差不是最小的,估計量不是最優線性無偏估計量。
  • OLS估計量的方差是有偏的。
  • 顯著性檢驗失敗,包括t檢驗和F檢驗。
  • 存在序列相關時,最小二乘估計量對抽樣波動非常敏感。
  • 迴歸方程的應用效果不理想,會帶來較大的方差甚至錯誤。

造成自相關的常見原因:

  • 模型遺漏關鍵變數,被遺漏變數在時間順序上存在相關性。
  • 錯誤的迴歸函式形式。
  • 蛛網現象。
  • 對資料加工整理而導致誤差項之間出現自相關,比如處理序列資料時採用了不恰當的差分變換。

自相關的檢驗:

  • 圖示分析法
  • 自相關係數法
  • DW(Durbin-Watson)檢驗法等

消除自相關:

  • 迭代法
  • 差分法
  • BOX-COX變換法

異常值

迴歸分析中,一些異常或者極端的觀測值可能會引起較大的殘差,進而影響迴歸擬合的效果。

異常值成因:

  • 資料錄入錯誤
  • 資料測量錯誤
  • 資料隨機誤差
  • 缺少重要自變數
  • 缺少觀測資料
  • 存在異方差
  • 模型選擇錯誤

消除方法:

  • 重新核實資料
  • 重新測量資料
  • 刪除或者重新觀測資料
  • 增加相應自變數
  • 增加觀測資料
  • 消除異方差,如加權迴歸等
  • 更改模型,如改成非線性迴歸