ML筆記 - 迴歸模型診斷之違背基本假設
阿新 • • 發佈:2018-11-14
在迴歸模型中,常見違背基本假設的情況有異方差、自相關和異常值。
異方差
迴歸模型中的異方差是指隨機誤差項的方差不是一個常數,而是隨著自變數的取值變化而變化。
由於不滿足迴歸分析中的同方差的前提假設,異方差將可能帶來以下問題:
- 對使用最小二乘法求解引數時,引數估計值雖然無偏,但是不是最小方差線性無偏估計。
- 引數的顯著性檢驗失效。
- 迴歸方程的應用效果不理想。
造成異方差的常見原因:
- 模型缺少了某些解釋變數,預設變數本身的方差被包含在了隨機誤差的方差中。
- 模型本身選取有誤,比如原本是非線性的,結果使用了線性模型。
- 其他原因,包括但不限於:
- 樣本量過少
- 測量誤差
- 異常資料
- 時序分析或使用面板資料等
異方差的檢驗:
- 殘差圖分析
- 等級相關係數法,又稱斯皮爾曼檢驗
- 相關圖分析
- Park檢驗與Gleiser檢驗
- Goldfeld-Quandt檢驗
- Breusch-Pagan檢驗
- White檢驗
- …
消除異方差的方法:
- 加權最小二乘法
- BOX-COX變換法
- 方差穩定性變換法等
自相關
迴歸模型中的自相關是指隨機誤差項的協方差,即變數前後數值之間存在相關關係。
由於不滿足迴歸分析中的不相關的前提假設,自相關將可能帶來以下問題:
- 對使用最小二乘法求解引數時,引數估計值雖然無偏,但是OLS估計量的方差不是最小的,估計量不是最優線性無偏估計量。
- OLS估計量的方差是有偏的。
- 顯著性檢驗失敗,包括t檢驗和F檢驗。
- 存在序列相關時,最小二乘估計量對抽樣波動非常敏感。
- 迴歸方程的應用效果不理想,會帶來較大的方差甚至錯誤。
造成自相關的常見原因:
- 模型遺漏關鍵變數,被遺漏變數在時間順序上存在相關性。
- 錯誤的迴歸函式形式。
- 蛛網現象。
- 對資料加工整理而導致誤差項之間出現自相關,比如處理序列資料時採用了不恰當的差分變換。
自相關的檢驗:
- 圖示分析法
- 自相關係數法
- DW(Durbin-Watson)檢驗法等
消除自相關:
- 迭代法
- 差分法
- BOX-COX變換法
異常值
迴歸分析中,一些異常或者極端的觀測值可能會引起較大的殘差,進而影響迴歸擬合的效果。
異常值成因:
- 資料錄入錯誤
- 資料測量錯誤
- 資料隨機誤差
- 缺少重要自變數
- 缺少觀測資料
- 存在異方差
- 模型選擇錯誤
消除方法:
- 重新核實資料
- 重新測量資料
- 刪除或者重新觀測資料
- 增加相應自變數
- 增加觀測資料
- 消除異方差,如加權迴歸等
- 更改模型,如改成非線性迴歸