線性模型選擇與廣義線性模型
阿新 • • 發佈:2018-12-27
線性模型選擇
如何選擇迴歸模型
當只瞭解一兩種迴歸技術的時候,情況往往會比較簡單。然而,當我們在應對問題時可供選擇的方法越多,選擇正確的那一個就越難。類似的情況下也發生在迴歸模型中。
掌握多種迴歸模型時,基於自變數和因變數的型別、資料的維數以及資料的其它基本特徵去選擇最合適的技術非常重要。以下是要選擇正確的迴歸模型時需要考慮的主要因素:
1)資料探索是構建預測模型的不可或缺的部分。在選擇合適的模型前,比如識別變數的關係和影響,應該首先執行這一步驟。
2)比較不同模型的擬合優點,我們可以分析不同的指標引數,如統計意義的引數,R-square,調整 R-square,AIC,BIC以及誤差項,另一個是 Mallows’ Cp 準則。這個主要是通過將所選的模型與所有可能的子模型(或仔細挑選的一組模型)進行對比,檢查可能出現的偏差。
3)交叉驗證是評估預測模型最好的方法。使用該方法,需將資料集分成兩份(一份用於訓練,一份用於驗證)。使用觀測值和預測值之間的均方差即可快速衡量預測精度。
4)如果資料集中存在是多個混合變數,那就不應選擇自動模型選擇方法,因為我們並不願意將所有變數同時放在同一個模型中。
5)所選擇的迴歸技術也取決於你的目的。可能會出現這樣的情況,一個不太強大的模型與具有高度統計學意義的模型相比,更易於實現。
6) 迴歸正則化方法(套索,嶺和ElasticNet)在高維資料和資料集變數之間存在多重共線性的情況下執行良好。
廣義線性模型理解:
https://blog.csdn.net/kMD8d5R/article/details/80863161
http://blog.csdn.net/lilanfeng1991/article/details/36185739