《統計學習方法》第一章:統計學習方法概論4
阿新 • • 發佈:2019-02-11
4、模型評估與模型選擇
4.1、訓練誤差和測試誤差
測試誤差小的方法具有更好的預測能力,是更有效的方法。
訓練誤差:
測試誤差:
當損失函式是0-1損失的時候,測試誤差變成就變成測試資料集上的誤差率:
而測試集上的準確率是:
顯然:
4.2、過擬合和模型的選擇
當假設空間中含有不同複雜度的模型的時候,就要面對模型的選擇問題。一味的追求訓練資料集的預測能力,所選模型的複雜度往往會比真模型要高,這種現象被稱為過擬合。
訓練誤差和測試誤差與模型複雜度的關係:
5、正則化和交叉驗證
5.1、正則化
正則化是模型選擇的經典方法,是結構風險最小化策略的實現,經驗風險的基礎上加一個正則項。正則項一般是模型複雜度的單調遞增函式。
正則化的一般形式:
如下面損失函式是平方損失,而正則項是範數:
損失函式是平方損失而正則項是範數: