1. 程式人生 > >統計學習筆記(1)——統計學習方法概論

統計學習筆記(1)——統計學習方法概論

經驗風險較小的模型可能較複雜,這時正則化項的值會較大,正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

       正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知資料並且十分簡單的模型才是最好的模型。從貝葉斯估計的角度來看,正則化項對應於模型的先驗概率,可以假設複雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。

        模型選擇的另一種方法是交叉驗證,使用交叉驗證的前提是資料不充足,常見的有簡單交叉驗證、S折交叉驗證和留一交叉驗證。如果資料充足,選擇模型的一種簡單方法是隨機的將資料集分成三部分,分別為訓練集、驗證集和測試集,訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估。如果資料不充足,可以採用交叉驗證的方法來選擇模型。