關於最大後驗概率估計就是結構風險最小化的詳解(統計學習方法)
(1)最大似然估計
這篇文章中提到,關於最大似然估計,使用頻率去估計概率,在拋硬幣問題中會得到正面向上的概率是0.7的結論,其原因是由於樣本數量太小,使用經驗風險最小化會出現過擬合現象。
經驗風險:即模型關於訓練樣本集的平均損失。
(2)最大後驗概率估計:
為了解決過擬合問題,在拋硬幣例子中加入了先驗概率P(θ),最大後驗概率估計得到正面向上的概率是0.558的結論,對於小樣本來講,效果更好。
下面對最大後驗概率進行分析:
最大後驗估計方法於是估計 為這個隨機變數的後驗分佈的眾數:
後驗分佈的分母與 無關,所以在優化過程中不起作用。注意當前驗 是常數函式時最大後驗估計與最大似然估計重合
************************************************************
我們對上式使用對數損失函式時(先取負對數,再將對數展開),則上式等價於:
對比結構風險最小化公式:
由於f( | )是模型,可以是條件概率分佈模型,那麼便可以看做是對數似然損失函式,而正則化項為,調節因子為1。正則化項對應於模型的先驗概率,複雜的模型小,即我們認為越複雜的模型其先驗概率越小,那麼複雜的模型其就越大,很好的扮演了正則化項的角色。
結構風險最小化就是為了在似然儘可能大的情況下避免模型太過複雜。所以得證。