1. 程式人生 > >統計學習方法三要素

統計學習方法三要素

    本文節選自李航博士《統計學習方法》第一章第三節的內容。文中將統計學習方法簡單表示為如下公式。另外,後文中提及的內容主要是針對監督學習進行說明。

方法=模型 + 策略 + 演算法

    監督學習過程中,模型就是所要學習的條件概率分佈或決策函式(即訓練集到樣本集的對映函式)。其假設空間包括所有可能的條件概率分佈或決策函式。

    策略用於幫助從假設空間中選擇最優模型。此時引入損失函式和風險函式,前者是對衡量模型一側預測的好壞,風險函式是度量平均意義下模型預測的好壞。更直觀的講應該是度量預測錯誤的程式。如以下常見的損失函式。

    這樣最優模型就是期望風險的最小化,即

    實際使用過程中,僅考慮樣本的影響容易造成“過擬合”現象,所以引出了結構風險最小化的概念。它是為了防止過擬合而提出的策略,結構風險最小化等價於正則化,結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。在假設空間、損失函式以及訓練集確定的情況下,結構風險的定義如下。

    故最優模型轉換為求解最優化問題

    演算法指學習模型的具體計算方法。

    所以,模型訓練的本質是基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,最後考慮用什麼樣的計算方法求解最優模型。

參考文獻:

  1. 李航. 統計學習方法. 清華大學出版社, 2012