各種風險及其最小化的解釋

阿新 • • 發佈：2017-12-29

最小化 ali 訓練效果 emp logs 度量 ica end

對於給定的輸入 \(X\) ，由 \(f(X)\) 給出輸出 \(Y\) ，這個輸出的預測值 \(f(X)\) 與真實值 \(Y\) 可能一致也可能不一致，用一個損失函數 (loss function) 來度量預測錯誤的程度，記作 \(L(Y,f(X))\) 。

常用的損失函數比如 0-1 損失函數：
\[ L(Y,f(X)) =\left\{ \begin{aligned} 1, & & Y \neq f(X) \0, & &Y = f(X) \end{aligned} \right. \]

期望風險（expected loss）

\(R_{exp} = E_p[L(Y,f(X))]\)

學習的目的就是選擇期望風險最小的模型。

模型 \(f(X)\) 關於訓練集的平均損失稱為經驗風險，記作：
\[ R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) \]
當樣本容量很小時，經驗風險最小化的學習效果未必好，會產生過擬合現象。

結構風險最小化是為了防止過擬合而提出的策略。結構風險最小化在經驗風險上加入了表示模型復雜度的正則化項。定義是：
\[ R_{srm}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) + \lambda J(f) \]

各種風險及其最小化的解釋

最小化 ali 訓練效果 emp logs 度量 ica end 各種風險及其最小化的解釋對於給定的輸入 \(X\) ，由 \(f(X)\) 給出輸出 \(Y\) ，這個輸出的預測值 \(f(X)\) 與真實值 \(Y\) 可能一致也可能不一致，用一個損失函數 (los