經驗風險、結構風險、正則項
阿新 • • 發佈:2019-01-09
我們所學習到的所有的學習模型都會有一個共同的優化目標:
其中, 稱為“結構風險”描述的是模型f的某些性質。
是經驗風險,描述的是模型與訓練資料的契合程度,C用於對二者進行折中。
經驗風險
經驗風險針對不同的學習模型有不同的計算方法。
平方損失–線性迴歸
0-1邏輯損失–邏輯迴歸
hinge損失–支援向量機
指數損失–AdaBoost
結構風險
又被稱為正則化項,C被稱為正則化常數,Lp範數是常用正則化項。
正則化項主要是在降低經驗風險的同時能夠降低最小化訓練誤差的過擬合風險。過擬合問題主要是提高模型的泛化能力,模型越複雜的時候,對於訓練集的偏差會很小,但是在測試集時會導致偏差很大,從而整個模型不能適應新的樣本,模型越複雜,模型的方差越大,過擬合現象越嚴重。
為什麼會出現模型不能適應新的樣本呢?
特徵有成千上萬,如果都去擬合的話,就會出現過擬合。
L1範數–LASSO:
L1範數表示向量中每個元素絕對值的和:
L1範數的解通常是稀疏性的,傾向於選擇數目較少的一些非常大的值或者數目較多的insignificant的小值。
採用L1 regularizer,它的優良性質是能產生稀疏性,導致 W 中許多項變成零。
L2 範數–ridge regression:
L2範數即歐氏距離
採用L2 regularizer,使得模型的解偏向於 norm 較小的 W,通過限制 W 的 norm 的大小實現了對模型空間的限制,從而在一定程度上避免了 overfitting 。不過 ridge regression 並不具有產生稀疏解的能力,得到的係數 仍然需要資料中的所有特徵才能計算預測結果,從計算量上來說並沒有得到改觀.
總結
L2範數傾向與w的分量取值儘量均衡,即非零分量個數儘量稠密。而L0範數和L1範數則傾向於w的分量儘量稀疏,即非零分量個數儘量少。
L1範數和L2範數正則化都有助於降低過擬合風險,L1範數比L2範數更容易獲得稀疏解,求得的解w會有更少的非零分量。