1. 程式人生 > >[機器學習]Lasso,L1範數,及其魯棒性

[機器學習]Lasso,L1範數,及其魯棒性

前言:本文包括以下幾個方面,1. 介紹Lasso,從最初提出Lasso的論文出發,注重動機;

2. L1和L2範數的比較,注重L1的稀疏性及魯棒性;

3. 從誤差建模的角度理解L1範數

1. lasso

最早提出Lasso的文章,文獻[1],已被引用n多次。

注:對於不曉得怎麼翻譯的英文,直接搬來。

1) 文獻[1]的動機:

在監督學習中,ordinary least squares(OLS) estimates 最小化所有資料的平方殘差(即只是讓經驗誤差最小化),存在2個問題:

1是預測誤差(prediction accuracy):OLS estimates總是偏差小,方差大;

2是可解釋性(interpretation):我們希望選出一些有代表性的子集就ok了。

【Lasso還有個缺點,ref8:當p>>n時,(如 醫學樣本,基因和樣本數目),Lasso卻最多隻能選擇n個特徵】

為了解決上面2個問題,2種技術應運而生:

1是subset selection:其可解釋性強,但預測精度可能會很差;

2是嶺迴歸(ridge regression):其比較穩定(畢竟是添加了正則化項,把經驗風險升級為結構風險),

                                                但可解釋性差(只是讓所有coefficients都很小,沒讓任何coefficients等於0)。

看來這2種技術對於2大問題總是顧此失彼,Lasso就被提出啦!其英文全稱是'least absolute shrinkage and selection operator'

lasso的目的是:shrink  some coefficients and sets others to 0,

                           保留subset selection可解釋性強的優點 和 ridge regression穩定性強的優點。

2)為什麼Lasso相比ridge regression稀疏?

直觀的理解[1]


(plus a constant).

(a)圖:橢圓形是函式的影象,lasso的約束影象是菱形。

最優解是第一次橢圓線觸碰到菱形的點。最優解容易出現在角落,如圖所示,觸碰點座標是(0,c),等同於一個coefficient=0;

(b)圖:嶺迴歸的約束影象是圓形。

因為圓形沒有角落,所以橢圓線與圓形的第一次觸碰很難是在座標為(0,c)的點,也就不存在稀疏了。

2.  L1,L2範數誤差的增長速度(ref2,ref3)


                 圖1

L1範數誤差的線性增長速度使其對大噪音不敏感,從而對不良作用形成一種抑制作用。

而L2範數誤差的二次增長速度 顯著放大了 大噪聲 負面作用。

3. 從誤差建模的角度理解

1)孟德宇老師從誤差建模的角度分析L1如何比L2魯棒。(ref3)

1:看圖1,由於L1範數的線性增長速度使其對大噪音不敏感,從而對其不良影響起到一種隱式抑制,因此相對魯棒。

2:從貝葉斯的角度,看圖2,L1範數誤差對應的拉普拉斯分佈比L2範數誤差對應的高斯分佈具有更為顯著的“厚尾”狀態,從而其更適合對大幅度噪音的似然描述,

從而導致對大噪音或異常點資料更加穩健的計算效果。


2)1是從誤差建模的角度,涉及這麼個問題:從貝葉斯角度,為什麼L1對應拉普拉斯,L2對應高斯分佈呢?

這個問題我糾結了好久,因為RCC論文涉及此分析。終於從知乎https://www.zhihu.com/question/23536142上找到解析:

1是參考博文 ref 6:  ( 文章含具體推導,分為L1、L2、Elastic Net(L2及L1+L2) )

    拋給大家一個結論:從貝葉斯的角度來看,正則化等價於對模型引數引入 先驗分佈 。

    對於迴歸問題,對w引入先驗分佈(高斯分佈/拉普拉斯分佈) -> 對樣本空間 關於w 求貝葉斯最大後驗估計(MAP) -> 得到了關於w的嶺迴歸/LASSO 

    因此, 對引數引入 高斯先驗/拉普拉斯先驗 等價於 L2正則化/L1正則化

2是參考論文 ref 7: ( ref6的進階 )

     除了高斯先驗、拉普拉斯先驗,還講了其他先驗。   

4. ref4

L0範數很難優化求解(NP難問題),L1範數是L0範數的最優凸近似,比L0範數容易優化求解。

5. ref5 一篇極好的博文,全面分析了各種範數(L1,L2,核範數,魯棒PCA)

參考:

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》 Meng Deyu et.al

[3] 《誤差建模原理》孟德宇  人工智慧通訊

[4] 《convex optimization》S.Boyd  (書)

[5] http://blog.csdn.net/lj695242104/article/details/38801025   (csdn部落格,總結的很好)

[6] http://charleshm.github.io/2016/03/Regularized-Regression/  (Github部落格)[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》[8] 《Regularization and variable selection via the Elastic Net》ppt  Hui.Zou