[機器學習]Lasso，L1範數，及其魯棒性

阿新 • • 發佈：2019-01-11

前言：本文包括以下幾個方面，1. 介紹Lasso，從最初提出Lasso的論文出發，注重動機；

2. L1和L2範數的比較，注重L1的稀疏性及魯棒性；

3. 從誤差建模的角度理解L1範數

1. lasso

最早提出Lasso的文章，文獻[1]，已被引用n多次。

注：對於不曉得怎麼翻譯的英文，直接搬來。

1) 文獻[1]的動機：

在監督學習中，ordinary least squares(OLS) estimates 最小化所有資料的平方殘差（即只是讓經驗誤差最小化），存在2個問題：

1是預測誤差（prediction accuracy）：OLS estimates總是偏差小，方差大；

2是可解釋性（interpretation）：我們希望選出一些有代表性的子集就ok了。

【Lasso還有個缺點，ref8：當p>>n時，（如醫學樣本，基因和樣本數目)，Lasso卻最多隻能選擇n個特徵】

為了解決上面2個問題，2種技術應運而生：

1是subset selection：其可解釋性強，但預測精度可能會很差；

2是嶺迴歸(ridge regression)：其比較穩定（畢竟是添加了正則化項，把經驗風險升級為結構風險），

但可解釋性差（只是讓所有coefficients都很小，沒讓任何coefficients等於0）。

看來這2種技術對於2大問題總是顧此失彼，Lasso就被提出啦！其英文全稱是'least absolute shrinkage and selection operator'

lasso的目的是：shrink some coefficients and sets others to 0，

保留subset selection可解釋性強的優點和 ridge regression穩定性強的優點。

2）為什麼Lasso相比ridge regression稀疏？

直觀的理解[1]

(plus a constant).

(a)圖：橢圓形是函式的影象，lasso的約束影象是菱形。

最優解是第一次橢圓線觸碰到菱形的點。最優解容易出現在角落，如圖所示，觸碰點座標是(0,c)，等同於一個coefficient=0;

(b)圖：嶺迴歸的約束影象是圓形。

因為圓形沒有角落，所以橢圓線與圓形的第一次觸碰很難是在座標為(0,c)的點，也就不存在稀疏了。

2. L1,L2範數誤差的增長速度（ref2,ref3）

圖1

L1範數誤差的線性增長速度使其對大噪音不敏感，從而對不良作用形成一種抑制作用。

而L2範數誤差的二次增長速度顯著放大了大噪聲負面作用。

3. 從誤差建模的角度理解

1）孟德宇老師從誤差建模的角度分析L1如何比L2魯棒。(ref3)

1：看圖1，由於L1範數的線性增長速度使其對大噪音不敏感，從而對其不良影響起到一種隱式抑制，因此相對魯棒。

2：從貝葉斯的角度，看圖2，L1範數誤差對應的拉普拉斯分佈比L2範數誤差對應的高斯分佈具有更為顯著的“厚尾”狀態，從而其更適合對大幅度噪音的似然描述，

從而導致對大噪音或異常點資料更加穩健的計算效果。

2）1是從誤差建模的角度，涉及這麼個問題：從貝葉斯角度，為什麼L1對應拉普拉斯，L2對應高斯分佈呢？

這個問題我糾結了好久，因為RCC論文涉及此分析。終於從知乎https://www.zhihu.com/question/23536142上找到解析：

1是參考博文 ref 6: （文章含具體推導，分為L1、L2、Elastic Net（L2及L1+L2））

拋給大家一個結論：從貝葉斯的角度來看，正則化等價於對模型引數引入先驗分佈。

對於迴歸問題，對w引入先驗分佈(高斯分佈/拉普拉斯分佈) -> 對樣本空間關於w 求貝葉斯最大後驗估計（MAP） -> 得到了關於w的嶺迴歸/LASSO

因此，對引數引入高斯先驗/拉普拉斯先驗等價於 L2正則化/L1正則化

2是參考論文 ref 7: ( ref6的進階 )

除了高斯先驗、拉普拉斯先驗，還講了其他先驗。

4. ref4

L0範數很難優化求解（NP難問題），L1範數是L0範數的最優凸近似，比L0範數容易優化求解。

5. ref5 一篇極好的博文，全面分析了各種範數（L1，L2，核範數，魯棒PCA）

參考：

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》 Meng Deyu et.al

[3] 《誤差建模原理》孟德宇人工智慧通訊

[4] 《convex optimization》S.Boyd (書)

[5] http://blog.csdn.net/lj695242104/article/details/38801025 (csdn部落格，總結的很好)

[6] http://charleshm.github.io/2016/03/Regularized-Regression/ (Github部落格)[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》[8] 《Regularization and variable selection via the Elastic Net》ppt Hui.Zou

[機器學習]Lasso，L1範數，及其魯棒性

前言：本文包括以下幾個方面，1. 介紹Lasso，從最初提出Lasso的論文出發，注重動機；2. L1和L2範數的比較，注重L1的稀疏性及魯棒性；3. 從誤差建模的角度理解L1範數1. lasso最早提出Lasso的文章，文獻[1]，已被引用n多次。注：對於不曉得怎麼翻譯的英

L0，L1範數詳解

還是再囉嗦一下吧，對於一個ill-condition的系統，我的輸入稍微改變下，輸出就發生很大的改變，這不好啊，這表明我們的系統不能實用啊。你想想看，例如對於一個迴歸問題y=f(x)，我們是用訓練樣本x去訓練模型f，使得y儘量輸出我們期待的值，例如0。那假如我們遇到一個樣本x’，這個樣本和訓練樣本x差別很小，

l2-loss，l2範數，l2正則化，歐式距離

access src 梯度 com inf content 開平 nbsp alt 歐式距離： l2範數： l2正則化： l2-loss(也叫平方損失函數)： http://openaccess.thecvf.com/content_cvpr_2017/papers

機器學習防止過擬合之L1範數（正則）與LASSO

機器學習過擬合問題對於機器學習問題，我們最常遇到的一個問題便是過擬合。在對已知的資料集合進行學習的時候，我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合，但卻不一定能夠很好的解釋測試資料或者其他資料，也就是說這個模型過於精

影象處理能量泛函優化——L1範數正則化項，軟閾值公式

接上篇更新的L2範數求解的問題，接著講L1範數更新的問題 L1範數正則化項又稱為拉布拉斯先驗。帶有L1正則化項的問題是圖問題，求解相對簡單，具有閉式解。其求解就是著名的軟閾值公式。問題

scikit-learn機器學習（二）--嶺迴歸，Lasso迴歸和ElasticNet迴歸

多元線性迴歸模型中，為了是均方差誤差最小化，常見的做法是引入正則化，正則化就是給對模型的引數或者說是係數新增一些先驗假設，控制模型的空間，使模型的複雜度較小。正則化目的：防止過擬合正則化本質：約束要優化的引數正則化會保留樣本的所有特徵向量，但是會

Python學習之路6?函數，遞歸，內置函數

erro memory 子程序 none 種類 lan 萬年字典得到一python中的函數函數是邏輯結構化和過程化的一種編程方法。 python中函數定義方法： def test(x): "The function definitions" x

機器學習--樸素貝葉斯分類，以及拉普拉斯校準

機器學習算法我們 earch lov 單詞標註樸素貝葉斯分類 images 劃分原文鏈接：http://chant00.com/2017/09/18/%E8%B4%9D%E5%8F%B6%E6%96%AF/

day18 python學習內置函數，匿名函數，裝飾器的

編碼 color 返回值空字符 before 篩選等於是不是執行函數 format的用法 print(format(‘aa‘,‘>20‘)) print(format(‘aa‘,‘<20‘)) print(format(‘aa‘,‘^20‘)) 打印

python學習第四天，列表生產式，匿名函數，生成器，內置函數，叠代器，裝飾器，json和pickle的序列化和反序列化

數據其他 imp 函數名 fun pro serializa and cal 列表生成式，生產器 #列表生成式,可以是代碼更復雜 a = [i for i in range(10)] #這裏的i，可以使用函數來裝飾 print(a) #生產器：就是數據在調用的時候才有

機器學習筆記----最小二乘法，區域性加權，嶺迴歸講解

https://www.cnblogs.com/xiaohuahua108/p/5956254.html 前情提要：關於logistic regression，其實本來這章我是不想說的，但是剛看到嶺迴歸了，我感覺還是有必要來說一下。一:最小二乘法最小二乘法的基本思想：基於均方誤差最小化來

深度學習基礎--正則化與norm--L1範數與L2範數的聯絡

L1範數與L2範數的聯絡假設需要求解的目標函式為：E(x) = f(x) + r(x) 其中f(x)為損失函式，用來評價模型訓練損失，必須是任意的可微凸函式，r(x)為規範化約束因子，用來對模型進行限制。根據模型引數的概率分佈不同，r(x)一般有: 1）L1正規化

Ubuntu18.04下安裝機器學習相關Python第三方庫numpy，scipy，pandas，matplotlib

本文主要講述在ubuntu18.04下是如何安裝numpy，scipy，pandas，matplotlib的一、numpy NumPy（Numeric Python）是用Python進行科學計算的基本軟體包。 NumPy是Pytho

機器學習演算法——支援向量機svm，實現過程

初學使用python語言來實現支援向量機演算法對資料進行處理的全過程。 from sklearn.datasets import load_iris #匯入資料集模組 from sklearn.model_selection import train_test_spli

演變：機器學習和基於 Web 的體驗，快速、實時和完全互動

文 / Takashi Kawashima 插圖 / Morgane Sanglier 來源 | TensorFlow 公眾號毋庸置疑，機器學習（ML）的出現是現代電腦科學領域的一個突破性時刻。作為設計師以及使用者，我們已經看到了它的切實的影響：ML 助力改變

乾貨丨機器學習入門（經典好文，強烈推薦）

讓我們從機器學習談起導讀：在本篇文章中，將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭

機器學習_最小二乘法，線性迴歸與邏輯迴歸

1. 線性迴歸線性迴歸是利用數理統計中迴歸分析，來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。直觀地說，在二維情況下，已知一些點的X,Y座標，統計條件X與結果Y的關係，畫一條直線，讓直線離所有點都儘量地近（距離之和最小），用直線抽象地表達這些點，然後對新的X預測新的Ｙ。具體實現一般

獨家總結 | 一文讀懂機器學習的“發展歷程” (時間歷程，詳細又充實！)

機器學習是人工智慧AI研究發展到一定階段的必然產物！二十世紀五十年代~七十年代初，“推理期”：機器的只能體現在具有邏輯推理能力。二十世紀七十年代中期開始，AI進入“知識期”，希望機器能夠自己學習！其實，圖靈1950年就曾提到過機器學習的可能五十年代中後期，基於神經網路的“連線

常見範數（向量範數、矩陣範數）及其在機器學習演算法的應用

注意，範數有很多種，它是根據性質來定義的。滿足下面三條性質的都可以稱為範數：那麼，範數用來幹嘛的？上面三個性質，非常像中學向量的模長的定義。二維、三維向量模長也符合上面3個條件，所以也可以叫做範數。所以，其實引入“範數”就是為了得到一種線性空間中的向量“大小”的度量、或兩個向量之間的“接

概率統計與機器學習：獨立同分布，極大似然估計，線性最小二乘迴歸

獨立同分布獨立性概念：事件A，B發生互不影響公式：P(XY)=P(X)P(Y) ，即事件的概率等於各自事件概率的乘積舉例：正例：兩個人同時向上拋硬幣，兩個硬幣均為正面的概率反例：獅子在某地區出現的概率為X，老虎出現概率為Y，同時出現

[機器學習]Lasso，L1範數，及其魯棒性

相關推薦