關於L0，L1和L2範數的規則化

本文主要整理一下機器學習中的範數規則化學習的內容：

規則化
-什麼是規則化
-為什麼要規則化
-規則化的理解
-怎麼規則化
-規則化的作用
範數
-L0範數和L1範數
-L2範數
-L1範數和L2範數
補充
-condition number
-微博、知乎部分討論
參考附錄

規則化

什麼是規則化？

回顧一下機器學習演算法的3個要點：1.根據資料找合適的模型；2.定義損失以評估模型；3.設計求解優化的方法。
再回顧一下監督學習：規則化引數（防止模型過分擬合訓練資料）的同時最小化誤差（模型擬合訓練資料的偏差）。

Regularization, in mathematics and statistics and particularly in the fields of machine learning and inverse problems, refers to a process of introducing additional information in order to solve an ill-posed problem or to prevent overfitting. —— from wikipedia

Regularization是引入額外的資訊來解決ill-posed問題或者防止overfitting的過程。

規則化的表現形式：ω∗=argminω∑iL(yi,f(xi;ω))+λΩ(ω)
第一項是衡量模型對樣本的預測與真實的誤差(二者越接近越好)，最小化誤差指該部分。
第二項是對引數w的規則化函式Ω(w)約束模型(使模型簡單)。最小化模型測試誤差指該部分。

為什麼要規則化？

為了解決ill-posed問題或者防止overfitting，期望獲得一個能夠很好地解釋資料而且simple的模型，或者從統計角度來說，是找一個減少過度擬合的估計方法。

一般從線性迴歸問題也稱最小二乘問題（Least Squares Problem, LSP）和邏輯迴歸問題（Logistic Regression Problem, LRP）引入。前者想象預測的變數是數字，後者預測的變數是“是/否”的這種分類答案。這兩個問題中會出現下面的情況導致overfitting：

When the number of observations or training examples m is not large enough compared to the number of feature variables n, over-fitting may occur. 樣本數量m選不如特徵維度n大
Tends to occur when large weights are found in x. 待預測的向量x的有過大的權重，也就是擬合函式的係數過大【考慮太過全面，把noise 或者 error in the data都考慮進去了，過分擬合。這樣導致擬合函式波動大。同一量級上考慮，係數小曲線偏平滑，係數大，曲線偏陡峭】

針對1.解決方法是：
- 減少特徵數量

可以人工選擇重要的特徵變數以減少特徵數。
自動的，特徵選擇(Feature Selection) -> 稀疏性 -> 正則化

-增加樣本數量

針對2.解決方法是：

正則化

當然還有其他的方法，本文不介紹了。eg.cross-validation, early stopping, pruning, Bayesian priors on parameters or model comparison

規則化的理解

讓模型簡單，意味著要採取措施降低模型複雜度（過多引數導致模型複雜–稀疏 is ok），使用規則項來約束模型（約束了待學習的模型引數w，也就變相約束了模型）的特性。

還有幾種種理解角度：

角度一
經驗風險=平均損失函式，結構風險=損失函式+正則化項（懲罰項）
正則化是結構風險最小化的策略。正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大。比如，模型引數向量的範數。
角度二
正則化項的引入其實是利用了先驗知識，體現了人對問題的解的認知程度或者對解的估計。這樣就可以將人對該問題的理解和需求（先驗知識）融入到模型的學習當中，對模型引數設定先驗，強行地讓學習到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。（正則與稀疏、低秩和平滑的關係）
L1正則是laplace先驗，l2是高斯先驗，分別由引數sigma確定。
角度三
附錄的Sparsity and the Lasso
最小二乘問題中，ranx(A)<樣本數量。對要解決的問題加限制條件(角度二中的先驗)–>[subject to]

影象表示出來是這樣的：

利用對偶，KKT等轉化成這樣：為什麼要凸的，這就用著了。

本質上都差不多，切入點不同，就可以從不同方面理解了。

怎麼規則化？

前面提到，正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大（為了給予複雜模型以懲罰，因為優化的時候要最小化函式，想要得到simple模型，越複雜，懲罰越大），並且優化過程還想得到稀疏的引數。（看怎麼理解稀疏了，L1引數大多為0，L2引數大多接近0）。下面介紹的是用向量範數的形式來規則化，看範數那一節。

為什麼引數要稀疏呢?——特徵選擇；問題的可解釋性
1. 特徵選擇：large-scale 可能大部分特徵是對於最終的輸出y是無影響的或者影響很小的。訓練時最小化目標函式，如果考慮這些特徵會得到更小的誤差，但是會對新樣本的預測結果產生影響。Lasso regularization的引入是為了完成特徵自動選擇，它會在優化過程中主動去學習去掉這些沒有用的特徵，把特徵對應的權重置為0。【L1】
2. 可解釋性：例如一回歸問題，假設迴歸模型為：y=w1*x1+w2*x2+…+w1000*x1000+b。通過學習，如果最後學習到的w*，只有很少的非零元素，大部分w*為0或接近於0，例如只有5個非零的wi，那可以認為y只受這5個xi（因素）的影響，更有利於人們對問題的認識和分析，抓住影響問題的主要方面（因素）更符合認知習慣。【L2】
【正則與平滑】實際上，這些引數值越小，通常對應于越光滑的函式，也就是更加簡單的函式。
【正則與稀疏】為什麼正則化會使引數稀疏呢？

規則化的作用？

防止過擬合（平衡了偏差與方差，擬合能力與泛化能力，結構風險和經驗風險）；
正則化導致的稀疏性是有益的：特徵選擇以及把人對於問題的認知作為先驗引入優化過程中；
降低condition number，處理因其過大導致逆矩陣不好求的情況；

範數

L0範數和L1範數

L0範數是指向量中非0的元素的個數。
L1範數是指向量中各個元素絕對值之和，也稱Lasso regularization
如果用L0範數來規則化一個引數矩陣W的話，就是希望W的大部分元素都是0，也就是讓引數W是稀疏的。L0應該不算是norm。像L1，L2等可以轉換到convex或者本身就是convex的這種算norm。(能用來優化)

為什麼L1範數會使權值稀疏？
見L1範數和L2範數部分。

L2範數

∥x∥2權值衰減 weight decay ，迴歸問題裡叫嶺迴歸(ridege regression)

指向量各元素的平方和再求平方根。讓L2範數的規則項最小，可以使得W的每個元素都很小，都接近於0，但與L1範數不同，它不會讓它等於0，而是接近於0。

L2範數好處
1.學習理論角度——L2範數可以防止過擬合，提升模型的泛化能力
2.優化計算角度——L2範數有助於處理矩陣 condition number不好的情況下矩陣求逆很困難的問題
為什麼L2範數有助於處理矩陣condition number不好的情況下矩陣求逆很困難的問題？
以最小二乘問題LSP為例，新增正則項(add “preference” for certain parameter values)之後的cost function J :

J(θ−)=12(y−−θ−X−−t)⋅(y−−θ−X−−t)T+αθθT
用同樣的方法，求得新的解的表示式為
θ−=y−X−−(X−−TX+αI)−1
此時，該問題是well-posed，加入了L2正則後，改善了X−−TX−−的condition number，而且不需要直接求逆矩陣，可通過解線性方程組的眾多方法來解決。如果說我本來也不準備求逆矩陣，用迭代方法求解可不可以不加正則項了？condition number 太大，收斂速度慢。

L1範數和L2範數

Unlike the L2-regularization which restricts large values, the L1-regularization term penalizes all factors equally, which can create sparse answers.

參考附錄9

example 1

解釋一下，考慮向量x⃗ =(1,ε)∈R2且ε<0，給出x⃗ 的L1，L2範數。作為正則化的過程，減少x⃗ 其中的一個元素（相當於在某個元素上新增擾動）。給出了x1,x2分別減少δ(δ≤ε)之後的L1，L2範數。
L2範數結果，考慮減小δ之後的新的x⃗ 中的x1,x2。對於較大的x1會產生大的reduction (1+ε2)−(1−2δ+δ2+ε2)=2δ−δ2，對於接近於0的x2會產生很小的reduction(1+ε2)−(1−2δε+δ2+ε2)=2δε−δ2.比較一下二者的量級，不平等的懲罰（把reduction看做懲罰），值大的懲罰大，值小的懲罰小。【restricts large values】
L1範數結果，不論擾動給x1還是x2，前後的reduction都是δ，平等的懲罰（給誰擾動都是一樣的懲罰）。一直按著這個步子朝著0前進。【penalizes all factors equally->can create sparse answers】
用L2範數懲罰模型，懲罰程序中，不太可能有任何元素被置為0。主要看值小的那一項（給x2添擾動，值小的靠近0，看看他的變化情況），reduction=2δε−δ2，下一次的擾動後，reduction=4δε−3δ2，可以看到reduction越來越小，而且和x2本身的值，不在一個數量級上。

L1範數懲罰可以使稀疏；L2懲罰過程中，元素朝著0移動的這種reduction越來越小，意味著移動速度越來越慢，一定程度上阻礙了稀疏性。可以根據範數的影象，看導數。

example 2

考慮含有引數(ω1,ω2,...,ω

關於L0，L1和L2範數的規則化

規則化

什麼是規則化？

為什麼要規則化？

規則化的理解

怎麼規則化？

規則化的作用？

範數

L0範數和L1範數

L2範數

L1範數和L2範數

關於L0，L1和L2範數的規則化

常用loss以及L0，L1以及L2範數

機器學習中的範數規則化之（一）L0、L1與L2範數

【轉】範數規則化L0、L1與L2範數

機器學習中的範數規則化之L0、L1與L2範數

機器學習中的範數規則化之 L0、L1與L2範數

轉：機器學習中的範數規則化之（一）L0、L1與L2範數

轉載：機器學習中的範數規則化之（一）L0、L1與L2範數

機器學習中的範數規則化之 L0、L1與L2範數

機器學習中的範數規則化之（一）L0、L1與L2範數、核範數與規則項引數選擇

『教程』L0、L1與L2範數_簡化理解

深度學習——L0、L1及L2範數

L0、L1、L2範數與核範數（二）

L0、L1、L2範數學習筆記

L1範數和L2範數的區別

L1和L2範式

機器學習中的正則化和範數規則化

機器學習中的範數規則化之L21範數

範數規則化

【機器學習】範數規則化之（二）核範數與規則項引數選擇

關於L0，L1和L2範數的規則化

規則化

什麼是規則化？

為什麼要規則化？

規則化的理解

怎麼規則化？

規則化的作用？

範數

L0範數和L1範數

L2範數

L1範數和L2範數

相關推薦