正則化（Regularization）

機器學習中幾乎都可以看到損失函式後面會新增一個額外項，常用的額外項一般有兩種，一般英文稱作ℓ1-norm和ℓ2-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。

L1正則化和L2正則化可以看做是損失函式的懲罰項。對於線性迴歸模型，使用L1正則化的模型建叫做Lasso迴歸，使用L2正則化的模型叫做Ridge迴歸（嶺迴歸）。下圖是Python中Lasso迴歸的損失函式，式中加號後面一項α||w||1即為L1正則化項。

lasso regression

下圖是Python中Ridge迴歸的損失函式，式中加號後面一項α||w||22即為L2正則化項。

ridge regression

一般迴歸分析中迴歸w表示特徵的係數，從上式可以看到正則化項是對係數做了處理。L1正則化和L2正則化的說明如下：

L1正則化是指權值向量w中各個元素的絕對值之和，通常表示為||w||1
L2正則化是指權值向量w中各個元素的平方和然後再求平方根（可以看到Ridge迴歸的L2正則化項有平方符號），通常表示為||w||2

一般都會在正則化項之前新增一個係數，Python中用α表示，一些文章也用λ表示。這個係數需要使用者指定。

那新增L1和L2正則化有什麼用？下面是L1正則化和L2正則化的作用，這些表述可以在很多文章中找到。

L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，因此可以用於特徵選擇

L2正則化可以防止模型過擬合（overfitting）；一定程度上，L1也可以防止過擬合

稀疏模型與特徵選擇

上面提到L1正則化有助於生成一個稀疏權值矩陣，進而可以用於特徵選擇。為什麼要生成一個稀疏矩陣？

稀疏矩陣指的是很多元素為0，只有少數元素是非零值的矩陣，即得到的線性迴歸模型的大部分系數都是0. 通常機器學習中特徵數量很多，例如文字處理時，如果將一個片語（term）作為一個特徵，那麼特徵數量會達到上萬個（bigram）。在預測或分類時，那麼多特徵顯然難以選擇，但是如果代入這些特徵得到的模型是一個稀疏模型，表示只有少數特徵對這個模型有貢獻，絕大部分特徵是沒有貢獻的，或者貢獻微小（因為它們前面的係數是0或者是很小的值，即使去掉對模型也沒有什麼影響），此時我們就可以只關注係數是非零值的特徵。這就是稀疏模型與特徵選擇的關係。

L1和L2正則化的直觀理解

這部分內容將解釋為什麼L1正則化可以產生稀疏模型（L1是怎麼讓係數等於零的），以及為什麼L2正則化可以防止過擬合。

L1正則化和特徵選擇

假設有如下帶L1正則化的損失函式：

J=J0+α∑w|w|(1)
其中J0是原始的損失函式，加號後面的一項是L1正則化項，α是正則化係數。注意到L1正則化是權值的絕對值之和，J是帶有絕對值符號的函式，因此J是不完全可微的。機器學習的任務就是要通過一些方法（比如梯度下降）求出損失函式的最小值。當我們在原始損失函式J0後新增L1正則化項時，相當於對J0做了一個約束。令L=α∑w|w|，則J=J0+L，此時我們的任務變成在L約束下求出

L1範數和L2範數的區別

正則化（Regularization）

稀疏模型與特徵選擇

L1和L2正則化的直觀理解

L1正則化和特徵選擇

L1範數和L2範數的區別

關於L0，L1和L2範數的規則化

深度學習基礎--正則化與norm--L1範數與L2範數的聯絡

L1和L2範式

向量範數和矩陣範數

常見向量範數和矩陣範數

python全棧開發【補充】map函數和reduce函數的區別

C/C++之巨集、行內函數和普通函式的區別

回調函數和鉤子函數的區別

面試---行內函數和巨集定義的區別

行內函數和巨集定義的區別和聯絡

行內函數和巨集定義的區別

行內函數和預處理巨集區別

JS 中構造函數和普通函數的區別（詳）

Java - split()函數和trim()函數的使用方法

oracle decode函數和 sign函數

strip()函數和 split()函數

C語言itoa()函數和atoi()函數詳解(整數轉字符C實現)

構析函數和構造函數

python函數（6）：內置函數和匿名函數

L1範數和L2範數的區別

正則化（Regularization）

稀疏模型與特徵選擇

L1和L2正則化的直觀理解

L1正則化和特徵選擇

相關推薦