範數及其應用

阿新 • • 發佈：2018-12-22

範數

範數的一般化定義：設\(p\geq 1\)的實數，p-norm定義為：

\[ || x ||_{p}\; :=\; (\sum_{i=1}^{n}{\left| x_{i} \right|^{p}})^{\frac{1}{p}} \]

L0範數

\[\left| \left| x \right| \right|_{0}\; :=\; ^{0}\sqrt{\sum_{i=0}^{n}{x_{i}^{0}}}\]

嚴格來講，L0不屬於範數，上面的公式讓人難以理解。在實際應用中，人們往往採用以下定義：

\[\left| \left| x \right| \right|_{0}\; \; =\; \#\left( i \right)\; with\; x_{i}\; \neq \; 0\]

其表示向量中所有非零元素的個數。

L1範數

\[\left| \left| x \right| \right|_{1}\; :=\; \sum_{i=1}^{n}{\left| x_{i} \right|} \]

也稱為曼哈頓距離。

L0範數是指向量中非0的元素的個數。如果我們用L0範數來規則化一個引數矩陣W的話，就是希望W的大部分元素都是0。換句話說，讓引數W是稀疏的。看到了“稀疏”二字，大家都應該從當下風風火火的“壓縮感知”和“稀疏編碼”中醒悟過來，原來用的漫山遍野的“稀疏”就是通過這玩意來實現的。

但你又開始懷疑了，是這樣嗎？看到的papers世界中，稀疏不是都通過L1範數來實現嗎？腦海裡是不是到處都是||W||1影子呀！

L1範數和L0範數可以實現稀疏，L1因具有比L0更好的優化求解特性而被廣泛應用。

L2範數

範數中最常見，也最著名的非L2範數莫屬。
\[\left| \left| x \right| \right|_{2}\; :=\; \sqrt{\sum_{i=1}^{n}{x_{i}^{2}}}\]

L2範數的優點

從學習理論的角度來說，L2範數可以防止過擬合，提升模型的泛化能力。
從優化或者數值計算的角度來說，L2範數有助於處理condition number不好的情況下矩陣求逆很困難的問題。

L1和L2的差別，為什麼一個讓絕對值最小，一個讓平方最小，會有那麼大的差別呢？

下降速度：
L1就是按絕對值函式的“坡”下降的，而L2是按二次函式的“坡”下降。
模型空間的限制：

對於L1和L2規則化的代價函式來說，我們寫成一下形式：

\[ Lasso:\; \min_w{||y-Xw||^2},\; s.t.\ ||w||_1\leq{C}\\ Ridge:\; \min_w{||y-Xw||^2},\; s.t.\ ||w||_2\leq{C}\\ \]

考慮二維的情況，等高線與norm ball相交的地方就是最優解。L1-ball的最優點大都出現在"角點"處，這便大概率產生了稀疏性；L2-ball卻不可以，它只是一種規則化手段。

無限範數

infinity norm:
\[\left| \left| x \right| \right|_{\infty }\; :=\; ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty }}}\]

即：
\[\left| \left| x \right| \right|_{\infty }\; =\; ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty }}}\; =\; ^{\infty }\sqrt{x_{j}^{\infty }}\; \; =\; \max \left( \left| x_{j} \right|\right) \]
表示的是X向量中最大元素的長度。

機器學習中的應用

正則化

對模型複雜度進行懲罰，如果懲罰項選擇L1，則是我們所說的Lasso迴歸，而L2則是Ridge迴歸。

貝葉斯

正則化項從貝葉斯學習理論的角度來看，其相當於一種先驗函式分佈。

即當你訓練一個模型時，僅僅依靠當前的訓練集資料是不夠的，為了實現更好的預測（泛化）效果，我們還應該加上先驗項。

而L1則相當於設定一個Laplacean先驗，而L2則類似於 Gaussian先驗。

L1先驗對大值和小值的tolerate很好，而L2先驗則傾向於均勻化大值和小值。

貝葉斯迴歸和圖模型

迴歸模型\(y=Xw+\epsilon\)，可以看做是：
\[p(y|X; w,\lambda)=N(Xw,\lambda) ,\; p(\epsilon)=N(0,\lambda)\]

貝葉斯分佈：
\[p(\epsilon)=\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{\epsilon^2}{2\delta^2})\]
所以：
\[p(y|x;w)=\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})\]

對極大似然MLE取對數:
\[ \begin{split} l(w)&=log(\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})}) \\ &=mlog(\frac{1}{\sqrt{2\pi}\delta}) - \frac{1}{2\delta^2}{\sum_{i=1}^{m}{(y-w^Tx)^2}} \end{split}\]

即：
\[w_{MLE}=arg\; min\sum_{i=1}^{m}{(y-w^Tx)^2}\]
這就匯出了平方損失函式。這是在我們對引數 w 沒有加入任何先驗分佈的情況下。

在資料維度很高的情況下，我們的模型引數很多，模型複雜度高，容易發生過擬合。這個時候，我們可以對引數 w 引入先驗分佈，降低模型複雜度。

Ridge Regression

假設引數w服從協方差為\(\alpha\)的標準高斯分佈。
\[ \begin{split} L(w)&=p(y|x;w*p(w))\\ &=\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})})* \prod_{j=1}{n}{\frac{1}{\sqrt{2\pi}\alpha}*\exp(-\frac{(w)^2}{2\alpha^2})}, w是n個引數\\ &=\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})})* \frac{1}{(2\pi)^{n/2}}\frac{1}{|\Sigma|^{1/2}}exp[-\frac{1}{2}{w^T\Sigma^{-1}w}] \end{split} \]

取對數，得：
\[ \begin{split} l(w)&=log(L(w)) \\ &= m\log{\frac{1}{\sqrt{2\pi}}} + nlog\frac{1}{\sqrt{2\pi}} -\frac{1}{2}\log{|\Sigma|}- \frac{1}{2\delta^2}{\sum_{i=1}^{m}{(y-w^Tx)^2}}-\frac{1}{2}\frac{1}{\alpha}w^Tw \end{split} \]

和w有關的項：
\[J(w)=\frac{1}{m}{||y-w^Tx||_2} + \lambda||w||_2\]

ridge regression 並不具有產生稀疏解的能力，也就是說引數並不會真出現很多零，只是會讓權值在0附近分佈很密集。

假設我們的預測結果與兩個特徵相關，L2正則傾向於綜合兩者的影響，給影響大的特徵賦予高的權重；而L1正則傾向於選擇影響較大的引數，而捨棄掉影響較小的那個。實際應用中L2正則表現往往會優於 L1正則，但 L1正則會大大降低我們的計算量。

Lasso

如果對w引入Laplace分佈呢？Laplace分佈：

\[f(x|u,b)=\frac{1}{2b}\exp({-\frac{|x-u|}{b}})\]

重複之前的推導過程我們很容易得到：

\[w_{MAP} = arg \min(\frac{1}{2\delta^2}{\sum_{i=1}^{m}(y-w^Tx)^2} + \frac{1}{2b^2}{||w||_1})\]

LASSO 仍然是一個 convex optimization 問題，它的優良性質是能產生稀疏性，導致 w 中許多項變成零。等價於L1正則化。

Elastic Net

既然 L1和 L2正則各自都有自己的優勢，那我們能不能將他們 combine 起來？於是就有了混合先驗概率，公式比較複雜，引數約束如下：

範數及其應用

範數

L0範數

L1範數

L2範數

L2範數的優點

無限範數

機器學習中的應用

正則化

貝葉斯

貝葉斯迴歸和圖模型

範數及其應用

母函數及其應用

能量泛函優化方法——L2範數（應用於影象處理）

矩陣的 Frobenius 範數及其求偏導法則

向量與矩陣的範數及其在matlab中的用法(norm)

一道面試題到卡特蘭數及其應用

卡特蘭數及其應用

常見範數（向量範數、矩陣範數）及其在機器學習演算法的應用

範式及其在mysql數據庫設計中的應用

【數據結構】——堆及其應用

高等數學之多元函數微分及其應用之小結

2016012030+王超超+散列函數的應用及其安全性

散列函數的應用及其安全性

信息安全作業5 散列函數的應用及其安全性發展

2016012099+陳傑+散列函數的應用及其安全性

散列函數的應用及其安全性付淅 2016012063

散列函數的應用及其安全性周紫伊2016012043

2016012009 馬佳欣散列函數的應用及其安全性

2016012010 趙瑞雪散列函數的應用及其安全性

信息安全技術作業5--散列函數的應用及其安全性

範數及其應用

範數

L0範數

L1範數

L2範數

L2範數的優點

無限範數

機器學習中的應用

正則化

貝葉斯

貝葉斯迴歸和圖模型

相關推薦