深度學習剖根問底：各種Loss大總結

阿新 • • 發佈：2019-02-17

1. 指數損失函式（Adaboost）

學過Adaboost演算法的人都知道，它是前向分步加法演算法的特例，是一個加和模型，損失函式就是指數函式。在Adaboost中，經過m此迭代之後，可以得到fm(x):

Adaboost每次迭代時的目的是為了找到最小化下列式子時的引數α和G：

而指數損失函式(exp-loss）的標準形式如下

可以看出，Adaboost的目標式子就是指數損失，在給定n個樣本的情況下，Adaboost的損失函式為：

幾種損失函式的視覺化影象

引數越多，模型越複雜，而越複雜的模型越容易過擬合。過擬合就是說模型在訓練資料上的效果遠遠好於在測試集上的效能。此時可以考慮正則化，通過設定正則項前面的hyper parameter，來權衡損失函式和正則項，減小引數規模，達到模型簡化的目的，從而使模型具有更好的泛化能力。

2. log對數損失函式（邏輯迴歸）

有些人可能覺得邏輯迴歸的損失函式就是平方損失，其實並不是。平方損失函式可以通過線性迴歸在假設樣本是高斯分佈的條件下推導得到，而邏輯迴歸得到的並不是平方損失。在邏輯迴歸的推導中，它假設樣本服從伯努利分佈（0-1分佈），然後求得滿足該分佈的似然函式，接著取對數求極值等等。而邏輯迴歸並沒有求似然函式的極值，而是把極大化當做是一種思想，進而推匯出它的經驗風險函式為：最小化負的似然函式（即max F(y, f(x)) —-> min -F(y, f(x)))。從損失函式的視角來看，它就成了log損失函數了。

log損失函式的標準形式：

剛剛說到，取對數是為了方便計算極大似然估計，因為在MLE中，直接求導比較困難，所以通常都是先取對數再求導找極值點。損失函式L(Y, P(Y|X))表達的是樣本X在分類Y的情況下，使概率P(Y|X)達到最大值（換言之，就是利用已知的樣本分佈，找到最有可能（即最大概率）導致這種分佈的引數值；或者說什麼樣的引數才能使我們觀測到目前這組資料的概率最大）。因為log函式是單調遞增的，所以logP(Y|X)也會達到最大值，因此在前面加上負號之後，最大化P(Y|X)就等價於最小化L了。
邏輯迴歸的P(Y=y|x)表示式如下（為了將類別標籤y統一為1和0，下面將表示式分開表示）：

將它帶入到上式，通過推導可以得到logistic的損失函式表示式，如下：

邏輯迴歸最後得到的目標式子如下：

上面是針對二分類而言的。這裡需要解釋一下：之所以有人認為邏輯迴歸是平方損失，是因為在使用梯度下降來求最優解的時候，它的迭代式子與平方損失求導後的式子非常相似，從而給人一種直觀上的錯覺。

3. 二分類交叉熵損失sigmoid_cross_entropy：

4. 二分類平衡交叉熵損失balanced_sigmoid_cross_entropy：

該損失也是用於2分類的任務，相比於sigmoid_cross_entrop的優勢在於引入了平衡引數，可以進行正負樣本的平衡，得到比sigmoid_cross_entrop更好的效果。

5. 多分類交叉熵損失softmax_cross_entropy：

6. Focal loss：

focal loss為凱明大神的大作，主要用於解決多分類任務中樣本不平衡的現象，可以獲得比softmax_cross_entropy更好的分類效果。

論文中α=0.25，γ=2效果最好。

7. 合頁損失hinge_loss：

也叫鉸鏈損失，是svm中使用的損失函式。

由於合頁損失優化到滿足小於一定gap距離就會停止優化，而交叉熵損失卻是一直在優化，所以，通常情況下，交叉熵損失效果優於合頁損失。

8. KL散度：

KL散度( Kullback–Leibler divergence)，也叫相對熵，是描述兩個概率分佈P和Q差異的一種方法。它是非對稱的，這意味著D(P||Q) ≠ D(Q||P)。特別的，在資訊理論中，D(P||Q)表示當用概率分佈Q來擬合真實分佈P時，產生的資訊損耗，其中P表示真實分佈，Q表示P的擬合分佈。