1. 程式人生 > >深度學習Loss 種類彙總以及討論

深度學習Loss 種類彙總以及討論

(1)

首先是從大的角度來說,度量loss的主要為兩種方法。一種是從歐式距離計算,以L2-norm為主,一種是近來的另闢蹊徑的轉換到角度領域,主要從餘弦和夾角這兩個在我看來有異曲同工之效的角度。但是,總的Loss改進的出發點從之前的可分到現在的最大化類間最小化類內這個目標。

遍觀出現的Loss種類,我覺得可以分為兩大類。一類以樣本本身為一個優化手段,一類以改進softmax的margin種類為優化方法。

第一類出現的方法基於歐式距離,以centerLoss,contrastiveLoss,tripletLoss為代表,其他的一些還沒看過(rangeLoss等)。

CenterLoss ,很明顯的以center為中心的一個優化。論文思想較簡單,我覺得可以類比於聚類(類別數已知),加入一個正則項的約束。這個正則項的約束以樣本到聚類中心的歐式距離為度量。作為二次方平方和,其公式和推導也是簡單的。具體的論文和程式碼見[1]

contrastiveLoss ,是作為一個降維的方式提出的,本質屬於metric learning。Contrastive譯為對比,體現在輸入樣本成對輸入,旨在儲存鄰里關係。起初這個損失函式作為孿生網路的損失函數出現,將相似的樣本輸入孿生網路之後得到的在降維空間中依舊靠近的關係。以歐式距離來度量樣本之間的相似性。論文見[2]

TripletLoss ,在contrastiveloss的基礎上,以三個樣本為輸入。以一個人的某個圖片為標準,作為anchor,同時輸入一個正樣本p和一個負樣本n,以歐式距離為度量。使得所有的樣本的正樣本離anchor近,負樣本離得遠。具體論文見[3],但是這樣的由樣本決定的loss,通常對於輸入訓練的樣本對有要求。

第二類出現的Loss,轉換思路從角度空間和餘弦空間來考慮。Softmax作為大部分Loss 改進的物件,一開始的出發點應該是將歐式距離轉化為條件概率度量,但是不論是歐式平方差和loss還是softmaxLoss,本身都和多層感知機分類一樣,目標在於可分,因此錯分的可能性和錯誤樣本的影響都比較大。因此,為了完成從多層感知機到SVM的一個轉化,加上margin是一個重要的選擇。主要來說以下的幾類方法為例。

large-margin(簡稱L-softmax) 作為早期出現的,算是先提出從角度方面考慮的Loss改進。其邊界劃分以角度來劃分。將以的方式改寫出來。同時將屬於第yi類的餘弦改為,以此來增加類間差異縮小類內差異。以二類的決策邊界來看,


其主要的論文以[4]為主。

l2-norm 是一個在softmax的基礎上對特徵X權重W歸一化的過程。這個方法的目的可以對照上面large-margin來看。雖說large-margin加入了角度裕量,但是由於和的影響,角度的作用被削弱了,所以為了完全的增強角度在判別中的作用,將這兩者歸一化為1和S,有利於更好的優化目標。其論文見[5]。論文中還加入了對S的最小邊界的猜想和證明。

AM-softmax ,在這個基礎上,也就出現了將歸一化之後結合L-softmax的modified-loss,以及進一步歸一化特徵的SephereFace。相關論文為[6]

CosFace顧名思義與餘弦有關,之前的超引數都是以乘的形式來增加裕量。雖然可以增加裕量,但是從計算上來說,不單調,不方便反向傳播。因此,從角度空間轉化到餘弦空間來,加上歸一化,二分類決策邊界可以寫為:

同時在論文中,也提出來了對於特徵歸一化後S的證明以及m的選取依據。相關論文見[7]

ArcFace ,很有意思的是又從餘弦空間跑到了角度空間,將m移入cos中。其決策邊界可以寫為:

相關論文見[8]

最後,以[8]中一張圖來表示這幾個基於角度的loss之間的差異:

(2)

論文以及相關程式碼連結:

Dimensionality Reduction by Learning an Invariant Mapping。

FaceNet: A Unified Embedding for Face Recognition and Clustering。

Large-Margin Softmax Loss for Convolutional Neural Networks。

L2-constrainedSoftmax Loss for Discriminative Face Verification。

SphereFace: Deep Hypersphere Embedding for Face Recognition。

Large Margin Cosine Loss for Deep Face Recognition。

ArcFace: Additive Angular Margin Loss for Deep Face Recognition。