1. 程式人生 > 其它 >[論文][人臉演算法]Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

[論文][人臉演算法]Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

Motivation

在表情識別中,標註質量高的資料集資料量小,容易造成過擬合;資料量大的資料集標註質量不佳,含噪聲,不利於模型的學習。如下圖,為表情識別中最大的資料集之一AffectNet中錯誤標籤。我們提出Progressive Teacher 用於同時解決缺少高質量標註資料和大資料集標註含噪聲兩個問題。

網路架構

Progressive Teacher是一個典型的老師-學生網路,即學生網路在老師網路的指導下逐步提升。一般而言,在訓練過程中,老師網路的權重是學生網路的引數變化的平均,並且有著更好的表現,我們希望學生網路的分類誤差儘可能小(對於有標籤的資料,通過和標籤對比計算損失)並且老師模型的輸出的結果一致(無標籤和有標籤的資料都可以通過這個方式來約束)。

Progressive Teacher模型相比傳統的老師-學生模型,不僅可以提供更好的結果並引導學生網路產生相同的結果(是一種半監督的典型方法,可以解決標註資料少的問題),還可以為學生模型選擇潛在的乾淨樣本學習(可以解決標註資料含噪聲的問題)。

具體方法:

我們使用了兩組學生老師模型。兩組模型的結構相同,但引數的初始化不同。在兩組模型中,學生和老師網路使用不同的資料增強方法,同時,學生網路通過SGD優化器進行優化,老師網路的權重是學生權重的指數平均移動。
由於不同的初始化,在訓練的早期階段,它們會給對方不同的samples(所學內容有區別?),老師網路則將這些區別積累放大。同時,老師網路會選擇分類交叉熵損失更小的樣本作為乾淨樣本(具體的選擇比例由R(t)表示,且該比例隨著訓練的過程變化),給學生網路學習。
兩組模型採用交叉訓練機制,例如:第一組老師網路會把篩選出的乾淨樣本傳遞給第二組學生網路,第二組學生網路則會計算出監督的分類損失(交叉熵損失)和非監督的一致性損失(MSE損失)。
監督損失:

非監督損失:

總損失:

其中 w(t)是一個ramp-up函式,確保在訓練的初始階段,由於老師模型的引導能力有限,所以給非監督損失的權重較小。
在權重更新的過程中,老師網路的引數隨著學生網路的引數按照如下方式變化:

實驗

使用RAF-DB資料集作為高質量標準的資料集,使用AffectNet作為補充的無標籤資料