1. 程式人生 > 其它 >[論文][表情識別]Suppressing Uncertainties for Large-Scale Facial Expression Recognition

[論文][表情識別]Suppressing Uncertainties for Large-Scale Facial Expression Recognition

Suppressing Uncertainties for Large-Scale Facial Expression Recognition

論文基本情況

  • 發表時間及刊物/會議: 2020 CVPR
  • 發表單位:ShenZhen Key Lab of Computer Vision and Pattern Recognition, SIAT-SenseTime Joint、中國科學院大學、新加坡南洋理工

問題背景

大規模表情識別中可能會出現部分標註不準確的圖片,錯誤標籤會帶來以下三種危害:
(1)模型容易在錯誤標註上過擬合
(2)錯誤的標註不利於模型學習表情特徵
(3)錯誤的標註容易導致早期階段訓練不收斂

論文創新點

通過Self- Cure Network(SCN) 來解決資料集標註不準確的問題, 具體分析如下:
(1)SCN結構中的注意力機制給予標註不準確的圖片更低的權重, 並通過Rank Regularization loss將所有圖片分為高注意力組和低注意力組兩組。
(2)SCN中relabel機制嘗試給予“標註不正確”(模型認為不正確)的圖片“正確”(模型認為正確)的標籤。

網路結構

網路結構主要分為以下三個部分:
(1) self-attention importance weighting
(2)ranking regularization
(3)relabeling

self-attention importance weighting

  1. SCN使用ResNet18作為backbone,並將ResNet18在最後全連線層之前提取到的特徵送入 self-attention importance weighting模組。公式(1)中的\(x_i\)表示第\(i\)張圖片在全連線層之前的特徵,\(\sigma,W\)分別表示sigmoid啟用函式和注意力機制中全連線層的引數 。\(\alpha_i\)表示得到的注意力權重。

    個人認為,\(W\)\(x_i\)相乘後,值越大,代表所提取到的特徵越顯著,“uncertainty”越小,而將特徵再通過sigmoid啟用函式,將所有的特徵值歸為0~1之間,便於更好的比較不同特徵的重要性。
  2. 在 self-attention importance weighting結構中,SCN使用公式(1)所得注意力權重作為各個特徵重要性的參考,以此作為權重衡量各個loss的重要性。因此,該網路的損失函式如下:

    (關於這種loss函式的使用,可參考如下論文:
    [1] Wei Hu, Yangyu Huang, Fan Zhang, and Ruirui Li. Noise- tolerant paradigm for training face recognition cnns. In CVPR, pages 11887–11896, 2019
    [2] Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, pages 212–220, 2017. )

ranking regularization

此模組主要是根據self-attention importance weighting結構中得到的注意力權重按照高低次序排序,並根據比例(此比例為超引數)將全部圖片分為高注意力和低注意力兩組,我們希望,高注意力組和低注意力組的注意力權重差別超過一定閾值(此閾值為超引數),因此設計了rank regularization loss(RR Loss),類似hinge loss的思想。


其中,N表示所有圖片的張數,M是高注意力組圖片張數。
總損失函式為\(L_{loss}\)\(L_{RR}\)的加權和。

relabeling

SCN網路對低注意力組中的部分圖片進行重新標註,使得資料集標註更準確。
糾正標籤的機制如下所示,網路預測的結果經過softmax後為一個概率分佈,取概率最大的類別作為預測標籤。如下公式中,\(P_{max}\)表示網路預測結果最大的概率,對應的類別為\(l_{max}\)\(P_{gtInd}\)表示真實標籤\(l_{org}\)對應的概率,當網路預測結果最大的概率超過真實標籤對應的概率一定值時(此閾值為超引數),SCN認為此時真實標籤是有誤的,因此,在後續訓練中,使用網路預測結果最大的概率對應的標籤作為真實標籤。相當於修正了資料集。

實驗結果

  1. SCN在添加了隨機噪聲的後的圖片上的結果
  2. SCN在原始資料集上的實驗結果