1. 程式人生 > 實用技巧 >2020cvpr最佳人臉識別-Suppressing Uncertainties for Large-Scale Facial Expression Recognition

2020cvpr最佳人臉識別-Suppressing Uncertainties for Large-Scale Facial Expression Recognition

原文連結
程式碼即將開源

Abstact

由於表情模糊、低質量的人臉影象以及註釋者的主觀性等因素的影響,對一個定性的大規模人臉表情資料集進行註釋是非常困難的。這些不確定性導致了深度學習時代大規模人臉表情識別的一個關鍵挑戰。為了解決這一問題,本文提出了一種簡單而有效的自修復網路(SCN),它可以有效地抑制不確定性,防止deep網路過度擬合不確定的人臉影象。具體而言,SCN從兩個不同的方面抑制了不確定性:1)基於小批量的自我注意機制,對每個訓練樣本進行排序正則化加權;2)通過仔細的重標記機制,在排名最低的組中修改這些樣本的標籤。在合成的FER資料集和收集到的WebEmotion資料集上的實驗驗證了該方法的有效性。公共基準測試的結果表明,我們的SCN在RAF-DB、AffectNet和FERPlus上的表現分別為88.14%、60.23%和89.35%。

1. Introduction

面部表情是人類表達情感狀態和意圖的最自然、最有力、最普遍的訊號之一[7,38]。自動識別面部表情對於幫助計算機理解人類行為並與之互動也很重要。在過去的幾十年裡,研究者們通過演算法和實驗室或者野外收集到的大規模的資料集,在人臉表情識別(FER)方面取得了顯著的進展,如CK+[29]、MMI[39]、OuluCASIA[47]、SFEW/AFEW[10]、FERPlus[4]、AffectNet[32]、EmotioNet[11]、RAF-DB[22]等。

然而,對於從網際網路上採集到的大規模FER資料集,由於註釋者主觀的不確定性以及野生人臉影象的模糊性,使得高質量的標註變得非常困難。如圖1所示,不確定性從高質量和明顯的面部表情增加到低質量和微表情。這些不確定性通常會導致標籤不一致和標籤不正確,嚴重阻礙了大規模人臉表情識別的發展,尤其是基於資料驅動的深度學習人臉表情識別。一般情況下,帶有不確定性的訓練會導致以下問題。首先,它可能導致對不確定樣本的過度擬合,這些樣本可能會被錯誤標記。第二,學習有用的面部表情特徵對模特是有害的。第三,高比例的錯誤標籤甚至會使模型在優化的早期階段出現分離。

在這裡插入圖片描述
圖1:RAF-DB的真實面部影象的不確定性說明。正確的樣本對於機器,甚至是人類來說都是非常困難的,在訓練中最好抑制這些樣本。

為了解決這些問題,我們提出了一種簡單而有效的方法,即自修復網路(Self-Cure Network,SCN),來抑制大規模人臉表情識別的不確定性。SCN由三個關鍵模組組成:selfarXiv:2002.10392v2[碳鋼簡歷]2020年3月6日注意重要性加權、排名規則化和噪聲重標記。在給定一批影象的基礎上,首先利用CNN骨幹網提取人臉特徵。然後,自我注意重要性加權模組學習每個影象的權重,以捕獲樣本重要性進行損失加權。預計不確定性裝置應採用低重要性權重。此外,排序正則化模組按降序對這些權重進行排序,將它們分成兩組(即高重要性權重和低重要性權重),並通過在兩組的平均權重之間增加裕度來正則化這兩組權重。這種正則化用一個函式來實現,稱為秩正則化損失(RR損失)。排序正則化模組確保第一模組學習有意義的權重以突出某些樣本(例如可靠的註釋)和抑制不確定的樣本(例如模糊的註釋)。最後一個模組是一個小心的重新標記模組,它嘗試通過比較最大預測概率與給定標籤的概率來重新標記來自底部組的樣本。如果最大預測概率大於給定的帶邊緣閾值的標籤的預測概率,則將樣本分配給偽標籤。此外,由於不確定性的主要證據是不正確/噪聲註釋問題,我們從網際網路上收集了一個極端噪聲的FER資料集,稱為WebEmotion,以研究具有極端不確定性的SCN的效果。

總的來說,我們的貢獻可以概括如下:

  1. 本文創新性地提出了人臉表情識別中的不確定性問題,並提出了一種自愈網路來減少不確定性的影響。
  2. 我們精心設計了一個秩正則化方法來監督SCN學習有意義的重要性權重,為重標記模組提供了參考。
  3. 我們廣泛驗證了我們的SCN在合成的FER資料和一個新的現實世界不確定情緒資料集(WebEmotion)從網際網路上收集。我們的SCN在RAF-DB上的效能也達到了88.14%,在AffectNet上達到了60.23%,在FERPlus上達到了89.35%,創造了新的記錄。

2. Retlated Work

2.1 Facial Expression Recognition

一般來說,FER系統主要包括三個階段,即人臉檢測、特徵提取和表情識別。在複雜的場景中[cnn和Dlib]都是用來定位人臉的。檢測到的面可以進一步交替地對齊。在特徵提取方面,設計了多種方法來獲取由表情引起的面部幾何特徵和外觀特徵。根據特徵型別,它們可以分為工程特徵和基於學習的特徵。對於工程特徵,可以進一步分為基於紋理的區域性特徵、基於幾何的全域性特徵和混合特徵。基於紋理的特徵主要有SIFT[34]、HOG[6]、LBP直方圖[35]、Gabor小波係數[26]等,基於幾何的全域性特徵主要基於鼻子、眼睛和嘴巴周圍的標誌點。將兩個或兩個以上的工程特徵結合起來就是混合特徵提取,可以進一步豐富表現形式。對於所學的特徵,Fasel[12]發現淺層的CNN對於面對姿勢和比例是很強大的。Tang[37]和Kahou等人。[21]利用深度CNN進行特徵提取,分別贏得FER2013和Emotiw2013挑戰賽。劉等。[27]提出一種基於面部動作單元的CNN表情識別體系結構。最近,李等。[25]和Wang等人。[42]設計了基於區域的注意網路,用於姿勢和遮擋感知的FER,其中區域從地標點或固定位置裁剪而來。

2.2 Learning with Uncertainties

FER任務中的不確定性主要來自於模糊的面部表情、低質量的面部影象、不一致的註釋和錯誤的註釋(即噪聲標籤)。尤其是噪聲標籤學習在計算機視覺領域得到了廣泛的研究,而其他兩個方面的研究卻很少。為了處理噪聲標籤,一個直觀的想法是利用一小組乾淨的資料,這些資料可用於在訓練過程中評估標籤的質量[40,23,8],或估計噪聲分佈[36],或訓練特徵提取程式[3]。Li等人。[23]提出了一個統一的蒸餾框架,使用來自一個小的乾淨資料集的“邊”資訊和知識圖中的標籤關係,以“對衝”從噪聲標籤中學習的風險。Veit等人[41]使用一個多工網路,共同學習如何清除噪聲註釋和對影象進行分類。Azadi等人[3]通過輔助影象正則化來選擇具有噪聲標籤的深層cnn的可靠影象。其他方法不需要一個小的乾淨的資料集,但它們可能假設噪聲樣本上有額外的約束或分佈[31],例如隨機翻轉標籤的特定損失[33],通過MentorNet[20]對損壞標籤上的深層網路進行正則化,以及其他方法,通過將潛在的正確標籤連線到有噪聲的標籤上,用softmax層來模擬噪聲[13,43]。對於FER任務,曾等。[43]首先考慮不同FER資料集之間的不一致註釋問題,並提出利用這些不確定性來改進FER。

3. Self-Cure Network

為了學習具有不確定性的魯棒人臉表情特徵,我們提出了一種簡單而有效的自修復網路(SCN)。在本節中,我們首先概述了SCN,然後介紹了它的三個模組。最後給出了SCN的具體實現。

3.1 Overview of Self-Cure Network

我們的SCN建立在傳統的cnn之上,由三個關鍵模組組成:i)自我注意重要性加權,ii)排名正則化,iii)重新標記,如圖2所示。在給定一批樣本不確定的人臉影象的基礎上,首先利用主幹網提取人臉的深層特徵。自我注意重要性加權模組使用全連線(FC)層和sigmoid函式為每個影象分配一個重要權重。這些權重乘以樣本重新加權方案的logits。為了顯式地降低不確定樣本的重要性,進一步引入秩正則化模組對注意權重進行正則化。在秩正則化模組中,我們首先對學習到的注意權重進行排序,然後將其分成兩組,即高重要性組和低重要性組。然後我們在這些組的平均權重之間新增一個基於邊際的損失的約束,稱為秩正則化損失(RR-loss)。為了進一步改進我們的SCN,我們增加了重標記模組來修正低重要性組中的一些不確定樣本。這個重新標記操作的目的是尋找更多幹淨的樣本,然後增強最終的模型。整個SCN可以以端到端的方式進行訓練,並且可以很容易地新增到任何CNN骨幹中.

3.2 Self-Attention Importance Weighting

我們引入自我注意重要性加權模組來捕捉樣本對訓練的貢獻。預計某些樣本可能具有較高的重要性權重,而不確定樣本的重要性較低。設F=[x1,x2。,xN]∈RD×N表示N幅影象的面部特徵,自注意重要性加權模組以F為輸入,對每個特徵輸出一個重要權重。具體地說,自我注意重要性加權模組由線性全連通(FC)層和sigmoid啟用函式組成,其表示式為:
在這裡插入圖片描述
其中α是第i個樣本的重要權重,Wa是用於關注的FC層的引數,σ是sigmoid函式。本模組也為其他兩個模組提供了參考.
Logit加權交叉熵損失。
對於注意力權重,我們有兩個簡單的選擇來執行損失加權,這是受[17]啟發的。第一種選擇是將每個樣本的重量乘以樣本損失。在我們的例子中,由於權重是以端到端的方式優化的,並且是從CNN的特性中學習的,所以它們註定是零,因為這個繁瑣的解決方案沒有損失。MentorNet[20]和其他自學方法[19,30]通過交替最小化來解決這個問題,即一次優化一個,而另一個保持不變。在本文中,我們選擇了[17]中更有效的logit加權方法。對於多類交叉熵損失,我們將加權損失稱為Logit加權交叉熵損失(WCE損失),其公式如下
在這裡插入圖片描述
其中wji是第j個分類器。如[28]所示,LW-ce與α呈正相關。

3.3 Rank Regularization

在(0,1)中,上述模組中的自我注意權重可以是任意的。為了明確約束不確定樣本的重要性,我們精心設計了一個秩正則化模組來正則化注意權重。在秩正則化模組中,我們首先對學習到的注意權重進行降序排序,然後以β的比率將其分成兩組。秩正則化保證了高重要性組的平均注意權高於低重要性組的平均注意權,並留有一定的裕度。形式上,我們為此定義了秩正則化損失(RR-loss),如下所示:
在這裡插入圖片描述
其中δ1是可以是固定超引數或可學習引數的裕度,αHandα分別是β*N=M樣本的高重要性組和N−M樣本的低重要性組的平均值。在訓練中,總損失函式為Lall=γLRR+(1−γ)LW ce,其中γ是一個折衷比。

3.4. Relabeling

在秩正則化模組中,每個小批量被分成兩組,即高重要性組和低重要性組。實驗發現,不確定樣本的重要性權重通常較低,因此設計一種重新標記這些樣本的策略是一個直觀的想法。
在這裡插入圖片描述
圖2:我們的自我修復網路的管道。人臉影象首先被送入CNN主幹網進行特徵提取。自我注意重要性加權模組從面部特徵中學習樣本權重以進行損失加權。秩正則化模組將樣本權重作為輸入,通過排序操作和基於邊際的損失函式對其進行約束。重新標記模組通過比較最大預測概率和給定標籤的概率來尋找可靠的樣本。錯誤標記的樣品用紅色實心矩形標記,模稜兩可的樣品用綠色短劃線標記。值得注意的是,SCN主要通過重加權運算來抑制這些不確定性,並且只對部分不確定樣本進行修正。

在這裡插入圖片描述
修改這些註釋的主要挑戰是知道哪個註釋不正確。具體地說,我們的重標記模組只考慮低重要性組中的樣本,並且在Softmax概率上執行。對於每個樣本,我們將最大預測概率與給定標籤的概率進行比較。如果最大預測概率大於給定的帶閾值標籤的預測概率,則將樣本分配給一個新的偽標籤。形式上,重新標記模組可以定義為,
在這裡插入圖片描述
其中y0表示新標籤,δ2為閾值,Pmaxis為最大預測概率,PgtIndis為給定標籤的預測概率。lorgand lmax分別是原始給定的指標和最大預測的指數。
在我們的系統中,不確定樣本被期望獲得低重要性權重,從而通過重新加權來降低其負面影響,然後落入低重要性組,最後通過重新標記將其修正為特定的樣本。這些校正後的樣本在下一個時期可能獲得較高的重要權重。我們期望通過重加權或重貼標籤的方法,網路可以自行修復,這就是我們稱之為自修復網路的原因。

3.5. Implementation

預處理和麵部特徵:
在我們的SCN中,人臉影象被MTCNN[45]檢測和對齊,並進一步調整為224×224畫素。SCN採用Pythorch工具箱實現,主幹網為ResNet18[16]。預設情況下,ResNet-18在MS-Celeb-1M人臉識別資料集上進行預訓練,並從其最後一個池層提取面部特徵。
訓練:
我們使用8個Nvidia Titan 2080ti GPU對SCN進行端到端的訓練,並將批量大小設定為1024。在每次迭代過程中,訓練影象預設分為兩組,其中70%為高重要性樣本,30%為低重要性樣本。高重要性組和低重要性組的平均值之間的差值δ1可以預設設定為0.15,也可以設計為可學習引數。這兩種策略將在隨後的實驗中進行評估。整個網路採用RR損耗和WCE損耗聯合優化。根據經驗,兩種損失的比例設定為1:1,其影響將在隨後的燒蝕實驗研究中進行研究。學習率初始化為0.1,分別在15個時期和30個時期後再除以10。訓練在40個時代停止。重新標記模組包含在從第10個紀元開始的優化中,其中重新標記餘量δ2預設設定為0.2。

4. Experiments

在本節中,我們首先描述三個公共資料集和我們的WebEmotion資料集。然後,我們證明了我們的SCN在合成和真實世界噪聲人臉表情註釋的不確定性下的魯棒性。此外,我們還進行了定性和定量的研究,以證明SCN中各個模組的有效性。最後,我們將我們的SCN與公共資料集的最新方法進行了比較。

4.1. Datasets

RAF-DB: [22]包含由40名訓練有素的人類編碼人員用基本或複合表情註釋的30000張面部影象。在我們的實驗中,我們只使用了六種基本表情(中性、高興、驚訝、悲傷、憤怒、厭惡、恐懼)和中性表情的圖片,得到12271張訓練圖片和3068張測試圖片。整個樣品精度用於測量。
FERPlus:[4]是從FER2013擴充套件而來,用於ICML 2013挑戰賽。這是谷歌搜尋引擎收集的大規模資料集。它由28709個訓練影象、3589個驗證影象和3589個測試影象組成,所有這些影象都被調整到48×48畫素。藐視包括在這個資料集中導致8個類。整個樣品精度用於測量。
AffectNet:[32]是迄今為止最大的資料集,它同時提供了分類和V alence喚醒註釋。通過在三個搜尋引擎中查詢與表示式相關的關鍵字,它包含了100多萬幅來自網際網路的圖片,其中45萬幅圖片像FERPlus一樣,是用8個表示式標籤手工標註的。它有不平衡的訓練和測試集以及一個平衡的驗證集。驗證集的平均等級精度用於測量。
The collected WebEmotion(收集的網路情感):由於不確定性的主要證據是不正確/有噪聲的註釋問題,我們從網際網路上收集了一個極端噪聲的FER資料集,稱為WebEmotion,以研究具有極端不確定性的SCN的效果。WebEmotion是從Y ouTube下載的一個視訊資料集(儘管我們通過為幀分配標籤來使用它作為影象資料),包含一組關鍵字,包括40個與情緒相關的單詞,來自亞洲、歐洲、非洲、美洲的45個國家,以及6個與年齡相關的詞(即嬰兒、女士、婦女、男子、老人、老年婦女)。它由相同的8個類和FERPlus組成,其中每個類都連線到幾個與情感相關的關鍵字,例如,Happy連線到快樂、有趣、狂喜、得意和kawaii。為了獲得關鍵詞和搜尋到的視訊之間有意義的關聯,只選擇了前20個不到4分鐘的爬網視訊。這將導致大約41000個視訊被進一步分割成200000個視訊片段,限制條件是人臉(由MTCNN檢測)出現至少5秒。對於評估,我們只使用WebEmotion進行預訓練,因為註釋非常困難。表1顯示了WebEmotion的統計資料。元視訊和視訊剪輯將向研究社群公開。

4.2. SCN綜合不確定度的評定

FER的不確定性主要來自於模糊的面部表情、低質量的人臉影象、不一致的標註和不正確的標註(即噪聲標籤)。考慮到只有噪聲標籤才能被定量分析,我們探討了在標籤噪聲佔RAF-DB、FERPLus和AffectNet資料集的比例分別為10%、20%和30%時SCN的魯棒性。具體來說,我們隨機選擇每個類別的10%、20%和30%的培訓資料,並隨機將它們的標籤更改為其他類別。在表2中,我們使用ResNet-18作為CNN主幹,並將我們的SCN與基線(不考慮標籤噪聲的傳統CNN訓練)進行比較:i)從頭開始訓練,ii)使用Ms-Celeb-1M上的預訓練模型進行微調[15]。我們還比較了SCN與RAF-DB上兩種最先進的噪聲容忍方法,即courdumnet[14]和metaleaner[46]。如表2所示,我們的SCN持續大幅提高基線。對於方案i),當噪聲比為30%時,我們的SCN在RAF-DB、FERPLus和AffectNet上分別比基線提高13.80%、1.07%和1.91%。對於方案ii),在噪聲比為30%的情況下,我們的SCN在這些資料集上仍然獲得了2.20%、2.47%和3.12%的改進,儘管它們的效能相對較高。對於這兩種方案,隨著噪聲比的增加,SCN的效益變得更加明顯。課程網利用聚類密度度量資料複雜度來設計訓練課程,避免了早期訓練噪聲較大的標註資料。元學習者將每一類中多個樣本的特徵集合為加權平均特徵進行分類,這也可以削弱噪聲標記樣本的影響。課程網和元學習者都在很大程度上提高了基線,但仍不如簡單的SCN。另一個有趣的發現是,在RAF-DB上SCN的改進要遠遠高於其他SCN資料集。原因如下。一方面,RAF-DB由複雜的面部表情組成,由40人通過眾包方式進行標註,使得資料標註更加不一致。因此,我們的SCN也可以在沒有合成標籤噪聲的情況下,對原始RAFDB進行改進。另一方面,AffectNet和FERPlus是由專家註釋的,因此涉及的標籤不一致,導致對RAF-DB的改進較少。

表2:SCN對合成噪聲FER資料集的評價。否則我們會用一個從零開始訓練的模型。
在這裡插入圖片描述
表3:訓練前SCN對網路情緒的影響。第2列表示使用或不使用SCN進行微調。
在這裡插入圖片描述
SCNα的視覺化研究:
為了進一步研究我們的SCN在噪聲註釋下的有效性,我們在RAF-DB上視覺化SCN訓練階段的重要性權重α,噪聲比為10%。在圖三中,第一行表示用原始標籤訓練SCN時的重要性權重。第二行影象用合成的損壞標籤進行標註,並使用SCN(無重標記模組)對合成噪聲資料集進行訓練。實際上,SCN將那些標籤損壞的影象視為噪聲,並自動抑制其權重。經過足夠的訓練週期後,在SCN中加入重新標記模組,並對這些噪聲標記的影象進行重新標記(當然,由於我們有重新標記約束,許多其他影象可能沒有重新標記)。在其他幾個時代之後,它們的重要性權重變得很高(第三行),這說明我們的SCN可以“自我修復”損壞的標籤。值得注意的是,重新標記模組中的新標籤可能與“基本真相”標籤不一致(見第1、4和6欄),但它們在視覺化方面也是合理的。
在這裡插入圖片描述
圖3:在我們的SCN中學習到的重要性權重的視覺化,我們在重新標記前後(第2行和第3行)使用原始標籤(第一行)和合成噪聲標籤在隨機選擇的影象上顯示這些權重。

4.3. 基於真實世界不確定性的SCN研究

綜合噪聲資料證明了SCN自固化能力的有效性。在本節中,我們將SCN應用於可包含所有不確定性的真實FER資料集。
SCN上的WebEmotion進行預訓練。我們收集的WebEmotion資料集包含大量噪音搜尋關鍵字被視為標籤。為了更好地驗證SCN對真實世界噪聲資料的影響,我們將SCN應用於WebEmotion進行預訓練,然後在目標資料集上對模型進行微調。對比實驗如表3所示。從第一行和第二行可以看出,在沒有SCN的情況下對WebEmotion進行預訓練,RAFDB、FERPlus和AffectNet的基線分別提高了6.97%、9.85%和1.80%。使用SCN對目標資料集進行微調可獲得1%到2%的增益。使用SCN對WebEmotion進行預培訓,進一步提高了RAF-DB的效能,從80.42%提高到82.45%。這表明SCN學習了WebEmotion的健壯特性,這對於進一步的微調是更好的。
在這裡插入圖片描述
圖4:具有低重要性權重的RAF-DB(不帶合成噪聲標籤)的十個示例。每一列對應一種基本情緒。人們可以猜測他們的標籤和RAD-DB的基本真相標籤都包含在文字中。

表4:真實世界外匯儲備資料集的SCN。SCN的改進表明,這些公共資料集或多或少地受到不確定性的影響。
在這裡插入圖片描述
原始FER資料集上的SCN:我們進一步對原始的FER資料集進行實驗來評估我們的SCN,因為這些資料集不可避免地會受到諸如模糊面部表情、低質量面部影象等不確定性的影響。結果如表4所示。從零開始訓練時,我們提出的SCN提高了基線,分別在RADDB、AffectNet和FERPlus上分別提高了6.31%、0.7%和1.02%。MetaCleaner也提高了RAF-DB的基線,但比我們的SCN稍差。在預訓練的情況下,我們在這些資料集上仍然獲得了2.83%、1.73%和1.21%的改進。SCN和metaleaner的改進表明,這些資料集確實存在不確定性。為了驗證我們的推測,我們對RAF-DB的重要性權重進行了排序,並在圖4中給出了一些重要性權重較低的例子從左上到右下的基本真相標籤是驚訝,中立,中性,悲傷,驚訝,驚訝,中立,驚訝,驚訝,驚訝。我們發現,在SCN中,低質量和遮擋的影象很難標註,並且更有可能具有較低的重要性權重。

在這裡插入圖片描述

4.4. 消融研究

SCN中三個模組的評價。為了評估SCN各模組對RAF-DB的影響,我們設計了一個燒蝕研究來研究WCE損耗、RR損耗和Relabel模組對RAF-DB的影響。實驗結果如表5所示。以下是一些觀察結果的結論。首先,對於這兩種訓練方案,在基線(第一行)中新增一個樸素的重新標記模組(第二行)會稍微降低效能。這可以解釋為許多重貼標籤的操作與基線模型是錯誤的。這間接表明,我們精心設計的重標記在低重要性群中的秩正則化是更有效的。第二,當增加一個模組時,WCE損耗的改善最大,使RAF-DB的基線從72%提高到76.26%。這表明,重新加權是我們的SCN貢獻最大的模組。第三,RR損耗和重貼標籤模組可以進一步提高WCE損耗2.15%。
比值γ的評估:在表6中,我們評估了RR損耗和WCELoss之間不同比率的影響。我們發現,為每次損失設定相同的權重可以獲得最佳效果。將RR損失的權重從0.5增加到0.8會顯著降低效能,這表明WCE損失更為重要。
δ1和δ2的評估:δ1是一個裕度引數,用於控制高、低重要性組之間的平均裕度。對於固定設定,我們從0到0.30進行計算。圖5(左)顯示了固定和學習δ1的結果。預設值δ1=0.15獲得最佳效能,這表明裕度應該是一個合適的值。我們還設計了一個可學習的範例δ1,初始化為0.15。在原始資料中,Δ0.76%和δ0.05%分別為0.76%和142.05%。
δ2是確定何時重新標記樣品的裕度。預設δ2為0.2。我們在原始RAF-DB上從0到0.5計算δ2f,結果如圖5(中間)所示。δ2=0意味著如果最大預測概率大於給定標籤的概率,我們重新標記樣本。較小的δ2會導致大量不正確的重新標記操作,這可能會嚴重影響效能。較大的δ2導致很少的重標記操作,收斂到不重標記。我們在0.2中獲得了最好的效能。
**β的評估。**小批樣品中β的重要性較高。我們研究了合成噪聲和原始RAF-DB資料集中0.9到0.5的不同比率。結果如圖5(右圖)所示。我們的預設比率是0.7,達到最佳效能。大β會降低SCN的效能,因為它認為很少的資料是不確定的。小β會導致對不確定性的過度考慮,不合理地降低了訓練損失。

4.4. 與最新技術的比較

表7將我們的方法與RAF-DB、AffectNet和FERPlus上的幾種最先進的方法進行了比較。IPA2LT[43]引入了潛在的地面真實性思想,用於不同FER資料集的註釋不一致的訓練。gaCNN[24]利用了基於補丁的注意力網路和全球網路。RAN[42]利用面部區域和原始面部的級聯注意力網路。gaCNN和RAN由於裁剪的補丁和區域而非常耗時。我們提出的SCN不會增加任何推理成本。我們的SCN在RAF-DB、AffectNet和FERPlus上的表現分別為88.14%、60.23%和89.35%(IR50[9])

5. Conclusion

提出了一種自修復網路(SCN)來抑制人臉表情資料的不確定性,從而學習出魯棒的FER特徵。SCN由三個新的模組組成,包括自我注意重要性加權、排序正則化和重標記。第一模組學習每個人臉影象的權重,以獲取訓練的樣本重要性,並用於權重損失。排序正則化確保第一個模組學習有意義的權重,以突出某些樣本並抑制不確定樣本。重貼標籤模組嘗試識別標籤錯誤的樣本並修改其標籤。在三個公共資料集和我們收集到的WebEmotion上的大量實驗表明,我們的SCN達到了最先進的結果,能夠有效地處理合成和真實世界的不確定性。