DIVIDEMIX: LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
論文閱讀:
DIVIDEMIX: LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
作者說明
版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
原文連結:鳳⭐塵 》》https://www.cnblogs.com/phoenixash/p/15369008.html
基本資訊
\1.標題:DIVIDEMIX: LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
\2.作者:Junnan Li, Richard Socher, Steven C.H. Hoi
\3.作者單位:Salesforce Research
\4.發表期刊/會議:ICLR
\5.發表時間:2020
\6.原文連結:https://arxiv.org/abs/2002.07394
Abstract
眾所周知,深度神經網路需要註釋。為了降低深度網路學習時的標註成本,人們做了大量的工作。兩個主要的學習方向包括使用噪聲標籤的學習和利用未標記資料的半監督學習。在這項工作中,我們提出了DivideMix,利用半監督學習技術來學習帶有噪聲標籤的新框架。其中,DivideMix採用混合模型對每個樣本的loss分佈進行建模,將訓練資料動態地劃分為帶乾淨樣本的標記集和帶噪聲樣本的未標記集,並以半監督的方式對標記和未標記的資料進行訓練。為了避免確認偏差,我們同時訓練了兩個分化的網路,每個網路使用來自另一個網路的資料集劃分。在半監督訓練階段,我們對MixMatch策略進行改進,分別對有標記的樣本和無標記的樣本進行標籤共同細化和標籤共同猜測。在多個基準資料集上的實驗表明,在最先進的方法上有實質性的改進。Code is available at
1.Introduction
深度神經網路(dnn)訓練的顯著成功在很大程度上歸功於人工標註標籤的大資料集的收集。然而,用高質量的註釋標記大量資料是非常昂貴和耗時的。另一方面,有替代和廉價的方法來挖掘帶有標籤的大規模資料,如查詢商業搜尋引擎(Li et al., 2017a),下載帶有標籤的社交媒體圖片(Mahajan et al., 2018),利用機器生成的標籤(Kuznetsova et al., 2018),或者使用單個註釋器對每個樣本進行標註(Tanno et al., 2019)。這些替代方法不可避免地產生帶有噪聲標籤的樣品。最近的一項研究(Zhang et al., 2017)表明,dnn容易對噪聲標籤過度擬合,導致泛化效能較差。
現有的帶噪聲標籤的學習(LNL)方法主要採用損失校正方法。有些方法估計噪聲轉移矩陣並用它來校正損失函式(Patrini et al., 2017;Goldberger & Ben-Reuven, 2017)。然而,正確估計噪聲轉移矩陣是一個挑戰。一些方法利用dnn的預測來糾正標籤並相應地修改損失(Reed et al., 2015;Tanaka等人,2018)。些方法在高噪聲比下表現不佳,因為來自DNNs的預測將主導訓練並導致過擬合。為了克服這個問題,Arazo等人(2019)採用了MixUp (Zhang等人,2018)增強。另一種方法是選擇或重權樣本,使噪聲樣本對損失的貢獻更小(Jiang et al., 2018;Ren et al., 2018)。一個具有挑戰性的問題是設計一個可靠的標準來選擇乾淨的樣品。已有研究表明,dnn傾向於在擬合標籤噪聲之前首先學習簡單的模式(Arpit et al., 2017)。因此,許多方法將損失小的樣本視為乾淨的樣本(Jiang et al., 2018;Arazo等人,2019)。其中,Co-teaching (Han et al., 2018)和Co-teaching+ (Yu et al., 2019)訓練兩個網路,每個網路在小批量中選擇小損失樣本來訓練另一個網路。
另一個旨在降低註釋成本的活躍研究領域是半監督學習(SSL)。在SSL中,除了有標記的樣本外,訓練資料還包括未標記的樣本。通過加強模型對未標記資料進行低熵預測(Grandvalet & Bengio, 2004)或對擾動輸入進行一致預測(Laine & Aila, 2017;Tarvainen & Valpola, 2017;Miyato等人,2019)在利用無標註樣本領域取得顯著進展。最近,Berthelot等人(2019)提出了MixMatch,它在一個框架中統一了幾種主流SSL方法,並實現了最先進的效能。
儘管LNL和SSL各自取得了進步,但它們之間的聯絡尚未得到充分的探索。在這項工作中,我們提出了DivideMix,它以半監督的方式處理標籤噪聲的學習。與大多數現有的LNL方法不同,DivideMix丟棄了極有可能是噪聲的樣本標籤,利用噪聲樣本作為未標記資料,使模型從過擬閤中得到正則化,提高泛化效能。這項工作的主要貢獻是:
- 我們提出co-divide,即同時訓練兩個網路。對於每個網路,我們根據其每個樣本的loss分佈動態擬合高斯混合模型(GMM),將訓練樣本劃分為有標記集和無標記集。然後,分割後的資料被用來訓練另一個網路。co-divide使兩個網路保持分歧,從而可以過濾不同型別的錯誤,避免自我訓練中的確認偏差。
- 在SSL階段,我們通過標籤共同細化和共同猜測來改進MixMatch,以考慮標籤噪聲。對於有標記的樣本,我們使用GMM引導的網路對另一個網路的預測來改進它們的真實標籤。對於未標記的樣本,我們使用兩個網路的集合來對它們的標籤進行可靠的猜測。
- 我們的實驗表明,在不同型別和不同成都平的標籤噪聲的多個基準上,DivideMix顯著地提高了最先進的結果。我們也提供廣泛的消融研究和定性結果,以檢查不同成分的影響。
2.Related Work
2.1 LEARNING WITH NOISY LABELS
現有的訓練帶噪聲標籤的dnn的方法大都是為了修正loss函式。修正方法可以分為兩類。第一種方法對所有樣本一視同仁,通過重新標記噪聲樣本來顯式或隱式地糾正損失。對於重標記方法,對噪聲樣本的建模採用有向圖模型(Xiao et al., 2015)、條件隨機場(Vahdat, 2017)、知識圖(Li et al., 2017b)或DNNs (Veit et al., 2017;Lee等人,2018)。然而,他們需要獲得一小部分乾淨的樣本。最近,Tanaka等人(2018)和Yi & Wu(2019)提出了利用網路預測重新標記樣本的迭代方法。以顯式地修正損失。Reed等人(2015)提出了一種利用模型預測結果修正損失的bootstrapping方法,Ma等人(2018)利用特徵子空間的維數對bootstrapping方法進行了改進。Patrini等人(2017)估計了用於損失修正的標籤損壞矩陣,Hendrycks等人(2018)通過使用一組乾淨的資料改進了損壞矩陣。第二類校正側重於調整訓練樣本的權重或分離乾淨和有噪聲的樣本,這最終會修正損失函式 (Thulasidasan et al., 2019; Konstantinov & Lampert, 2019).常用的方法是將損失較小的樣品視為清潔樣本 (Shen & Sanghavi, 2019)。Jiang et al.(2018)通過給樣本賦權,訓練教師網路引導學生網路。Ren et al.(2018)基於梯度方向對樣本重新加權。Chen et al.(2019)應用交叉驗證來識別乾淨的樣本。Arazo等人(2019)通過用混合模型對每個樣本的損失建模來計算樣本權重。Han et al.(2018)訓練兩個網路,在每個小批內選擇小損失樣本進行訓練,Yu et al.(2019)通過不同的資料更新網路,使兩個網路保持發散,做了進一步提升。
與上述所有方法相反,我們的方法丟棄了極有可能是噪聲的標籤,並利用噪聲樣本作為未標記的資料,以SSL的方式正則化訓練。Ding et al.(2018)和Kong et al.(2019)已經證明SSL方法在LNL中是有效的。Ding et al.(2018)和Kong et al.(2019)已經證明SSL方法在LNL中是有效的。然而,他們的方法在高噪聲下效能不佳,而我們的方法可以更好地識別和利用噪聲樣本。除了利用SSL,我們的方法還引入了其他優點。與自訓練方法相比(Jiang et al., 2018;Arazo et al., 2019),我們的方法通過訓練兩個網路互相過濾錯誤,可以避免確認偏差問題(Tarvainen &Valpola, 2017)。與Co-teaching (Han et al., 2018)和Co-teaching+ (Yu et al., 2019)相比,我們的方法更具有抗噪聲的魯棒性,因為我們讓兩個網路在每個epoch (co-divide)隱式地相互教學,在每個mini-batch(label co-refine和co-guessing)顯式地相互教學。
2.2 SEMI-SUPERVISED LEARNING
SSL方法旨在利用未標記的資料來提高模型的效能。目前最先進的SSL方法主要涉及在未標記資料上新增額外的損失項,以正則化訓練。正則化分為兩類:一致性正則化(Laine &艾拉,2017;Tarvainen,Valpola, 2017;Miyato等人,2019)強制該模型對增強的輸入資料產生一致的預測;熵最小化(Grandvalet &Bengio, 2004;Lee, 2013)鼓勵該模型對未標記資料給出高置信度預測。最近,Berthelot et al.(2019)提出了MixMatch,它將一致性正則化、熵最小化和MixUp (Zhang et al., 2018)正則化統一為一個框架。