關於噪聲標籤的一點看法和見解
目錄
1.1 動機
1.2 貢獻
1.3 實驗分析
1.4 我的想法
2.1 動機
2.2 貢獻
2.3 實驗分析
2.4 我的想法
3.1 動機
3.2 貢獻
3.3 實驗分析
3.4 我的想法
4.1 動機
4.2 貢獻
4.3 實驗分析
4.4 我的想法
5.1 動機
5.2 貢獻
5.3 實驗分析
5.4 我的思考
噪聲標籤的最早工作可以追溯到20世紀80年代的任意分類噪聲的二分類問題。近些年,隨著深度學習研究的深入,相關研究發現深度神經網路在眾多場景中取得的成果離不開大量的真實標籤資訊。然而,在現實複雜的生活場景中,由於人工失誤、原始資料噪聲和專業知識不足等問題,導致實際採集得到的資料常常包含錯誤的標籤,或者只包含少量的真實性可靠的標籤。因此,如何在包含噪聲標籤的資料集上,合理地選出真實性大或者說可靠的標籤是當前的一大研究熱點。
在包含噪聲標籤的資料集上,如果不作任何處理,直接採用神經網路進行有監督的訓練和建模,會導致神經網路模型難以學習到原始資料的真實分佈,或者說很容易讓神經網路模型對錯誤標註的資料過擬合,導致下游的分類任務效能不理想。近年來,關於噪聲標籤的研究文章較多,樓主本人通過最近一個月的調研分析,個人的見解可以把當前在噪聲標籤領域和核心問題分為以下兩點:
1) 人工製造的噪聲標籤建模
2) 真實場景下的噪聲標籤建模
當前的諸多關於噪聲標籤的研究成果基本都是建立在人工製造的噪聲標籤問題底下的理論模型,並且相關模型在人工製造的噪聲標籤資料集上具有很強的噪聲標籤樣本識別能力,比如Co-teaching[1]和M-correction[2]。然而,較多在人工製造的噪聲標籤資料集表現良好的模型,在現實真實場景下的噪聲標籤資料集表現得並不太好,或者很難取得下游分類效能的提升。在人工製造的噪聲標籤資料集的建模基礎源於神經網路的一種特性:在網路模型訓練早期,模型能夠較快地對包含正確標籤的資料進行擬合;同時,隨著訓練次數的增加,模型逐漸會對錯誤標籤的資料進行擬合,而這樣的情況將會導致模型難以學習到正確的資料分佈。
依據上述發現,相關研究成果採用在網路早期,依據損失函式的大小排序結果,篩選出部分損失函式小的樣本(PS:損失函式越小,表示擬合的越好,即大概率是涵正確標籤的樣本資料),使得錯誤標註的樣本儘量不參與網路模型的訓練,從而最大程度地緩解模型對錯誤資料過擬合導致模型下游分類效能不足的問題。這類發現,在Co-teaching和M-correction兩篇文章中有很清楚的實驗分析和理論證明,具體的可見下圖:
上圖中紅色曲線表示人工合成錯誤標註的資料在神經網路模型中擬合得到的交叉熵損失函式值,藍色曲線表示原始正確標註的資料在神經網路模型中擬合得到的交叉熵損失函式值。由上述左圖可知,在訓練早期正確標註樣本的損失函式值要低於錯誤標註樣本,但是不加控制,隨著訓練次數的增加,逐漸對錯誤樣本擬合,導致兩者很難區分開;而右圖,則是M-correction模型採用樣本選擇策略,控制錯誤樣本對模型訓練的貢獻程度,從而在不斷訓練的過程中,將人工合成的錯誤標註樣本和正確標註樣本區分開。
上述的發現基本上都是基於人工合成的噪聲標籤,然而對於現實複雜場景中本就很相似的樣本,或者處於不同類別分類邊界的樣本來說,輸入到神經網路中進行訓練時,大概率是很難符合上述現象:在訓練早期,正確樣本的loss小,錯誤標註樣本的loss較大。具體的示例可以見下圖[3]。
上圖中(a)表示人工合成的噪聲標籤樣本分佈,其在四角菱形表示原始類別的樣本錯誤標記為其它類別,可知人眼就可以很快辨別。對於圖(b),可以發現較多錯誤標註的樣本處於三種不同類別的邊界,即原始的樣本質量就較差,難以辨別,在實際場景中也容易被人工標註或者機器識別錯誤,這樣的噪聲標籤資料集更加符合現實複雜場景中的資料。
關於人工合成標籤和真實場景下的噪聲標籤區別,還可以見下圖的圖片示例[4]:
上圖中綠色噪音表示人工合成的噪聲標籤對應的資料,可以發現瓢蟲是正確樣本時,其錯誤樣本大部分都是不相干的類別影象:小鳥,小孩和車等。與之相反的是,紅色噪聲表示真實場景下搜尋結果自動標註的瓢蟲對應的噪聲標籤樣本:含紅色面具的卡通人物,綠葉背景的其它蟲類等。
上面是樓主本人對噪聲標籤領域問題的一點個人見解,個人覺得後續的研究重點還是在現有人工缺失噪聲標籤資料上表現良好的研究成果基礎上,逐漸尋找合適的理論和模型去解決如何區分實際場景中模糊的噪聲標註樣本。
關於人工合成的資料集研究模型,建議關注以下三篇文章:Co-teaching[1] (NIPS, 2018), Co-teaching+[5] (ICML, 2019), JoCoR[6] (CVPR, 2020).
關於現實複雜場景中的理論建模,建議關注以下兩篇文章:MentorMix[4] (ICML, 2020), CSIDN[3] (ICML, 2021).
另外,樓主本人最近在調研如何把選取聚類獲取偽標籤中置信度比較高的標籤,這個問題其實可以當作噪聲標籤來建模,然而,當前的實驗現象發現聚類得到的偽標籤之間存在較強的距離語義關係,到時基本很難當作噪聲標籤問題來建模。其實,這兩者應該是屬於不同的問題,但是相關性比較強,可以考慮如何深入,目前找到了三篇選取聚類中置信度高偽標籤的問題,具體可見[7](IJCV,2020),[8](ICLR,2020),[9](CVPR,2021).
關於Co-teaching和把MixUp用於半監督學習的MixMatch文章見解可參考博文:噪聲標籤淺析
最後,分享以下我最近看到的五篇關於噪聲標籤的文章,每篇文章都有開源獲取程式碼,有興趣的同學可以去下載看看。
1 Co-teaching+ (ICML, 2019)
1.1 動機
帶噪聲標籤的學習是弱監督學習的熱點問題之一。基於深度神經網路的記憶效果,採用小損失選擇例項機制的訓練,對於處理有噪聲標籤的資料集是非常有效的一種機制。
上述機制是簡單有效“Co-teaching”方法的核心,即使用小損失技巧交叉訓練兩個深度神經網路。然而,隨著訓練次數的增加,兩種網路的預測結果逐漸趨同為一種共識,使得Co-teaching逐漸淪為一種自我訓練的MentorNet。
1.2 貢獻
針對Co-teaching隨著訓練次數增加,預測結果變得越來越一致,導致難以合理區分噪聲標註樣本的問題,本文通過在Co-teaching模型基礎上新增一種兩種預測結果不一致才更新的策略,使得模型對於噪聲標籤的區分能夠更加魯棒,並將其簡稱為Co-teaching+。Mentor-Net, Co-teaching和Co-teaching+的區別如下:
上述預測結果不一致的機制,通過兩種網路隨著訓練次數不斷上升的情況下,新增不一致的預測機制後,可以使得兩個網路能夠在一定程度上保持較高的分歧,具體效果如下圖:
上述機制實現的簡單演算法偽碼如下:
1.3 實驗分析
本文實驗在MNIST, CIFAR-10, CIFAR-100, NEWS和T-ImageNet五種資料集上進行了人工合成偽標籤的建模實驗分析。
1.4 我的想法
本文主要在於驗證了兩種網路預測不一致的策略在Co-teaching模型上進行了驗證分析,並且解決了Co-teaching模型隨著訓練次數上次,逐漸演變為MentorNet的問題。預測不一致的策略說明在兩種網路協同教學過程中,還是發揮了較大的作用,但是本文對於其起作用的具體原理機制未做深入分析和視覺化探討,導致在本文結束時依然只能依靠實驗結果去分析和理解。
2 MixUp (ICLR, 2018)
2.1 動機
大型深度神經網路在相關場景下建模功能強大,但確容易對一些敵對樣本敏感和記憶的行為,導致下游任務表現不好。
深度神經網路訓練的目標是最小化在訓練資料上的平均錯誤,該學習規則也被稱為經驗風險最小化(ERM)原理。當訓練資料中包含一些對抗性樣本時,神經網路模型的下游預測結果會大幅改變,然而,ERM無法解釋這樣小幅改變導致學習的資料分佈難以擬合實際理想的情況。
2.2 貢獻
本文提出了一種簡單的學習機制:MixUp,用於緩解神經網路模型在出現對抗樣本或者噪聲資料時難以學習到正確資料分佈的問題。從本質上講,mixup正則化了神經網路,以支援訓練樣本之間的簡單線性行為。
本文提出的MixUp機制如下:
通過上述的樣本混淆,本文的實驗結果表明上述機制降低了神經網路對於錯誤標籤的記憶,提高了模型對對抗性樣本的魯棒性,也使得模型的訓練更加穩定。
本文對經驗風險最小化的解釋,其推導到最後就是交叉熵損失函式,具體過程如下:
關於MixUp機制,本文作者的預先實驗表明三個或三個以上的例子的凸組合與從狄利克雷分佈抽樣權值不能提供進一步的增益,並且增加了計算成本的混合。
關於MixUp其具體在做什麼?作者認為MixUp的鄰近分佈可以理解為資料處理的一種形式,它鼓勵模型f在訓練例項之間表現為線性,而這種線性行為在預測訓練例項之外的情況時減少了不必要的振盪。具體的視覺化圖如下圖所示:
此外,MixUp機制使得神經網路模型對於樣本的擬合更好,梯度值也更小,作者採用在CIFAR-10資料集上使用ERM和mixup訓練的兩個神經網路模型的平均行為。兩個模型具有相同的體系結構,使用相同的程式進行訓練,並在隨機抽樣訓練資料之間的相同點進行評估。具體的對比分析如下圖:
2.3 實驗分析
本文在影象和表格資料集上對本文的MixUp機制進行了驗證分析。在ImageNet上的錯誤率評估結果如下:
在上面的ImageNet資料集上,作者發現α∈[0.1,0.4]會導致ERM效能的改善(PS:針對ImageNet資料集),而對於大α, mixup會導致欠擬合。我們還發現,能力更高和/或訓練時間更長的模型從MixUp中受益最大。
接著,作者將CIFAR-10中標籤進行打亂合成噪聲標籤,採用MixUp機制進行評估,具體結果如下表:
此外,在表格資料集上的實驗結果如下:
最後,作者進行了消解實驗,其實驗結果表明MixUp是我們測試的最好的資料增強方法,並且明顯優於第二好的方法(MixUp)+標籤平滑)。在所有的輸入插值方法中,所有類別的混合隨機對(AC + RP)的正則化效果最強。標籤平滑和新增高斯噪聲的正則化效果相對較小。
2.4 我的想法
本文提出的MixUp機制簡單,實驗也很充分詳細,並且本文的方法在多篇噪聲標籤最新論文中都有被用到,可拓展性很強。本文提到MixUp是一種資料增強策略,並且可以把它認為是一種強大的正則化手段,該策略可以考慮作為一種常見的備用trick進行實驗分析。
最後,本文的MixUp機制可以考慮如何遷移應用到不同場景中的半監督學習和無監督學習中,這樣的擴充套件也是本文作者最後結論中的一點,並且MixMatch就一種基於MixUp機制的半監督學習機制。
3 MenterMix (ICML, 2020)
3.1 動機
採用噪聲比例受控的真實場景下的噪聲資料集對理解噪聲水平分佈的深度學習模型至關重要。由於缺乏合適的貼近真實場景下的噪聲資料集,已有的研究成果大多數都是在人工合成的可控資料集上進行實驗,而這樣的情況導致相關模型在真實場景下的噪聲資料集上表現不好。
真實世界的標籤噪聲從未在受控環境中進行過研究。這導致了兩個主要問題。首先,由於合成噪聲是由人工分佈產生的,分佈中的微小變化可能導致不一致甚至矛盾的結果。其次,絕大多數以前的研究更傾向於在噪聲水平上驗證魯棒學習方法,因為這些方法的目標是克服較大比例的噪聲水平。然而,目前的評估是有限的,因為上述工作只進行了人工合成標籤噪聲上的建模。
3.2 貢獻
(1)本文建立了第一個依據現實場景下的可控影象噪聲標籤資料集,通過僱傭人工對樣本進行標籤資訊糾正,共計完成了80萬的標註資訊;
(2)提出了一種基於MenterNet和MixUp用於客服真實場景下噪聲資料的方法,實驗結果表明其能夠取得STOA;
(3)本文在真實場景和合成噪聲資料集上,進行了較大規模的不同噪聲級別和網路架構的實驗,相關實驗結果希望能夠對在真實場景下噪聲標籤建模提高一定的建設性結論。
本文構建的接近真實場景的噪聲資料集,於當前人工合成的噪聲資料集重要區別:本文沒有改變取樣乾淨影象的標籤,而是用錯誤標記的web影象替換乾淨影象,同時保持標籤不變。這種方法的優點是,我們緊密匹配合成資料集的構造,同時仍然能夠引入可控的web標籤噪聲。
本文的MenterMix的核心結合了MentorNet依據損失函式選取乾淨樣本,並採用MixUp降低模型對噪聲樣本的擬合。MeterNet的基本原理如下:
結合MixUp,進一步提出了MenterMix:
其中t是softmax函式中的溫度,在本文的實驗中固定為1。Pv指定了單個訓練例子的密度函式。理論上,分佈是在所有訓練示例中定義的,但在實踐中,為了實現小批訓練,我們計算每個小批訓練中的分佈。對上述的公式(5)進行變換,得到如下的公式(8)
具體的演算法偽碼公式如下:
3.3 實驗分析
本文在四個資料集上驗證了所提出的方法,並給出了關於網頁標籤噪聲的新發現。
總體實驗結果,表明MentorNet+MixUp能夠有效提高MentorNet的效果。
其中藍色噪聲表示合成標籤噪聲,用紅色噪聲表示網頁標籤噪聲。
本文對深度神經網路在合成噪聲標籤資料集和真實場景噪聲標籤資料集進行了實驗分析,具體如下圖:
藍色表示人工合成噪聲資料集,紅色表示真實場景噪聲資料集。上左圖一個是直接在含噪聲的資料集上訓練,右圖是在含噪聲的資料集上進行微調。結果表明,右圖在乾淨資料訓練的模型上執行微調能夠有效降低噪聲標籤對模型過擬合的影響。
另外,本文實驗結果表明深度神經網路可能並不會率先在真實場景資料集上對乾淨標註資料進行擬合,具體分析如下圖:
3.4 我的想法
本文的創新點驗證了MixUp機制在噪聲標籤領域具有很強的抗噪聲能力,而且MixUp具有很強的領域遷移性。此外,本文在最後關於噪聲標籤框架本質:神經網路是否會在早期對乾淨標籤容易擬合的效能進行了在合成噪聲和實際噪聲標籤資料集上的探討分析,這一點可以為後續的噪聲標籤領域研究給予一定的啟發:即設計的相關模型應該能夠在向解決實際真實場景下的噪聲標籤分佈的問題前進,而不能停留在人工合成的偽標籤上面。
4 CleanNet (CVPR, 2018)
4.1 動機
現有的依賴於人的監督的方法通常是不可擴充套件的,因為手動識別正確或不正確的標籤是費時的,而不依賴於人的監督的方法是可擴充套件的,但效率較低。
4.2 貢獻
為了減少標籤噪聲清洗過程中人工監督的數量,本文引入了聯合神經嵌入網路CleanNet,它只需要人工驗證一小部分類別,就可以提供標籤噪聲的知識,從而可以轉移到其他類別。其核心創新:
1) 採用注意力機制選取乾淨的標籤
2) 採用聚類的思想選取類中心
聚類思想的體現如下:
注意力機制的思想體現如下:
借用注意力機制的核心處理公式如下:
採用聚類思想的公式如下:
最終的模型如下:
4.3 實驗分析
本文采用三種實際真實的噪聲標籤資料集進行實驗:
4.4 我的想法
本文講聚類的餘弦相似度、注意力機制和神經網路的微調策略結合起來,做噪聲標籤的思路值得借鑑。特別是在判斷不同樣本間的相似度時,可以考慮設定一個樣本相似度模組,用於做噪聲標籤檢測。
本文的模型有點複雜,並且實驗的設定和當前主流的噪聲標籤文章不太一致,並且其實驗的對比方法好像比較單一,此外其還要採用人工標註的監督資訊,好像這樣的方式並不太合適。但是,本文重點在於對採用餘弦相似度和注意力機制的應用能夠提供一定的啟發。
5 M-correction (ICML, 2019)
5.1 動機
儘管卷積神經網路對少量的標籤噪聲具有魯棒性,但使用隨機梯度方法訓練的卷積神經網路可以很容易地匹配隨機標籤。當正確目標和錯誤目標混雜在一起時,網路往往先適合前者,後適合後者。
5.2 貢獻
本文提出了一個貝塔混合估計這個概率,並通過依賴網路預測(所謂的自舉損失)來糾正損失。進一步結合MixUp,以促進本文方法進一步的提升。
基於Beta的混合概率估計表現如下:
損失函式糾正機制如下:
結合MixUp的損失函式糾正機制:
5.3 實驗分析
本文在CIFAR-10和CIFAR-100上面的實驗結果如下:
5.4 我的思考
本文最大的亮點在於把人工合成噪聲標籤資料集上,乾淨樣本在網路訓練早期擬合速度快於噪聲樣本的問題分析的很清楚,但是本文的不足是其沒有和Co-teaching進行比較分析,因為本文的出發點和本質就和Co-teaching很相似。
最後,附加一篇在NLP領域做噪聲標籤的文章:
動機:近年來,深度學習在命名實體識別(NER)方面的研究取得了顯著進展。大多數現有的作品假設乾淨的資料註釋,但現實場景中的一個基本挑戰是來自各種來源(例如,偽註釋、弱註釋或遠端註釋)的大量噪聲。
貢獻:這項工作研究了一種具有校準置信估計的噪聲標記設定。基於對噪聲標籤和清潔標籤不同訓練動態的實證觀察,提出了基於區域性和全域性獨立性假設估計置信分數的策略。
參考文獻
[1] B. Han et al., “Co-teaching: robust training of deep neural networks with extremely noisy labels,” in Proceedings of the 32nd International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Dec. 2018, pp. 8536–8546.
[2] E. Arazo, D. Ortego, P. Albert, N. O’Connor, and K. Mcguinness, “Unsupervised Label Noise Modeling and Loss Correction,” in International Conference on Machine Learning, May 2019, pp. 312–321. Accessed: Jul. 13, 2021. [Online]. Available: http://proceedings.mlr.press/v97/arazo19a.html
[3] A. Berthon, B. Han, G. Niu, T. Liu, and M. Sugiyama, “Confidence Scores Make Instance-dependent Label-noise Learning Possible,” in International Conference on Machine Learning, Jul. 2021, pp. 825–836. Accessed: Jul. 20, 2021. [Online]. Available: http://proceedings.mlr.press/v139/berthon21a.html
[4] L. Jiang, D. Huang, M. Liu, and W. Yang, “Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels,” in International Conference on Machine Learning, Nov. 2020, pp. 4804–4815. Accessed: Jul. 13, 2021. [Online]. Available: http://proceedings.mlr.press/v119/jiang20c.html
[5] X. Yu, B. Han, J. Yao, G. Niu, I. Tsang, and M. Sugiyama, “How does Disagreement Help Generalization against Label Corruption?,” in International Conference on Machine Learning, May 2019, pp. 7164–7173. Accessed: Jul. 13, 2021. [Online]. Available: http://proceedings.mlr.press/v97/yu19b.html
[6] H. Wei, L. Feng, X. Chen, and B. An, “Combating Noisy Labels by Agreement: A Joint Training Method with Co-Regularization,” 2020, pp. 13726–13735. Accessed: Jul. 13, 2021. [Online]. Available: https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_Combating_Noisy_Labels_by_Agreement_A_Joint_Training_Method_with_CVPR_2020_paper.html
[7] Z. Zheng and Y. Yang, “Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentation,” Int J Comput Vis, vol. 129, no. 4, pp. 1106–1120, Apr. 2021, doi: 10.1007/s11263-020-01395-y.
[8] Y. Ge, D. Chen, and H. Li, “Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification,” presented at the International Conference on Learning Representations, Sep. 2019. Accessed: Jul. 13, 2021. [Online]. Available: https://openreview.net/forum?id=rJlnOhVYPS
[9] F. Yang et al., “Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for Unsupervised Person Re-Identification,” 2021, pp. 4855–4864. Accessed: Jul. 13, 2021. [Online]. Available: https://openaccess.thecvf.com/content/CVPR2021/html/Yang_Joint_Noise-Tolerant_Learning_and_Meta_Camera_Shift_Adaptation_for_Unsupervised_CVPR_2021_paper.html
每天一小步,成就一大步