1. 程式人生 > 其它 >Self-Training using Selection Network for Semi-supervised Learning

Self-Training using Selection Network for Semi-supervised Learning

論文閱讀:

Self-Training using Selection Network for Semi-supervised Learning

作者說明

版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
原文連結:鳳⭐塵 》》https://www.cnblogs.com/phoenixash/p/15368992.html

基本資訊

\1.標題:Self-Training using Selection Network for Semi-supervised Learning

\2.作者:Jisoo Jeong, Seungeui Lee, Nojun Kwak

\3.作者單位:Seoul National University, Seoul, South Korea

\4.發表期刊/會議:ICPRAM

\5.發表時間:2020

\6.原文連結:https://pdfs.semanticscholar.org/c204/77953fcd455943a24ff30035284246bcc6a2.pdf

Abstract

半監督學習(Semi-supervised learning, SSL)是一種有效利用大量未標記資料來提高有限標記資料條件下效能的研究。大多數傳統的SSL方法都假設未標記資料的類包含在標記資料的類集中。此外,這些方法沒有對無用的未標記樣本進行分類,將所有未標記的資料都用於學習,不適合實際情況。在本文中,我們提出了一種稱為選擇性自訓練(selective self-training, SST)的SSL方法,它有選擇地決定是否在訓練過程中包含每個未標記的樣本。它被設計用於更實際的情況,即未標記資料的類與標記資料的類不同。對於標記樣本和未標記樣本共享同一類類別的傳統SSL問題,所提出的方法不僅效能可與其他傳統SSL演算法相媲美,而且可以與其他SSL演算法相結合。然傳統方法不能應用於新的SSL問題,但我們的方法沒有顯示出任何效能下降,即使未標記資料的類與標記資料的類不同。

1.Introduction

近年來,機器學習在各個領域取得了很多成功,精細的資料集被認為是最重要的因素之一(Everingham等人,2010;Krizhevsky等人,2012;Russakovsky等人,2015)。由於我們無法發現潛在的真實資料分佈,我們需要大量的樣本來正確估計它(Nasrabadi,2007). 然而,建立一個大資料集需要大量的時間、成本和人力(Chapelle et al.2009;Odena等人,2018)。

半監督學習(Semi-supervised learning, SSL)是一種緩解資料收集和標註過程效率低的方法,它介於監督學習和非監督學習之間,因為在學習過程中同時使用了有標記和無標記的資料(Chapelle et al., 2009;Odena等人,2018)。它可以使用大量的未標記資料從較少的標記資料有效地學習模型(Zhu, 2006)。因此,SSL的意義在以往的文獻中得到了廣泛的研究(Zhu et al., 2003;Rosenberg等人,2005年;金瑪等,2014;Rasmus et al., 2015;Odena, 2016;Akhmedova等人,2017年)。這些結果表明,在註釋資料量不足的情況下,SSL可能是一種有用的方法。

然而,最近有一項研究討論了傳統SSL方法的侷限性(Odena等人,2018)。他們指出,傳統的SSL演算法很難應用到實際應用中。特別是,傳統的方法假設所有的未標記資料都屬於訓練標記資料的一類。使用未標記樣本進行訓練,這些樣本的類分佈與標記資料的類分佈有顯著差異,可能會降低傳統SSL方法的效能。此外,無論何時有一組新的資料可用,都應該使用所有資料(包括out- class1資料)從頭開始訓練它們。

本文以分類任務為研究物件,提出了一種基於深度神經網路的選擇性自訓練(selective self-training, SST)方法來解決上述問題。為了使學習能夠選擇未標記資料,我們提出了一種基於深度神經網路的選擇網路,該網路決定是否新增每個樣本。與(Wang et al., 2018)不同,SST並沒有直接使用分類結果進行資料選擇。此外,我們採用了一種整合方法,它類似於協同訓練方法(Blum and Mitchell, 1998),利用多個分類器的輸出迭代地構建新的訓練資料集。在我們的例子中,我們不使用多個分類器,而是將時間整合方法應用於選擇網路。對於每個未標記的例項,比較選擇網路的兩個連續輸出,以保持我們的訓練資料乾淨。

此外,我們還發現每個類的樣本數量之間的平衡對我們的網路效能非常重要。我們建議一個簡單的啟發式方法來平衡在類中選擇的樣本數量。通過所提出的選擇方法,可以將可靠樣本新增到訓練集中,並排除包括類外資料在內的不確定樣本。該方法的主要貢獻可以總結如下:

  • 對於傳統SSL問題,所提出的SST方法不僅與其他傳統SSL演算法具有可比性,而且可以與其他演算法相結合。
  • 對於新的SSL問題,即使使用類外資料,提出的SST也沒有顯示任何效能下降。
  • SST要求的超引數少,易於實現。

為了證明我們提出的方法的有效性,首先,我們進行了SST與其他幾種最先進的SSL方法的分類誤差比較實驗(Laine和Aila, 2016;Tarvainen和Valpola, 2017;Luo et al., 2017;Miyato et al., 2017)在傳統SSL設定中。其次,我們提出了一個新的實驗設定,以調查我們的方法是否更適用於現實世界的情況。(Odena et al., 2018)的實驗設定在類別內和類別外中取樣。在本文的實驗設定中,我們均勻地對所有類中的未標記例項進行取樣。我們使用三個公共基準資料集:CIFAR-10、CIFAR-100 (Krizhevsky and Hinton, 2009)和SVHN (Netzer et al., 2011)來評估提出的SST的效能。

2.BACKGROUND

在這一部分中,我們介紹了我們的研究背景。首先,我們介紹一些自我訓練的方法(McLachlan, 1975;朱,2007;朱和戈德堡,2009),這是我們工作的基礎。然後我們描述了基於一致性正則化的演算法,如Π模型和時間整合(Laine和Aila, 2016)。

2.1 Self-training

自訓練方法長期以來被用於半監督學習(McLachlan, 1975;Rosenberg等人,2005年;朱,2007;Zhu and Goldberg, 2009)。它是一種重取樣技術,根據置信度對未標記的訓練樣本進行重複標註,並使用所選的偽標籤資料對自身進行重訓練。這個過程可以形式化如下。(i)用標記資料訓練模型。(ii)用學習到的模型預測未標記資料。(iii)用標記的和選定的偽標籤資料對模型進行再訓練。重複最後兩個步驟。

然而,大多數的自訓練方法都假設有標籤的和無標籤的資料來自相同的分佈。因此,在現實場景中,根據標籤資料的分佈情況,一些可能性較低的例項不可避免地有被誤分類的可能。因此,這些錯誤的樣本明顯導致了下一個訓練步驟中更差的結果。為了解決這一問題,我們採用整合和平衡的方法來選擇可靠的樣本。

Deep Semi-Supervised Semantic Segmentation. 標註質量在技術性能中起著至關重要的作用。特別是在語義分割的任務中,標籤的開銷過大。例如,來自分割基準資料集Cityspaces[6]的一張解析度為1024x2048的影象,涉及超過1M的畫素標籤,容易出現註釋錯誤,需要考慮畫素模糊的問題。SSL非常適合手頭的任務,因為前面的方法依賴於一組很小的標籤。用於語義分割的深層SSL最近只在少數工作中進行了探索。

早期的技術依賴於GANs[12]原理。

[41]作者提出通過生成gan型合成影象來擴大訓練集,以豐富特徵空間,加強無標記樣本和有標記樣本之間的關係。Hung等人[17]提出一種基於GAN的預測概率圖與地面真值分割的區分技術。類似地,Mittal等人[31]提出了一個雙分支解決方案,包括:i)為輸入樣本生成每畫素類標籤的GAN分支和ii)多標籤Mean Teacher[43]分支,以消除假陽性預測。

最近,[11]的作者將CutMix[48]擴充套件到語義分割的上下文中。在這篇論文中,作者應用了強增強的原理,包括Cutout,從影象分類的發現。[36]的作者強調了基於特徵、基於預測和隨機擾動之間的一致性。Ke等人的[20]使用了缺陷概率圖,並將雙學生[21]擴充套件到畫素級任務。在[10]中提出了一種基於偽標籤的離線自訓練方案,增強了有標記集和無標記集之間的一致性。

2.2 Consistency Regularization

一致性正則化是流行的SSL方法之一,已經被引用了許多最近的研究(Laine和Aila, 2016;Miyato等人,2017;Tarvainen and Valpola, 2017)。其中,Π模型和時間整合被廣泛使用(Laine和Aila, 2016)。他們為未標記資料定義了新的loss函式。Π模型通過用不同的隨機噪聲擾動輸入並使用dropout (Srivastava et al., 2014)輸出相同輸入x的\(f(\mathbf{x})\)\(\hat{f}(\mathbf{x})\),然後使這些輸出值之間的差值\(||f(\mathbf{x})-\hat{f}(\mathbf{x})||^2\)最小。時間整合並不會對\(f(\mathbf{x})\)\(\hat{f}(\mathbf{x})\)做出不同的預測,但是為了計算效率,將兩個連續迭代的輸出之間的差異$$||f_{t-1}(\mathbf{x})-f_{t}(\mathbf{x})||^2$$最小化。儘管在效能上有了提高,但他們在訓練中需要考慮很多事情。這些方法有各種超引數,如“上升”、“下降”、“無監督的loss 權重”等。此外,訓練的定製設定,如ZCA預處理和批均值歸一化(Salimans and Kingma, 2016)也是提高效能的非常重要的方面(Odena et al., 2018)。

3. METHOD