1. 程式人生 > 其它 >Semi-supervised semantic segmentation needs strong, varied perturbations

Semi-supervised semantic segmentation needs strong, varied perturbations

論文閱讀:

Semi-supervised semantic segmentation needs strong, varied perturbations

作者宣告

版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
原文連結:鳳⭐塵 》》https://www.cnblogs.com/phoenixash/p/15379232.html

基本資訊

\1.標題:Semi-supervised semantic segmentation needs strong, varied perturbations

\2.作者:Geoff French, Samuli Laine

, Timo Aila, Michal Mackiewicz, Graham Finlayson

\3.作者單位:\(^1School\ of\ Computing\ Sciences\ University\ of\ East\ Anglia\ Norwich,\ UK \\^2\ NVIDIA Helsinki,\ Finland\)

\4.發表期刊/會議:BMVC

\5.發表時間:2020

\6.原文連結:https://arxiv.org/abs/1906.01916

Abstract

一致性正則化描述了在半監督分類問題中產生突破性結果的一類方法。先前的工作已經建立了一類假設,在這種假設下,資料分佈是由通過低密度區域分離的樣本組成的均勻類聚類,這對其成功是非常重要的。我們分析了語義分割的問題,發現它的分佈並沒有顯示出低密度的區域來區分類,這就解釋了為什麼半監督分割是一個具有挑戰性的問題,只有很少的成功報告。然後,我們確定增強的選擇是在沒有這樣的低密度區域的情況下獲得可靠的效能的關鍵。我們發現,最近提出的CutOut和CutMix增強技術的改進變種在標準資料集中產生了最先進的半監督語義分割結果。此外,鑑於語義分割具有挑戰性的本質,我們提出將語義分割作為評估半監督正則化器的有效acid test測試。 Implementation at:

https://github.com/Britefury/cutmix-semisup-seg.

1.Introduction

半監督學習提供了一個誘人的前景,即使用只有一小部分樣本有標籤的資料集來訓練機器學習模型。這些情況經常出現在實際的計算機視覺問題中,因為大量的影象是現成的,由於成本和勞動力的需要,真值標註成為一個瓶頸。一致性正則化[19,25,26,32]描述了一類半監督學習演算法,這些演算法在半監督分類中產生了最先進的結果,同時概念簡單,通常易於實現。關鍵的想法是鼓勵網路對以各種方式受到干擾的無標記輸入給出一致的預測。

一致性正則化的有效性通常歸因於平滑假設[23]或聚類假設[5,31,33,37]。平滑假設表明,彼此接近的樣本可能具有相同的標籤。聚類假設是平滑假設的一種特殊情況,認為決策曲面應該位於資料分佈的低密度區域。這通常適用於分類任務,因為迄今為止大多數成功的一致性正則化方法已經被報道出來。

在較高的層次上,語義分割就是分類,每個畫素根據其鄰域進行分類。因此,有趣的是,在醫學成像領域,只有兩份一致性正則化成功應用於分割的報告[21,28],而沒有一份應用於自然場景影象的報告。我們觀察到,即使中心畫素的類別發生變化,以相鄰畫素為中心的\(L^2\)畫素含量距離之間的小塊也會平滑變化,因此在類邊界上不存在低密度區域。這一令人震驚的觀察結果促使我們研究在這些情況下,允許一致性正則化操作的條件。

我們發現基於掩模的增強策略對半監督語義分割是有效的,一種適應的CutMix[45]變體實現了顯著的收益。

本文的主要貢獻在於分析了語義分割的資料分佈和方法的簡便性。我們利用了經過嘗試和測試的半監督學習方法,並採用了CutMix一種監督分類的增強技術進行半監督學習和分割,取得了最先進的結果。

2.Background

我們的工作涉及三個領域的現有技術:最近的分類正則化技術,專注於一致性正則化的半監督分類,以及語義分割。

2.1 MixUp, Cutout, and CutMix

Zhang等人[40]的MixUp正則化器通過在訓練過程中使用插值樣本提高了有監督影象、語音和表格資料分類器的效能。兩個隨機選擇的樣本的輸入和目標標籤使用一個隨機選擇的因子進行混合。

Devries等人[11]的Cutout正則化器通過將矩形區域掩蔽為零來增強影象。Yun等人最近提出的[39]CutMix正則化器結合了MixUp和CutOut的各個方面,從影象B中切割出一個矩形區域,並將其貼上到影象a上。MixUp、CutOut和CutMix提高了監督分類效能,其中CutMix優於其他兩個。

2.2 Semi-supervised classification

文獻中提出了多種基於一致性正則化的半監督分類方法。他們通常將標準監督損失項(例如交叉熵損失)與非監督一致性損失項結合起來,以鼓勵對應用於非監督樣本的擾動作出一致預測。

Laine等人[19]的Π-model將每個未標記樣本通過分類器兩次,應用隨機增廣過程的兩種實現,並使所得到的類別概率預測之間的平方差最小。他們的時間模型和Sajjadi等人[32]的模型鼓勵當前預測和歷史預測之間的一致性。Miyato等人的[25]將隨機增廣替換為對抗方向,從而將擾動向決策邊界瞄準。

Tarvainen等人[36]的平均教師模型鼓勵學生網路預測和教師網路預測之間的一致性,其中教師網路的權重是學生網路的指數移動平均[29]。[13]採用均值教師進行域適應。

無監督資料增強(UDA)模型[38]和最先進的FixMatch模型[34]展示了豐富的資料增強的好處,因為它們都結合了CutOut[11]和RandAugment [10] (UDA)或CTAugment [3] (FixMatch)。RandAugment和CTAugment從14種影象增強中提取。

Verma等人[37]和MixMatch[4]的插值一致性訓練(ICT)結合了MixUp[40]和一致性正則化。ICT使用平均教師模型,並將MixUp應用於無監督樣本,將輸入影象與教師類預測混合,產生混合輸入和目標,以訓練學生模型。

2.3 Semantic segmentation

大多數語義分割網路將影象分類器轉換為一個完全卷積的網路,生成一組密集的預測,用於重疊輸入視窗,分割任意大小[22]的輸入影象。DeepLab v3[7]架構通過結合atrous卷積和空間金字塔池化來提高定位精度。解碼器網路[2,20,30]使用跳躍連線將像編碼器一樣的影象分類器連線到解碼器。編碼器逐漸對輸入進行向下取樣,而解碼器則向上取樣,從而產生解析度與輸入相匹配的輸出。

許多半監督語義分割方法使用額外的資料。Kalluri等人的[17]使用來自不同領域的兩個資料集的資料,最大化每個資料集的類嵌入之間的相似性。Stekovic等人的[35]使用深度影象和三維場景的多個檢視之間的強制幾何約束。

在嚴格的半監督環境下操作的方法相對較少。Hung等人[16]和Mittal等人[24]採用基於GSN的對抗學習,使用鑑別器網路區分真實和預測的分割圖來指導學習。

據我們所知,一致性正則化在分割中的唯一成功應用來自醫學成像領域;Perone等人[28]和Li等人[21]分別對MRI體積資料集和面板病變應用一致性正則化。兩種方法都使用標準增廣來提供擾動。

3.Consistency regularization for semantic segmentation

一致性正則化將一致性損失項\(L_{cons}\)新增到在訓練過程中被最小化[26]的損失中。在分類任務中,\(L_{cons}\)衡量了將神經網路\(f_θ\)應用於非監督樣本\(x\)與同一樣本的擾動版本\(\hat{x}\)的預測結果之間的距離\(d(·,·)\),即\(L_{cons} = d(f_θ (x), f_θ (\hat{x}))\)。用於生成\(\hat{x}\)的擾動依賴於所使用的一致性正則化的變體。使用了多種距離度量\(d(·,·)\),例如距離的平方[19]或交叉熵[25]。

Athiwaratkun等人[1]的形式分析支援了聚類假設的好處。他們分析了一個簡化的Π-model[19](使用加性各向同性高斯噪聲擾動(\(\hat{x} = x+εN(0,1)))\),發現\(L_{cons}\)的期望值與網路輸出的雅可比矩陣\(J_{f_θ} (x)\)相對於輸入的平方大小近似成正比。因此,最小化\(L_{cons}\)可以平滑無監督樣本附近的決策函式,將決策邊界及其周圍的高梯度區域移動到低樣本密度的區域。

3.1 Why semi-supervised semantic segmentation is challenging

我們將語義分割視為滑動視窗patch分類,目標是識別patch中心畫素的類別。鑑於之前的工作[19,25,34]對原始畫素(輸入)空間應用了擾動,我們對資料分佈的分析集中在影象小塊的原始畫素內容,而不是來自網路內部的更高層次的特徵。

我們將一致性正則化在自然影象語義分割問題上的罕見成功歸因於輸入資料中的低密度區域不能很好地與類邊界對齊。這種低密度區域的存在將表現為區域性地大於類邊界兩側相鄰畫素為中心的patch之間的平均\(L^2\)距離。在圖1中,我們可視化了相鄰patch之間的\(L^2\) 距離。當使用一個合理的接受域如圖1(c)所示我們可以看到叢集假設顯然是違反了:一個畫素接受域的原始畫素內容與相鄰畫素接受域內容的差異與patch中心畫素是否屬於同一類無關。

從訊號處理的角度很容易解釋patch級別距離的缺乏變化。大小HxW的patch,以所有水平相鄰畫素對為中心的重疊patch畫素含量之間\(L^2\)距離的距離圖可以寫成\(\sqrt{\left(\Delta_{\mathrm{X}} I\right)^{\circ 2} * 1^{H \times W}}\),其中*表示卷積和\(\Delta_{\mathbf{x}}I\)表示水平梯度的輸入影象\(I\)。因此,元素級別的平方梯度影象通過HxW盒形濾波器進行低通濾波,它抑制了影象高頻成分中的精細細節,導致影象上平滑變化的樣本密度。

在歸納到其他影象時,我們對CITYSCAPES資料集的分析量化了在應該屬於不同類別的兩個相鄰畫素之間設定決策邊界所涉及的挑戰。我們發現,以類邊界兩邊畫素為中心的patch之間的\(L^2\) 距離大約是同一類在不同影象中最近patch距離的1/3(見圖2)。這表明,精確定位和取向的決策邊界對於良好的效能至關重要。我們在補充材料中進一步詳細討論我們的分析。

3.2 Consistency regularization without the cluster assumption

當考慮在我們上面分析的背景下,成功應用的幾個報告的一致性正規化語義分割尤其是李et al。[21]的工作使我們得出這樣的結論:低密度區域的存在對類分離是非常有益的,但不是必要的。因此,我們提出了一種替代機制:即使用非各向同性的自然擾動,如影象增強,來約束決策邊界的方向,使其與擾動的方向平行(見Athiwaratkun等人[1]的附錄)。我們現在將使用一個2D玩具的例子來探索這個問題。

圖3a用一個簡單的2D玩具均值教師實驗說明了聚類假設的好處,在這個實驗中,聚類假設成立是因為屬於兩個不同類別的無監督樣本之間存在一個間隙。\(L_{conf}\)使用的擾動是對兩個座標的各向同性高斯偏移,正如預期的那樣,學習到的決策邊界在兩個叢集之間整齊地確定。在圖3b中,無監督樣本是均勻分佈的,違反了聚類假設。在這種情況下,一致性的損失弊大於利;即使它成功地使決策函式的鄰域變平,它也跨越了真正的類邊界。

在圖3c中,我們繪製了到真正類邊界的距離的輪廓。如果我們約束應用於樣本x的擾動,使擾動\(\hat{x}\)位於或非常接近通過x的距離輪廓上,得到的學習決策邊界與真實的類邊界很好地對齊,如圖3d所示。當低密度區域不存在時,必須仔細選擇擾動,使跨越類邊界的概率最小化。

我們認為可靠的半監督分割是可以實現的,前提是增強/擾動機制遵循以下準則:1)擾動必須多樣和高維的以充分約束自然影象的高維空間的邊界的方向決定,2)與其他維度的探索相比,擾動跨越真實類邊界的概率一定非常小,3)擾動輸入應該是可信的;它們不應遠遠超出各種實際投入。

經典的基於增強的擾動,如裁剪、縮放、旋轉和顏色變化,混淆輸出類的機率很小,並且已被證明是對自然影象分類的有效方法[19,36]。儘管該方法在一些醫學影象分割問題上取得了積極的結果[21,28],但令人驚訝的是,它在自然影象上卻無效。這促使我們為半監督語義分割尋找更強、更多樣化的增強方法。

3.3 CutOut and CutMix for semantic segmentation

在UDA[38]和FixMatch[34]中,Cutout[11]在半監督分類中產生了很強的結果。UDA消融研究表明,Cutout在半監督效能中貢獻了大部分,而FixMatch消融表明,Cutout可以匹配CTAugment使用的14個影象操作組合的效果。DeVries等人[11]認為,Cutout鼓勵網路利用更廣泛的特徵,以克服當前或遮蔽影象各部分的變化組合。這種由Cutout引入的多樣性表明,它是一個很有前途的分割候選項。

鑑於MixUp已經成功地用於ICT[37]和MixMatch[4]的半監督分類,我們建議使用CutMix以類似的方式混合無監督樣本和相應的預測。 如2.1節所述,CutMix結合了Cutout和MixUp,使用一個矩形蒙版來混合輸入影象。鑑於MixUp已經成功地用於ICT[37]和MixMatch[4]的半監督分類,我們建議使用CutMix以類似的方式混合無監督樣本和相應的預測。

對比Π-model[19]和均值教師模型[36]的初步實驗表明,使用均值教師模型是提高語義切分效能的關鍵,因此本文的所有實驗都使用均值教師框架。我們將學生網路表示為\(f_θ\),教師網路表示為\(g_φ\)

Cutout. 在[11]中,我們用1初始化一個蒙版M,並將隨機選擇的矩形內的畫素設定為0。為了在語義分割任務中應用cutout,我們用 M 遮蔽輸入畫素,並忽略被 M 遮蔽為 0 的畫素的一致性損失。 FixMatch [34] 使用由裁剪和翻轉組成的弱增強方案來預測用作使用強 CTAugment 方案增強的樣本的目標的偽標籤 。同樣,我們認為Cutout是一種強增強形式,因此我們將教師網路\(g_φ\)應用於原始影象生成偽目標,用於訓練學生\(f_θ\)。以距離的平方為度量,我們得到\(L_{cons} = ||M\odot(f_θ (M\odot x) g_φ (x))||^2\),其中\(\odot\)為元素積。

CutMix. CutMix 需要兩個輸入影象,我們將它們表示為 \(x_a\)\(x_b\),我們將它們與掩碼 M 混合。參照 ICT ([37]) ,我們混合了教師網路對輸入影象的預測 \(g_φ (x_a),g_φ (x_b)\) 生成偽標籤,用於學生網路對混合影象的預測。 為了簡化符號,讓我們定義函式 \(mix(a,b,M) = (1− M)\odot a+ M\odot b\) ,它根據掩碼 M 選擇輸出畫素。 我們現在可以將一致性損失寫為:

\[L_{\text {cons }}=\left\|\operatorname{mix}\left(g_{\phi}\left(x_{a}\right), g_{\phi}\left(x_{b}\right), M\right)-f_{\theta}\left(\operatorname{mix}\left(x_{a}, x_{b}, M\right)\right)\right\|^{2} \]

用於分類的Cutout[11]的原始公式使用一個固定尺寸和寬高比的矩形,其中心隨機定位,允許部分矩形位於影象邊界之外。CutMix[39]隨機改變大小,但使用固定的縱橫比。對於分割,我們使用CutOut獲得了更好的效能,通過隨機選擇大小和寬高比,並定位矩形,使其完全位於影象內。相比之下,通過將矩形的面積固定為影象面積的一半,同時改變長寬比和位置,CutMix的效能得到了最大化。

雖然Cutout和CutMix應用的增強效果並不會出現在現實生活中的影象中,但從視覺角度來看,它們是合理的。分割網路通常使用影象crop而不是完整的影象來訓練,所以用Cutout來分割影象的一段可以看作是逆操作。使用CutMix的效果是將一個矩形區域從一個影象貼上到另一個影象上,類似地產生一個合理的分割任務。

在我們的補充材料中說明了基於Cutout和Cutmix的一致性損失。