深度學習(9)——無監督語義分割之全卷積域適應網路(譯文)
無監督語義分割之全卷積域適應網路
摘要
深度神經網路的最新進展令人信服地證明了在大型資料集上學習視覺模型的高能力。然而,收集專家標記的資料集尤其是畫素級註釋是一個非常昂貴的過程。一個吸引人的選擇是渲染合成數據(例如,計算機遊戲)並自動生成基礎事實。然而,簡單地應用在合成影象上學習的模型可能由於域移位(domain shift,合成影象和真實影象的資料分佈存在巨大的偏差)而導致真實影象上的高泛化誤差。在本文中,我們從appearance-level和representation-level域適應的角度來促進這個問題。前者使源域影象(source-domain)看起來好像是從目標域(target domain)中的“樣式”中繪製出來的,而後者則試圖學習域不變(domain-invariant)表示特徵。具體來說,我們提出了全卷積自適應網路(FCAN),這是一種用於語義分割的新型深層體系結構,它結合了影象域適應網路(AAN,Appearence Adaptation)和特徵自適應網路(RAN,Representation Adaptation)。 AAN在畫素空間中學習從一個域到另一個域的變換,並且以對抗性學習方式優化RAN以最大限度地利用學習的源域和目標域表示來欺騙域鑑別器。從GTA5(遊戲視訊)到城市景觀(城市街景)的語義分割轉移進行了廣泛的實驗,與最先進的無監督自適應技術相比,我們的方案取得了優異的成果。更值得注意的是,我們獲得了一項新的記錄:在無監督的環境中,BDDS(drivecam視訊)的mIoU為47.5%。
1、引言
深度神經網路已成功證明在大規模資料集上學習視覺模型非常有效。迄今為止,在文獻中,有各種資料集(例如,ImageNet [26]和COCO [14]),其中包括可用於開發深度模型以進行各種視覺任務的註釋良好的影象,例如識別[8,27,29] ],檢測[6,24],字幕[34]和語義分割[1,16]。然而,給定一個新的資料集,儘管付出了昂貴的努力和耗時的過程,但典型的解決方案仍然是執行密集的手動標記。另一種方法是利用大部分可從計算機遊戲中獲得的合成數據[25],並且可以自動生成 ground truth。然而,許多先前的經驗也表明,重複應用在合成數據上學習的模型可能會損害實際資料中的效能,這是由於稱為“域移位(domain shift)”的現象[35]。以圖1(a)中的真實街景視訊中的一幀的分割結果為例,對來自視訊遊戲的合成數據進行訓練的模型無法將場景正確地分割為語義類別,例如道路,人和車。結果,在解決該挑戰時需要無監督的域自適應,其旨在利用來自源域的標記示例和目標域中的大量未標記示例來減少目標資料上的預測誤差。
圖1.街景視訊中一個示例幀的語義分段:(a)直接應用在視訊遊戲中訓練的FCN和(b)FCAN在這項工作中的域適應。
無監督域自適應的一般做法是通過最小化domain shift度量來建立跨域的不變性,例如相關距離[28]或最大均值差異[32]。我們從appearance-level和representation-level不變性的角度考慮問題。appearance-level不變性的目標是將一個域中的影象內容與來自另一個域的“style”重新組合。因此,兩個域中的影象看起來好像是從同一域中繪製的。換句話說,視覺外觀往往是域不變的。representation-level不變性的靈感來自域適應的對抗性學習的進步,即通過關於域鑑別器的對抗性目標來模擬域分佈。背後的核心來自生成性對抗性學習[7],它通過將它們相互對抗來訓練兩個模型,即生成模型和判別模型。在域適應的背景下,這種對抗性原則等同於指導兩個域中的表示學習,使源域和目標域表示分佈之間的差異通過域鑑別器無法區分。我們遵循這個準則,並利用對抗機制來學習跨域不變的影象表示。在這項工作中,我們特別研究了語義分割任務中的域自適應問題,該任務依賴於可能最準確的畫素級註釋。
通過將appearance-level和representation-level不變性的概念合併到無監督域自適應中以增強語義分割,我們提出了一種新穎的全卷積自適應網路(FCAN)架構,如圖2所示。整個框架由影象域適應網路( AAN)和特徵自適應網路(RAN)。理想地,AAN將構建捕獲源影象中的高階內容和目標域的低階畫素資訊的影象。具體地,AAN以白噪聲影象開始並通過使用梯度下降來調整輸出影象以最小化輸出影象的特徵圖與源影象的特徵圖之間的歐幾里德距離或目標域中的影象的平均特徵圖。在RAN中,首先使用共享全卷積網路(FCN)在每個域中產生影象表示,然後進行雙線性插值以對輸出進行上取樣以進行畫素級分類,同時使用域鑑別器來區分源域和目標域。特別設計了一種Atrous空間金字塔池(ASPP)策略,以擴大特徵對映中的濾波器的視野,並賦予域鑑別器更多的功率。通過優化兩個損失來訓練RAN,即,分類損失以測量畫素級語義和對抗性損失,以最大限度地利用學習的源和目標表示來欺騙域鑑別器。通過appearance-level和representation-level的調整,我們的FCAN可以更好地構建跨域的不變性,從而在圖1(b)中獲得令人鼓舞的分割結果。
這項工作的主要貢獻是全卷積自適應網路的提議,用於解決域適應背景下的語義分割問題。 該解決方案還為跨域應該建立什麼樣的不變性以及如何在深度學習框架中建模域不變性提供了特殊的角度,特別是對於語義分割的任務,這些是文獻中尚未完全理解的問題。
2、相關工作
我們簡要地將相關工作分為兩類:語義分割和深度域適應。
語義分割是計算機視覺中最具挑戰性的任務之一,其試圖預測給定影象或視訊幀的畫素級語義標籤。受全卷積網路(FCN)[16]的最新進展的啟發,已有多種技術,包括多尺度特徵集合(例如,擴張卷積[36],RefineNet [13],DeepLab [1]和HAZNet [ [33])提出了背景資訊儲存(例如,ParseNet [15],PSPNet [37]和DST-FCN [23])。通過利用一些後處理技術(例如,條件隨機場[38]),也可以改進原始的FCN公式。此外,由於大多數語義分割方法依賴於需要代價極大的標記工作的畫素級註釋,研究人員還努力利用弱監督(例如,例項級邊界框[3],影象級標籤[22])用於語義分割任務。為了實現這一目標,在文獻中利用了諸如多例項學習[20],EM演算法[18]和約束CNN [19]等技術。 [10]中的替代方案利用來自輔助類別的畫素級註釋來將語義分割概括為僅有影象級標籤可用的類別。這項工作的目標是研究可自由訪問的合成數據的探索,註釋和大部分未標記的實際資料,用於在畫素級別上註釋真實影象,這是一個新興的研究領域。
深度域適應旨在將在標記源域中學習的模型轉移到深度學習框架中的目標域。該主題的研究沿著三個不同的維度進行:無監督自適應,監督自適應和半監督自適應。無監督域自適應是指標記的目標資料不可用時的設定。深度相關對齊(CORAL)[28]利用最大均值差異(MMD)來匹配源和目標分佈的均值和協方差。對抗性判別域適應(ADDA)[31]通過對抗性訓練優化適應模型。相反,當標記的目標資料可用時,我們將該問題稱為監督域適應。 Tzeng等。 [30]利用二元域分類器並設計域混淆損失以鼓勵預測的域標籤均勻分佈。 Deep Domain Confusion(DDC)[32]應用MMD以及源上的常規分類丟失來學習既有區別又有域不變的表示。此外,還提出了半監督域適應方法,其利用標記和未標記的目標資料。深度適應網路(DAN)[17]將所有任務特定層嵌入到再生核心Hilbert空間中。考慮半監督和無監督設定。
總之,我們在本文中的工作主要集中在語義分割任務的無監督自適應,這很少被研究。 最密切相關的工作是FCNWild [9],它通過僅利用對域適應的全卷積對抗訓練來解決跨域分割問題。 我們的方法與[9]的不同之處在於,我們從appearance-level和representation-level域適應的角度解決了domain shift,這以更有原則的方式彌合了域間隙。
3、用於語義分割的全卷積自適應網路(FCAN)
圖2.完全卷積自適應網路(FCAN)架構的概述。 它由兩個主要部分組成:左側的影象域適應網路(AAN)和右側的特徵適應網路(RAN)。 AAN將影象從一個域轉移到另一個域,因此視覺外觀往往是域不變的。 RAN通過最大限度地利用學習的源和目標表示來欺騙域鑑別器,以對抗方式學習域不變表示。 特別設計了擴充套件的Atrous空間金字塔池(ASPP)層,以利用不同尺度的區域來增強辨別能力。 RAN通過源影象上的監督分割Loss和對抗Loss進行聯合優化。
在本節中,我們提出了我們提出的用於語義分割的完全卷積自適應網路(FCAN)。圖2說明了我們框架的概述。它由兩個主要部分組成:影象域適應網路(AAN)和特徵適應網路(RAN)。給定來自兩個域的輸入影象,首先利用AAN從visual appearance的角度將影象從一個域轉移到另一個域。通過重新組合一個域中的影象內容 從另一個“style”來看,visual appearance往往是域不變的。我們將從源到目標的轉換作為本節中的示例,其他選項將在我們的實驗中詳細說明。另一方面,RAN以對抗方式學習域不變表示,並且設計域判別器以對與特徵對映中的每個空間單元的感受域對應的影象區域來自哪個域進行分類。 RAN的目標是指導兩個域中的表示學習,使源和目標表示通過域判別器無法區分。因此,我們的FCAN從appearance-level和representation-level域不變性的角度解決了域適應問題,並且可能更有效地消除域移位的影響。
3.1、 影象域適應網路(AAN)
AAN的目標是使來自不同域的影象在視覺上相似。 換句話說,AAN嘗試使源影象適應,就好像從目標域中繪製一樣。 為了實現這一點,目標域中所有影象的低階特徵應該被分離並被視為目標域的“style”,因為這些特徵編碼影象的低階形式,例如紋理,光照和陰影。 相反,應該提取源影象中的物件及其關係方面的高階內容,並將其與目標域的“style”重新組合以產生自適應影象。
圖3.外觀適應網路(AAN)的體系結構。 給定目標影象集和一個源影象,我們從白噪聲影象開始並將其調整為自適應影象,其看起來好像是從目標域繪製但在源影象中包含語義內容。 預訓練的CNN用於提取特徵圖。 通過最小化和的特徵對映之間的距離來保留的高階影象內容,而通過最小化和的特徵相關之間的距離來保持目標域的樣式。
圖3說明了AAN的體系結構。給定目標域中的一組影象和來自源域的一個影象,我們從白噪聲影象開始並使用 的語義內容加上的“風格”迭代地渲染該影象產生自適應影象。 具體地,利用預訓練的CNN來提取每個影象的特徵圖。假設CNN中的每個卷積層 具有個特徵圖,其中是通道的數量,並且每個特徵圖的大小是,其中和分別表示圖的高度和寬度。這樣,層中的特徵圖可以表示為。基本上,不同卷積層中的啟用表示不同語義級別的影象內容,其中較深層表示較高級別語義。為了更好地管理源影象中的語義內容,將不同的權重分配給不同的層以反映每個層的貢獻。然後將目標函式表示為 其中是要考慮用於測量的一組層。 是圖層的權重, 是和上層的特徵圖。 通過最小化方程(1)中的歐幾里德距離,期望中的影象內容保留在自適應影象中。
接下來,一個影象的“風格”通常被視為一種統計測量或模式,它與空間資訊無關[4]。 在CNN中,這種統計測量之一是不同特徵圖之間的相關性。 因此,可以通過計算層上的影象的“樣式” 是的向量化第和第個特徵圖之間的內積。 在我們的例子中,我們通過對目標域中的所有影象求平均值,將一個影象的“style”擴充套件到一個域(目標域的 )的“style”。 為了將目標域的“style”合成為,我們將每個層中的目標表示為 是 層的權重。最後,要最小化的整體損失函式是