1. 程式人生 > >深度補全(四)-論文閱讀-翻譯

深度補全(四)-論文閱讀-翻譯

Joint Semantic Segmentation and Depth Estimation with Deep Convolutional Networks(基於深度卷積網路的聯合語義分割與深度估計)

Abstract

多尺度深度CNNs已被成功地用於將每個畫素對映到標籤的問題,如深度估計和語義分割。它還表明這種體系結構是可重用的,可以用於多個任務。這些網路通常通過改變輸出層和訓練目標來單獨訓練每個任務。在這項工作中,我們提出了一個新的模型,從單一的RGB影象同時完成深度估計和語義分割。我們的方法演示了為每個任務訓練模型部分的可行性,然後使用單個損失函式對兩個任務同時優化完整的組合模型。此外,我們將深度CNN與完全連線的CRF結合起來,捕捉語義和深度線索之間的上下文關係和互動,提高最終結果的準確性。該模型對NYUDepth V2資料集[23]進行了訓練和評估,在語義分割方面優於目前的先進方法,並在深度估計任務上取得了類似的結果。

(一)介紹

深度卷積網路(CNNs)在過去的幾年裡引起了廣泛的關注,並且通過大規模標記資料集[13]的可用性在物件分類方面取得了顯著的進展。對於需要學習畫素到畫素對映的語義分割問題,提出了幾種處理畫素級標籤丟失和生成的方法[17,2]。CNN用於語義分割的初始模型表明,最終層的響應圖通常不能很好地本地化以實現準確的畫素級分割。為了獲得更精確的定位特性,最後的層與完全連線的CRF s[4]結合在一起,在分割精度上有了顯著的提高。獨立工作探索了使用CNNs從單一檢視[8]進行深度估計。[7]的最新研究表明,常見的網路結構可以用於語義分割、深度估計和表面正態估計等問題。 通過改變輸出層和損失函式,可以有效地訓練相同的網路結構,以完成不同基準資料集的藝術表現。與此相反,我們在多工丟失的情況下訓練相同的網路進行語義分割和深度估計,實驗表明多工學習提高了效能。

我們進一步遵循這一工作路線,並假設同時可用的深度估計可以進一步改善最終標籤。為了支援這一觀點,我們提出了一種新的方法和模型,用於同時對單個RGB影象進行深度估計和語義分割,其中兩個任務共享底層特徵表示。為了進一步克服深度CNN獲取上下文的困難,並尊重邊緣和畫素值提供的低層次分割線索,我們將CNN與一個完全連通條件隨機場(CRF)模型相結合,結合網路權值學習其引數。我們在NYUDepth V2[23]上對模型進行了訓練,並在沒有深度和深度估計的情況下評估了語義分割的最終質量。該方法優於目前最先進的語義分割方法[7,17,11],在[7]的深度估計任務中取得了相似的結果。

(二)相關工作

近年來,卷積神經網路應用於計算機視覺中的許多高階問題,取得了很大的成功。最初的分類方法主要是為影象[13]分配一個標籤,然後將相同的分類策略應用到獨立分割過程[9]生成的視窗或區域提案。除了分類問題,這些模型在各種迴歸問題上也取得了很大的成功,包括姿態估計立體定位例項級分割表面法向分割深度估計。通過合併後的多個卷積層得到的初始體系結構適用於影象分類或迴歸問題,其中尋找向量值輸出的單標籤。在完全連線層之前的早期層也被發現是有效的,因為特徵圖用於各種傳統的計算機視覺任務[1]。對於語義分割問題,CNN方法通常在多個尺度上生成特徵或標籤預測,使用平均和超畫素來獲得最終邊界。在[18]中,將CNNs應用於superpixels,直接利用前饋多層網路進行分類。[11]的替代策略使用CNN特徵計算RGB-D區域提議由低水平的分割方法產生。這些方法雖然一開始很成功,但依賴於獨立的分割方法的可用性以細化結果或生成目標提案。

使用CNNs學習畫素到畫素的對映是解決語義分割問題的第一種方法,是[17]的工作。在此基礎上,作者提出將1x1卷積標籤分類器應用於不同層次的特徵對映,並對結果進行平均。語義分割的另一種方法是採用自動編碼器風格的體系結構[19][2],由卷積層和反捲積層組成。反捲積部分由反池和反褶積層組成,每個反池層都連線到編碼端對應的池化層。卷積層與[13]、[24]體系結構保持一致,並對反捲積層進行訓練。[19]中的作者將整幅影象的語義分割問題表述為單個目標方案的拼貼,同時利用反褶積部分在提案視窗內以更高的解析度描繪出目標形狀。然後,通過平均或選擇最大值來組合目標建議假設,以產生最終的輸出。

缺少上下文或生成更精確邊界的能力是上述基於CNN的語義分割體系結構的一些典型缺點。在之前的CNN的語義分割方法中,條件隨機欄位(CRF)得到了有效的應用,為將區域性多類預測與畫素和邊緣[14]捕獲的上下文和區域性資訊相結合提供了強有力的手段。為了結合CRF s在語義分割中的優勢,Chen等人[4]提出將最後一個卷積層的深度CNNs響應與全連通CRF結合起來。他們使用[10]的空穴方法使VGG網路[24]更密集,並使用雙線性插值調整標籤概率圖的大小。然後,對[12]提出的完全連通CRF,在適當的位置使用調整大小的語義概率圖。雖然在[17]中比初始結果有明顯的改善,但是[4]的方法獨立訓練CNN部分和全連通CRF部分。改進後的一些後續工作導致了CNNs和CRFs的聯合培訓。Zheng等人通過將[12]的平均場近似轉化為一系列可微操作來解決這個問題,這些可微操作可以被納入CNN訓練中。他們通過反向傳播瞭解了兩個標籤的相容性術語,而不考慮細胞的位置。在[16]的後續工作中,作者通過了解標籤對之間的相容性,同時考慮它們的相對空間位置,解決了這個缺點。

以前綜述的語義分割方法已經應用於影象或RGB-D影象,說明了深度通道可用時的改進[11,20]。單獨的工作線集中在單個影象深度估計。早期的作品利用了人造結構的約束,主要是室內環境和豐富的特性[26,22]。Saxena等[21]考慮了一般的室外場景,將深度估計制定為馬爾可夫隨機場(MRF)標記問題,其中深度估計使用的是在多尺度和分級MRF下計算的大量手工特徵。Eigen et al[8]考慮了使用深度CNNs重新研究這些問題的嘗試,使用兩個網路估計深度,處理粗和細尺度深度估計。第一個網路的輸入是整幅影象,輸出是粗深度圖,而第二個網路,取上一階段生成的粗深度圖,並在1/4的輸入影象比例尺上新增一個影象貼片,生成深度圖的精細細節。Liu等[15]解決了深度估計問題,即估計表示超畫素中心深度的每個超畫素的單個浮點數。語義和深度線索共同促進語義理解和場景佈局的作品很少。Zhang等[27]在影象中分割了car例項,並提供了每個car例項的深度排序。在嘗試使用深度和語義線索方面,最接近我們工作的是[14]和[25]。[14]的作者提出使用一個無偏置語義深度分類器來估計深度和語義類別,當影象和邊界框縮放時,邊界框上的輸出保持不變。在[25]中,粗略的深度圖由CNN估計,它們通過提取每個語義類別的頻繁模板來新增更精細的深度細節。為每個類別尋找頻繁的鑑別斑需要從每個類別中獲得更多的影象。因此,隨著類數量的增加,他們的方法不能很好地進行擴充套件。

該模型首次使用共享表示從單個RGB影象聯合估計語義標籤和深度。雖然之前的方法將CNNs與CRFs聯合起來,並對這兩個元件的引數進行了改進,但我們的方法是第一個使用更有表現力的目標函式來實現這一點的方法,該方法結合了深度和語義標籤之間的互動。

(三)提出的方法

語義分割和深度估計在過去經常被單獨處理。在這項工作中,我們演示了訓練一個用於深度估計和語義分割的網路的可能性,在那裡兩個任務學習一個共享的基礎特徵表示。這有很多好處:首先,單個網路可以同時處理這兩項任務,從而通過共享引數減少計算量和記憶體佔用。此外,由於網路通過估計每個畫素的深度來隱式學習底層物理,因此語義分割的效能得到了提高。

該方法以RGB影象為輸入,使用單個網路對每個畫素的深度和語義標籤進行初始估計。然後將這些估計組合起來,產生最終的語義分割。使用估計的深度有助於解決類似語義類別之間的混淆,比如枕頭vs沙發,書籍vs書架等等。通過優化一個聯合目標函式來實現語義分割和深度估計,從而獲得多尺度網路的引數。學習的權重可以單獨使用,也可以聯合使用。該方法是將RGB-D感測器深度通道作為網路[17]輸入的一種替代方法。原始深度通道經常提供缺失或不準確的值,這些值被繪製演算法[3]的輸出所替代。另一方面,來自網路的估計深度沒有任何缺失值。
在這裡插入圖片描述
該模型如圖1所示。我們最初的培訓目標是優化語義類別和深度估計共同定義的損失函式
在這裡插入圖片描述

在上述損失公式中,Ldepth和Lsegm聯合使用多尺度CNN模型中的共享表示進行優化,得到預測標籤和深度估計的每個畫素響應對映。在優化的最後階段,這些響應圖之間的互動作用將合併到一個聯合CRF模型中,並進一步細化包括網路引數在內的整個模型,以使目標最小化。下面兩個部分將介紹網路,並詳細描述了Lsem和Ldepth各自的損失函式,以及它們與網路結構的關係。在第3.4節中,我們將詳細介紹CRF公式。

3.1. 模型

網路有兩個主要模組;一個用於語義分割,一個用於深度估計。這兩個模組使用相同的特性集來完成它們的任務。網路的共享部分,如圖1藍色所示,是一個從影象中提取特徵的多尺度網路。以往的研究表明,多尺度網路能夠有效提高語義分割的效能,這與傳統的語義分割方法中提取多尺度[4][7]特徵相似。每個尺度最後一層的卷積特徵圖在語義分割和深度估計分支之間共享,分別如圖1中綠色和紅色所示。對不同比例尺的特徵圖進行上取樣,並將其連線起來形成影象的綜合特徵表示。我們選擇使用[4]架構是因為它使用atrous演算法產生更密集的輸出,步長為8,記憶體佔用更小。特性共享可以在測試期間節省計算資源,並提高效能,如第4部分所示。

3.2. 語義的損失函式【粗略】

在這裡插入圖片描述

3.3. 深度的損失函式【粗略】

在這裡插入圖片描述

在這裡插入圖片描述

3.4. Conditional Random Field(條件隨機場)【粗略】

(四)實驗

在進行效能評估之前,我們將更詳細地介紹網路的引數。圖1藍色所示的網路共享部分是一個從影象中提取特徵的多尺度網路。各層引數的詳細資訊見表1。第一個維度是輸出通道的數量,其餘的是該層的核心大小。網路有5個不同的分支,每個分支都以影象或較早的層作為輸入,並計算更高階的特性。輸入解析度為513×513,在每個分支的末尾,語義和深度的計算特徵被調整為影象大小的維數。

4.1. 訓練細節

培訓分多個階段進行。第1階段的訓練目標函式僅為Lsem,其餘階段為訓練優化Eq. 1。訓練第一階段,訓練網路160K迭代,學習率1e-10,權重衰減0.0005,動量0.99進行語義分割。第1階段的網路權值由[4]模型初始化,[4]模型在MS-COCO資料集上進行預訓練,在Pascal-VOC資料集上進行微調。

在第二階段,深度層(如圖1紅色所示)被新增到已經經過語義分割訓練的網路中。使用前一階段的權值初始化網路,對10K迭代使用語義分割和深度估計損失相結合的方法進行訓練。語義損失和深度損失的規模不同。

我們觀察到,通過聯合訓練,目標函式值下降得更快,但最終趨於平穩。兩階段的訓練產生了一個稍微更好的模型。

第三階段,將完全連線的CRF新增到網路中,共同微調網路,學習CRF權重。我們使用1e-13的學習率作為CRF權重,其餘網路使用1e-16的學習率,並進行10K迭代的訓練。

我們使用標準的train/test分離對NYUDepth v2資料集[23]上的模型進行訓練和評估。訓練集包含795張圖片,測試集包含654張圖片。對於訓練,資料集通過裁剪和映象來增強。對於每張圖片,我們生成了4種不同的農作物,並相應地縮放深度。另外,訓練集中還包括原始影象及其映象,從原始訓練集中得到4770張影象。在訓練前,離線進行資料增強,隨機打亂一次資料。下面的章節包含了我們關於深度估計和語義分割的方法的評估。

4.2. 深度估計

對於深度估計,我們在網路中使用長度為l = 0.14m的Nd = 50個箱子。應用softmax和Eq 3後,估計了深度值。我們在訓練中修改了標定過的真實資料,使語義分割和深度估計的聯合問題不那麼複雜,也減少了深度讀數的不確定性。注意,評估集的地面真值深度值保持不變。由於RGB-D原始深度值的質量隨深度的增加而降低,且進一步的感測器讀數不可靠,因此地面真實深度值在7m處被裁剪。我們還將深度值四捨五入到l的最接近的乘數,我們只使用有效的深度值進行訓練。我們的方法的定量評價如表2所示。我們的方法只在比例不變損失上表現得更好,而比例不變損失對實體相對於彼此的相對順序是敏感的。考慮到網路是在多目標函式下訓練的,學習物件的相對排序就足以在語義空間中進行推理,網路只有在尺度不變損失下才能表現良好是合理的。
【公式暫略】

4.3. 語義分割估計

在NYUDepth V2資料集的40個語義標籤上,使用the mean Intersection
over Union(IoU)進行語義分割,這是Jaccard在所有類中的平均得分。平均精度是所有類別中畫素的平均精度,畫素精度是所有類別中畫素的總精度。如表3所示,我們的方法優於最近的方法。Our-Unary - Sem是網路的效能,只有訓練有素的語義分割深度(訓練階段1)。Ours-Unary-Sem +深度與語義網路和深度不深(訓練階段2)。Ours-Sem-CRF的結果是語義和深度一元,但CRF只使用RGB畫素值和語義一元作為輸入。我們的semi -CRF+包含了所有的模組,CRF將估計的深度和RGB畫素值都作為輸入。總體而言,除了語義分割之外,對深度的估計可以使40個級別以上的平均欠條提高1.3%。[25]中也有類似的觀察報告,但是我們的方法快了10倍,所有的東西都是端到端訓練的。

請注意,RGB值的差異與畫素之間深度值差異的權重無關。一個有趣的觀察結果是,w(2)對於深度不連續的類對來說很大。枕頭vs沙發,書架vs書籍,洗滌槽vs櫃檯,就是這樣的例子。

(五)結論

我們展示瞭如何使用同一網路進行語義分割和深度估計,該網路是分階段訓練的,然後使用單個損失函式進行微調。所提出的模型和訓練過程產生了可比較的深度估計和比最先進的方法更好的語義分割。此外,我們還展示了CRF與深度網路的耦合進一步提高了效能,使我們能夠利用估計的深度來區分一些語義類別。結果表明,深度估計和語義分割可以共享底層特徵表示,有助於提高最終效能。