1. 程式人生 > 其它 >A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

論文閱讀:

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

作者宣告

版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
原文連結:鳳⭐塵 》》https://www.cnblogs.com/phoenixash/p/15390699.html

基本資訊

\1.標題:A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

\2.作者:Luca Maggiolo, Diego Marcos , Gabriele Moser , Senior Member, IEEE, Sebastiano B. Serpico , Fellow, IEEE, and Devis Tuia , Senior Member, IEEE

\3.作者單位:University of Genoa, Wageningen University, Ecole Polytechnique

\4.發表期刊/會議:TGRS

\5.發表時間:2021

\6.原文連結:https://ieeexplore.ieee.org/document/9497318/

Abstract

卷積神經網路(CNNs)具有在學習相關特徵的同時自動捕獲語義資訊的能力,是高解析度(VHR)影象語義分割的新參考方法。然而,對於大多數監督方法來說,map精度取決於訓練它們所用的真值(ground truth, GT)的數量和質量。密集資料標註的使用(即詳細的、詳盡的、畫素級GT)允許獲得有效的CNN模型,但通常意味著標註的工作量很大。在測試新方法的基準資料集中往往可以得到這種真值資料,但在土地覆蓋應用的實際資料中卻不能得到這種情況,因為只有稀疏的標註可能具有足夠的成本效益。用這種不完整的真值圖訓練的CNN模型有平滑物件邊界的傾向,因為它們從來沒有在GT中精確地描繪出來。為了解決這些問題,我們提出利用CNN的中間啟用特徵,並部署半監督全連線條件隨機場(CRF)。與使用相同稀疏標註的競爭對手相比,本文方法能夠較好地填補在通常不可用的密集真值標註上訓練的CNN的部分效能空白。

1.Introduction

如今,非常高解析度(VHR)遙感影象已經達到了十進位制或釐米的解析度,從而使城市空間的高解析度製圖成為可能。卷積神經網路(cnn)代表瞭解決這類任務的新標準。最近的研究表明,基於全卷積cnn[2],[3]的方法可以達到很高的逐畫素級別精度,甚至可以重現被分割物體的正確形狀。這是因為這類模型的上層可以捕獲形狀統計資訊並將其注入輸出對映中。然而,為了正確建模這些統計資料,CNN需要從稠密的準確地代表了所有物件的邊界的真值(GT)中學習它們。儘管在基準資料集中可以使用這種細粒度的GT對映,但它們的建立是非常勞動密集型的;因此,密集的畫素級GT在真實的對映應用程式中很少可用。更常見的是隻有少量的註釋可用於訓練模型(見圖1的左部)。這種情況下,用於訓練的圖片僅有部分標註,可以從semisupervised學習[4],[5]從獲得提升,其中標記和未標記畫素都被利用來解決任務。

在這項工作中,我們關注的是如何提高一個訓練不完整的CNN,更容易獲得的結果,例如,潦草的GT,從而陷入半監督設定。部分標註的gt具有不同的細節級別。第一類是最節省時間的,只提供影象級的標籤(即場景中的一個類列表,沒有任何位置資訊[6])。這個場景可以放寬到更本地化但不完整的註釋的情況,比如每個類[7]的單個畫素位置,或者以手繪塗鴉[8]的形式的多個位置。我們提出了一種針對後一種情況的方法,旨在減輕稀疏標註訓練集的影響,同時部分恢復物體形狀。該方法基於一種新穎而高效的全連線條件隨機場(CRF)的近似,通過聚類的中間節點來考慮長時間空間依賴關係。聚類階段使用中間CNN特徵,同時有利於低通濾波、高階語義和銳化邊緣。關鍵思想是接受明顯次優(即潦畫的)訓練集,並通過將其整合到一個概率圖形模型中,儘可能多地利用CNN在所有層和啟用過程中捕獲的資訊。

為了實驗驗證該方法,我們從著名的航空土地覆蓋基準開始模擬潦草的標註。為了這個目的,我們運用形態學腐蝕和刪除大部分註釋物件(見圖1),下調他們的密集的真值標註。這種測試方法可以驗證該方法的有效性和評估原始密集的真值的退化如何影響分類精度。

研究者們在會議論文[9]中發表了這項工作的初步介紹。我們在此進行了擴充套件,提供了深入的方法分析,並在另外一個數據集(波茨坦國際攝影測量和遙感學會(ISPRS)Potsdam)上添加了結果。

本文的組織如下。第二節回顧了CNN和CRF文獻中之前的相關工作。在第三節中,我們提出了提出的模型的方法學公式。在第四節中,我們描述了資料集和實驗設定,然後在第五節討論其結果,最後在第六節得出結論。

2.Previous Work

A. Convolutional Neural Networks

cnn[10],[11]是影象語義分割的新標準。與傳統的特徵工程相比,它們具有從資料中學習特徵和學習下游任務的優點。在VHR畫素級分割方面已有大量的文獻。[12]-[15]第一次嘗試使用滑動視窗進行推理,並將patch對映到單個標籤(代表patch的中心畫素),從而通過每次生成一個畫素生成整個類別對映。然而,這遠遠不夠高效,限制了CNN自身在分類過程中對空間資訊進行編碼的能力。為了解決這個問題,發展出了不同的CNN架構,以便進行密集預測,即同時估計輸入patch中包含的所有畫素的分類標籤。通過這種方式,網路隱式地編碼了不同類之間的空間關係。示例包括通過插值對啟用進行上取樣[3],全卷積模型[16],[17],以及學到的反捲積層[2]。在[18]中,模型甚至被訓練來預測物件邊界作為輔助任務。[20]和[21]的作者受到超柱模型[19]的啟發,在多個尺度上疊加上取樣啟用,以訓練其他層進行密集預測。

這部分文獻證明了利用cnn進行遙感影象處理的機會,但也顯示了一個重要的缺點;用於語義分割的cnn通常假定有大量標註的資料可用,而這些資料通常是不可用的。當CNN用不完整或潦草的真值進行訓練時,得到的預測圖通常幾何保真度很差,特別是在目標邊界附近,那裡通常沒有提供訓練樣本。這些真值不完全的案例被視為監督不完全的弱監督問題[22]。不同級別的不完整的標籤已經被用於進行語義分割,如沒有任何位置資訊的影象級標籤[23]、單點標籤[7]或潦草的標籤[8]、[24]、[25]。最近的大多數方法是通過在CNN[26],[27]的訓練中整合偽標籤來解決GT的不完全性。相反,本文提出的方法既沒有對CNN模型進行修改,也沒有對訓練中使用的資料進行修改。相反,該方法使用一種新的CRF模型來增強上下文資訊,該模型近似完整的連通性,以考慮長期空間關係。在第二- b節中回顧了以前關於CRF建模的相關工作。

B. Conditional Random Fields

解決訓練樣本稀缺問題的一種方法是注入關於空間上下文資訊的先驗資訊,通常使用圖模型。CRFs[28]是一種概率圖模型,它包含了基於觀測變數的相鄰畫素之間的類互動的上下文資訊[29][30]。CRF由能量函式決定,能量函式相對於標籤的最小值提供了最大後驗(MAP)解[29]。

利用一元和成對勢的傳統CRF公式的一個侷限性是鄰接結構不允許CRF捕獲影象內的長程依賴。在一個VHR影象中,一個畫素可以代表一個線性大小甚至等於5-10釐米的地面區域,所以尋找直接的鄰居可能不能捕獲足夠的上下文。在文獻中,為了解決受限鄰域的問題,基本的CRF結構被擴充套件到包括層次連通性和定義在影象區域[31]-[34]上的高階勢。即使不同的模型顯示出顯著的進展[33]-[35],所有這些方法的準確性都受到無監督影象分割過程的準確性的限制,該過程用於計算模型操作的區域。在[36]中,提出了一個適應不同空間支撐的模型,特別是關於畫素和區域的模型。在這兩層上估計的後驗是用兩層互連的CRF概率融合的。這個模型的輸入可以是任何分類器的輸出,它估計標籤上的畫素後驗分佈。在[37]中,CNN用於聯合學習兩個任務:語義分割和語義邊界檢測。然後,利用邊界來確定CRF模型中的一對勢。但是,這個模型需要一個具有精確邊界的GT,對於上一節討論的方法,我們認為不現實。

理想情況下,編碼遠端連線的替代方案是一個完全連線的CRF,該模型中每個畫素都與影象的其他畫素相連線[38]-[41]。這使得每個畫素可以從整個影象的相似畫素中收集資訊,而不僅僅是從它自己的相鄰畫素中。全連線CRF建模的naïve方法將使用一個密集的NxN成對矩陣(N是總畫素數),這在記憶體和計算複雜性方面是不切實際的。

一種基於平均場近似[42]的有效方法已被證明是向理想的完全連通模型行為移動的有效方法。儘管如此,這種近似的複雜性與特徵空間的維數是線性的,這使得它對於高維空間的使用是不切實際的,無論是與高光譜影象本身相關的還是從大量提取的特徵中提取的。在這項工作中,我們通過利用網路中間層提取的高維特徵來定義一個額外的結構來處理這一限制。