1. 程式人生 > 其它 >Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method

Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method

論文閱讀:

Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method

作者宣告

版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
原文連結:https://www.cnblogs.com/phoenixash/p/15371354.html

基本資訊

\1.標題:Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method

\2.作者:Haifeng Li, Yi Li, Guo Zhang, Ruoyun Liu, Haozhe Huang, Qing Zhu, Chao Tao

\3.作者單位:Central South University

\4.發表期刊/會議:arXiv

\5.發表時間:2021

\6.原文連結:https://arxiv.org/abs/2106.10605

Abstract

近年來,有監督深度學習在遙感影象語義分割中取得了巨大的成功。然而,基於監督學習的語義分割需要大量標註樣本,在遙感領域很難獲得。一種新的學習正規化——自我監督學習(SSL)——可以用來解決這類問題,方法是先用大的未標記影象訓練一個通用模型,然後用很少的標記樣本對下游任務進行微調。對比學習是SSL的一種典型方法,它可以學習通用的不變數特徵。然而,現有的對比學習大多是為了分類任務獲得影象級的表示而設計的,這對於需要畫素級識別的語義分割任務可能是次優的。因此,我們提出了全域性風格和區域性匹配對比學習網路(Local matching contrast Learning Network, GLCNet)的遙感語義分割方法。具體來說,1)全域性風格對比模組可以更好地學習影象級的表示,因為我們認為風格特徵可以更好地代表影象的整體特徵。2)設計區域性特徵匹配對比模組,學習區域性區域的表示,有利於語義分割。我們在4個遙感語義分割資料集上進行了實驗,實驗結果表明,該方法的效能優於目前最先進的自監督方法和ImageNet預訓練方法。具體來說,通過利用原始資料中1%的標註,與現有基準相比,我們的方法在ISPRS Potsdam資料集上提高了6%,在Deep Globe Land Cover Classification資料集上提高了3%。此外,當上遊任務和下游任務的資料集存在一定差異時,我們的方法優於監督學習。本研究促進了自監督學習在遙感語義分割領域的發展。由於SSL可以直接從遙感領域容易獲取的未標記資料中學習到資料的本質特徵,這對於全域性匹配等任務可能具有重要意義。

1.Introduction

隨著遙感技術的發展,高解析度衛星影象的獲取變得越來越容易。遙感影像廣泛應用於城市規劃、災害監測、環境保護、農業管理等領域。遙感影像資訊的提取與識別是這些應用的基礎。語義分割作為一種畫素級影象分析技術,是遙感影象解譯領域中最重要、最具挑戰性的研究方向之一。

傳統的遙感語義分割演算法大多是基於手工特徵的機器學習方法,如支援向量機(SVM,[5],[6])、隨機森林(RF,[7])和人工神經網路(ANN,[8])。自2012年AlexNet[9]獲得ILSVR冠軍以來,深度學習特別是深度卷積神經網路(DCNN)受到越來越多的關注[10][12]。與傳統方法相比,深度學習完全是資料驅動的,可以提取更抽象的高階特徵,在影象分類任務[13]上取得了顯著的效果。隨後,FCN[14]、U-Net[15]、Deeplab series[16][18]等基於全卷積網路的方法幾乎主導了計算機視覺影象語義分割領域。在遙感領域,研究人員針對遙感的具體特點,改進了一般的語義分割網路,進一步提高了遙感語義分割任務[19]、[20]的準確性。例如,Mohammadimanesh等人[21]設計了一種新的全卷積網路(FCN)體系結構,專門用於使用極化SAR(PolSAR)對溼地綜合體進行分類。Ding等人([22])研究了大尺寸遙感影象(RSIs)語義分割問題。為了更好地利用RSIs中的全域性上下文資訊,他們提出了一種兩階段的語義分割網路,通過對影象進行不同大小的縮放,分別獲得全域性上下文資訊和區域性細節資訊,然後融合特徵來提高準確率。

然而,基於深度學習的監督遙感語義分割方法在很大程度上依賴於大量高質量的標記樣本。隨著遙感語義分割技術在全球可持續發展中發揮越來越重要的作用,其對全球大量高質量標記樣本的需求日益增長[23],[24]。語義分割任務需要進行畫素級標籤這是非常昂貴的,而且遙感影象在時間和空間上有巨大的異質性,因此現有的標籤資料實際上只有擷取的圖片,而且很難獲得大量的,豐富涵蓋全球地區,多解析度、多季節、多光譜的標註樣本。為了解決標記樣本不足的問題,一種策略是通過資料增強[25]、GAN[26]等來生成更多的樣本;第二種策略是利用其他標註的資料,如預訓練[27]或遷移學習[28],[29],目的是遷移從更大或更相關的領域學到的知識,以提高在目標領域的效能或減少對標記樣本的依賴;另一個策略是學習如何在少數標記的樣本上有更好的效能,比如元學習[30]。但是,以上方法都是基於監督學習的正規化,這種正規化與具體任務和資料集高度相關,不可能得到通用的模型。例如,當源域和目標域的差異較大[31]時,遷移學習可能會出現負遷移。此外,這些方法沒有利用大量未標記的資料。

自監督學習提供了一種新的正規化,如圖1所示,首先通過設計自監督訊號從未標記的影象資料中學習知識,然後轉移到下游任務中,僅使用有限的標記樣本[32],就可以實現與下游任務的監督學習相當的效能。雖然大量的標記資料無法獲取,覆蓋整個世界的多樣的和豐富的無標註影象資料很容易獲取,而且無標註影象資料中包含的資訊比稀疏的標註資料更加豐富,所以我們可以期待通過self-supervised學習更多潛在的普遍性的知識。

在這項工作中,我們關注對比學習,這是一個典型的和成功的自我監督方法。我們將自我監督對比學習正規化引入遙感語義分割任務中。在預訓練階段,我們使用對比學習來增強樣本在無標註資料上的一致性來學習通用遙感視覺模型(G-RSvM)。G-RSvM增強了不變性,如光照不變性、旋轉不變性、尺度不變性等。此外,之前的對比學習主要是針對影象分類任務設計的,只關注影象級表示的學習。然而,在遙感語義分割任務中,全域性特徵學習與區域性特徵學習之間存在平衡:從全域性表示角度來看,由於時間(春、夏、秋、冬)、天氣、感測器等方面的差異,遙感影象存在整體差異;從區域性特徵的角度來看,畫素級語義分割需要更多的區域性資訊。鑑於此,我們提出了全域性風格和區域性匹配對比學習網路(Global style and Local matching contrast learning Network, GLCNet)框架,其中全域性風格對比學習模組專注於全域性表示,區域性匹配對比學習模組用於學習畫素(Local)級特徵。

本文的主要貢獻總結如下:

​ 1) 據我們所知,我們首次將自監督對比學習應用於遙感語義分割任務,並在多個數據集上驗證了自監督對比學習可以直接從未標註的影象中學習特徵,以有限的標註指導下游的語義分割任務。

​ 2)針對遙感語義分割任務中全域性特徵學習與區域性特徵學習之間的平衡問題,提出了一種新的自監督對比學習框架——Global style and Local matching contrast learning Network (GLCNet)

​ 3)我們在兩個公共資料集和兩個現實資料集上評價我們提出的方法。實驗結果表明,與現有基準相比,該方法僅使用1%的原始標註資料,在Potsdam資料集上提高了6%,在Deep Globe Land Cover資料集上提高了3%。在上游資料集和下游資料集不高度相似的情況下,它也優於監督學習。

本文的其餘部分組織如下。在第二節中,我們介紹了基於自監督對比學習的語義分割方法以及我們進一步改進的用於語義分割任務GLCNet的自監督方法。實驗結果見第三節。第四節說明了進一步的討論,結論在第五節中提供。

2.METHOD

A. Overview

監督深度學習的成功依賴於大量標註樣本,這是遙感語義分割中難以滿足的。如圖1所示,自監督學習提供了一種新的正規化,可以直接從大量現成的未標記資料中學習潛在的有用知識,然後將其轉移到下游任務中,尤其是在標記樣本有限的情況下取得更好的效能。在我們的工作中,下游任務是遙感影象的語義分割,因此我們致力於設計一個自監督的遙感語義分割任務模型。在本文中,我們引入對比學習來學習一般不變表示,同時,我們考慮到語義分割任務的特點,提出了GLCNet自監督方法,如圖2所示,該方法主要包含兩個模組:

​ 1)全域性風格對比學習模組主要考慮到現有對比學習中衡量樣本特徵所用的全域性平均池化特徵並不能很好地替代影象的整體特徵,因此,引入更能代表影象整體特徵的風格特徵,以幫助模型更好地學習全域性表示。

​ 2)區域性匹配對比學習模組主要考慮語義分割資料集的單幅影象特徵類的豐富程度,僅提取全域性特徵可能會丟失大量詳細資訊,而影象級表示對於需要畫素級識別的語義分割任務可能是次優的。

B. Contrastive learning

對比學習就是通過強迫正樣本對相似,負樣本對不同[34],[36]進行學習。對比學習方法的關鍵在於構建正樣本和負樣本。最新的突破性方法[33],[34]將例項分類為各自的標籤,這意味著將一個樣本的不同增強版本作為正樣本處理,其他樣本作為負樣本處理。對比學習可以鼓勵模型學習變換的不變性和區分不同樣本的能力。在這項工作中,我們使用對比學習來學習一般的時空不變性的遙感特徵。具體來說,我們對樣本進行隨機旋轉、裁剪、縮放等操作,使模型學習到空間不變性,如旋轉不變性和縮放不變性。此外,遙感影像的時間性差異主要是由季節因素和成像條件造成的整體紋理和顏色差異。由於缺乏多時相影象資料,我們通過在樣本上應用隨機顏色失真、隨機噪聲等來模擬時間變換,使模型學習時不變特徵。

受SimCLR[34]的啟發,我們採用對比學習的方法來訓練語義分割網路的編碼器部分,如圖3所示,該網路由以下四個主要組成部分組成:

​ 1)資料增強:為了鼓勵模型能夠學習一般的時空不變性特徵,如圖4所示,我們執行空間變換如隨機裁剪,縮放,翻轉和旋轉來學習空間不變性特徵,通過顏色失真、高斯模糊、隨機噪聲,等模擬時間變換,用於時間不變性特徵的學習。具體來說,在給定的樣本\(x\)中,通過資料擴充\(t_1\)\(t_2\),生成兩個擴充檢視\(x\)屬於和\(\hat{x}\),即\(x= t_1(x), \hat{x}= t_2(x)\)。 在本工作中,\(t_1\)表示隨機裁剪,然後調整大小到固定解析度(例如,224x224),\(t_2\)表示依次應用幾個增強:隨機裁剪,然後調整大小到固定解析度;隨機翻轉;隨機旋轉;隨機顏色失真;隨機高斯模糊;隨機噪聲和隨機灰度。

​ 2)特徵提取:利用編碼器網路\(e(·)\)從增廣樣本例項中提取全域性特徵:

\[\tilde{f}_{i}=\mu\left(e\left(\tilde{x}_{i}\right)\right), \hat{f}_{i}=\mu\left(e\left(\hat{x}_{i}\right)\right) \]

式中\(\mu\)表示對feature map中各通道均值的計算,即全域性平均池化。在本工作中,\(e(·)\)是語義分割網路DeepLabV3+[18]的編碼器部分。

​ 3)對映頭部分:如式2所示,對映頭\(g(·)\)是一個帶有一層隱層(ReLU)的MLP。\(g(·)\)的存在在SimCLR[34]中被證明是非常有益的,可能是因為它可以讓\(e(·)\)為下游任務構造和保留更多潛在的有用資訊。

\[\tilde{z}_{i}=g\left(\tilde{f}_{i}\right)=W^{(2)} \sigma\left(W^{(1)} \tilde{f}_{i}\right), \hat{z}_{i}=g\left(\hat{f}_{i}\right) \]

其中\(σ\)為ReLU非線性。

​ 4)對比損失:對比損失期望正樣本對相似,負樣本對不同。具體來說,小批量的N個樣品增廣為2N個樣品。由同一樣本擴增的一對樣本形成一對正樣本,其餘2(N-1)個樣本為負樣本,故將對比損耗\(L_C\)定義為:

\[\mathcal{L}_{C}=\frac{1}{2 N} \sum_{k=1}^{N}\left(\ell\left(\tilde{x_{i}}, \hat{x_{i}}\right)+\ell\left(\hat{x_{i}}, \tilde{x_{i}}\right)\right) \]

這裡:

\[\ell\left(\tilde{x}_{i}, \hat{x}_{i}\right)=-\log \frac{\exp \left(\operatorname{sim}\left(\tilde{z}_{i}, \hat{z}_{i}\right) / \tau\right)}{\sum_{x \in \Lambda^{-}} \exp \left(\operatorname{sim}\left(\tilde{z}_{i}, g(f(x))\right) / \tau\right)} \]

其中sim為兩個特徵向量之間的相似度度量函式,在本文中sim為餘弦相似度。\(\Lambda^{-}\)表示除正樣本對外還有2 (N-1)個負樣本,\(\tau\)表示一個溫度引數。

雖然現有的對比學習正規化可以學習到強大的影象級表徵,但仍然存在一些問題:首先,現有的對比學習使用全域性平均池化特徵提取樣本的特徵,可能不能很好地代表樣本的整體特徵;其次,更關鍵的是,通過例項對比學習學習的影象級表示對於需要畫素級識別的語義分割任務可能是次優的。因此,我們提出了GLCNet。

C. Global style and Local matching Contrastive learning Network (GLCNet)

我們提出GLCNet方法展示在圖2中,主要包含兩個模組:全域性風格對比學習模組主要關注的問題在於:用於現有的對比學習的全域性平均池化的特徵並不是一個對複雜的遙感影象的整體特徵好的替代;區域性匹配對比學習模組主要考慮現有的對比學習方法大多是為影象分類任務而設計,獲取影象級特徵,對於需要畫素級識別的語義分割可能是次優的。具體內容如下。

​ 1) Global style contrastive learning module: 與已有的例項對比學習類似,全域性風格對比學習通過強迫一個樣本的不同增強檢視與其他樣本相似或不同進行學習。不同之處在於,我們使用的是風格特徵,而不是例項對比學習中使用的簡單的平均池化特徵,因為我們認為它更能代表影象的整體特徵。黃和Belongie[37]表明CNN提取的channel-wise均值和方差的特徵對映可以表示影象的風格特點,所以我們通過計算編碼器\(e(·)\)提取的特徵的channel-wise均值和方差,提取全域性風格特徵向量,定義如下

\[f_{s}\left(x_{i}\right)=\operatorname{concat}\left(\mu\left(e\left(x_{i}\right)\right), \sigma\left(e\left(x_{i}\right)\right)\right) \]

其中\(\mu\)為特徵圖的通道均值,\(\sigma\)為通道方差。

因此,對於一個小批量的N個樣本,與式3類似,全域性風格對比學習損失定義如下

\[\mathcal{L}_{G}=\frac{1}{2 N} \sum_{k=1}^{N}\left(\ell_{g}\left(\tilde{x}_{i}, \hat{x}_{i}\right)+\ell_{g}\left(\hat{x}_{i}, \tilde{x}_{i}\right)\right) \]

和:

\[\ell_{g}\left(\tilde{x}_{i}, \hat{x}_{i}\right)=-\log \frac{\exp \left(\operatorname{sim}\left(\tilde{z}_{i}^{s}, \hat{z}_{i}^{s}\right) / \tau\right)}{\sum_{x \in \Lambda^{-}} \exp \left(\frac{\operatorname{sim}\left(\tilde{z}_{i}^{s}, g\left(f_{s}(x)\right)\right)}{\tau}\right)} \]

其中,\(\tilde{z_{i}}^{s}=g\left(f_{s}\left(\tilde{x}_{i}\right)\right), \hat{z}_{i}{ }^{s}=g\left(f_{s}\left(\hat{x}_{i}\right)\right)\)

​ 2) Local matching contrastive learning:提出區域性匹配對比學習模組主要有以下兩個原因:第一,單一遙感語義分割影象中的土地覆蓋類別極為豐富。僅提取整幅影象的全域性特徵進行測量和區分,會丟失大量的資訊;其次,利用例項對比學習方法獲取影象級特徵,由於需要畫素級的識別,對語義分割可能是次優的。因此,區域性匹配對比學習模組被設計用於學習有利於畫素級語義的區域性區域表示。它由以下主要元件組成:

a). Local region selection and matching

​ 如圖5所示,變換後的兩個版本\(\tilde{x}\)\(\hat{x}\)來自同一張影象x,即\(\tilde{x} = t_1 (x), \hat{x} = t_2 (x)\),我們從\(\tilde{x}\)\(\hat{x}\)中選擇並匹配多個區域性區域。此外,隨機裁剪、翻轉、旋轉等資料增加操作會導致\(\tilde{x}\)\(\hat{x}\)之間的位置不匹配。因此,我們通過引入索引標籤來記錄畫素位置,以確保兩個匹配區域性區域的中心位置在原始影象中是對應的。具體來說,首先從\(\tilde{x}\)中隨機選擇一個大小為\(s_p\times s_p\)的區域性區域,然後根據該區域性區域的中心位置索引值確定匹配的相同大小的區域性區域在\(\hat{x}\)中的位置。另外,為了保證不同的區域性區域之間不存在過度的重疊,每次選擇後都將區域性區域排除,保證後續選擇的區域性區域的中心不落入之前選擇的區域性區域。以上步驟重複幾次,得到多個匹配的區域性區域。

b). Local matching feature extraction

​ 區域性特徵提取步驟如下:首先,從編碼器-解碼器CNN網路的一對正樣本\((\tilde{x}, \hat{x})\)中提取特徵對映\(d (e (\tilde{x}))\)\(d (e (\hat{x}))\)。在本文中,\(e(·)\)\(d(·)\)分別對應DeepLabV3+[18]的編碼器部分和解碼器部分。其次,根據A中的區域性區域選擇與匹配的思想,從\(d (e (\tilde{x}))\)\(d (e (\hat{x}))\)中得到多個匹配區域性區域的區域性特徵圖。如果\(\tilde{p}_j\)\(\hat{p}_j\)是匹配區域性區域的特徵對映,其中\(\tilde{p}_j\)來自\(d (e (\tilde{x}))\)\(\hat{p}_j\)來自\(d (e (\hat{x}))\),則最終的區域性特徵向量定義如下:

\[\tilde{f}_{L}^{j}=f_{L}\left(\tilde{p_{j}}\right)=\mu\left(\tilde{p_{j}}\right), \hat{f}_{L}^{j}=\mu\left(\hat{p}_{j}\right) \]

式中\(\mu\)為計算feature map中各通道的均值。

c). Local matching contrastive loss

​ 區域性匹配對比損失通過強制匹配區域性區域的特徵表示相似和不同區域性區域的特徵表示不相似來更新一個完整的語義分割碼解碼器網路。對於一個小批量的N個樣本,區域性匹配對比度損失定義如下

\[\mathcal{L}_{L}=\frac{1}{2 N_{L}} \sum_{j=1}^{N_{L}}\left(\ell_{L}\left(\tilde{p_{j}}, \hat{p}_{j}\right)+\ell_{L}\left(\hat{p}_{j}, \tilde{p}_{j}\right)\right) \]

和:

\[\begin{gathered}\ell_{L}\left(\tilde{p_{j}}, \hat{p_{j}}\right)=-\log \frac{\exp \left(\operatorname{sim}\left(\tilde{\mu}_{j}, \hat{\mu}_{j}\right) / \tau\right)}{\sum_{p \in \Lambda_{L}^-\exp \left(\frac{\operatorname{sim}\left(\tilde{\mu_{j}}, g_{L}\left(f_{L}(p)\right)\right)}{\tau}\right)}} \\{\tilde{\mu}_{j}=g_{L}\left(\tilde{f}_{L}^{j}\right)=g_{L}\left(f_{L}\left(\tilde{p}_{j}\right)\right), \hat{\mu}_{j}=g_{L}\left(\hat{f}_{L}^{j}\right)}\end{gathered} \]

式中,\(N_L\)表示從N個樣本的小批中選擇的所有區域性區域的數量,即\(N_L = N\times n_p\),其中\(n_p\)為從一個樣本中獲得的匹配的區域性區域的數量。\(\Lambda_L^-\)是除兩個匹配的區域性區域外的所有區域性區域對應的一個特徵圖一集合,\(g_L(·)\)是與\(g(·)\)相似的對映頭。

​ 3) Total loss:全域性風格對比學習可以捕獲全域性資訊,而區域性匹配對比學習可以在區域性水平上進行區分,這可能有助於需要畫素級識別的語義分割。因此,我們的方法由這兩個部分組成,即最終的損失定義如下:

\[\mathcal{L} = \lambda\ \cdot\ \mathcal{L}_G\ +\ (1-\lambda)\mathcal{L}_L \]

式中λ為本工作中的常數0.5。\(\mathcal{L}_G\)表示式5中的全域性風格對比損失,僅用於更新編碼器網路。式7中\(\mathcal{L}_L\)表示區域性匹配對比損失,可以同時更新編碼器部分和解碼器部分。

​ 此外,我們提供了演算法1來詳細描述我們提出的GLCNet。