1. 程式人生 > 其它 >IEEE TPAMI 2021: MobileSal: Extremely Efficient RGB-D Salient Object Detection

IEEE TPAMI 2021: MobileSal: Extremely Efficient RGB-D Salient Object Detection

IEEE TPAMI 2021: MobileSal: Extremely Efficient RGB-D Salient Object Detection

存在問題

行動網路在特徵表示方面不如笨重的網路強大,如果適當利用彩色影象的深度資訊,可以增強與SOD相關的特徵表示。

主要貢獻

  • 提出了一種隱式深度恢復(IDR)技術來增強行動網路對RGB-D SOD的特徵表示能力。(IDR僅在訓練階段採用,在測試過程中省略,因此預測成本很低。)

    僅在最粗略的級別上進行RGB和深度資訊融合,因為這樣小的特徵解析度(即1/32比例)對於降低計算成本至關重要。

  • 提出了緊湊金字塔細化(CPR)方法,用於有效的多級特徵聚合,以獲得邊界清晰的顯著物件。

3 實現方法

3.1 概述

RGB流

我們使用MobileNetV2[17]作為我們方法的主幹。為了使其適應SOD任務,我們從主幹中刪除了全域性平均池層和最後一個完全連線的層。對於RGB流,每個階段後面都有一個步長為2的卷積層,因此,在每個階段之後,特徵貼圖將被降取樣為半解析度。為方便起見,我們將五個階段的輸出特徵對映分別表示為C1、C2、C3、C4、C5,步幅分別為2、22、23、24、25。

深度流

與RGB流類似,深度流也有五個具有相同步幅的階段。由於深度貼圖包含的語義資訊少於相應的RGB影象,因此我們構建了一個輕量級深度網路,其卷積塊數少於RGB流。每個階段只有兩個反向剩餘塊(IRB)[17]。這種設計降低了計算複雜度,符合高效RGB-D SOD的目標。在每個IRB中,我們首先通過1×1卷積沿通道維度將特徵對映擴充套件m次,然後使用相同數量的輸入和輸出通道進行深度可分離的3×3卷積[16]。然後,通過另一個1×1卷積將特徵通道壓縮到1/M。這裡,每個卷積之後是批標準化(BN)[62]和ReLU[63]層,但最後的1×1卷積只有一個BN層除外。反向殘差塊的最終輸出是初始輸入和由上述三個順序卷積生成的輸出的元素級總和。對於每個階段的第一層,深度可分離卷積的步長設定為2,如果需要,增加隱藏特徵通道的數量。深度流五個階段的輸出特徵圖表示為D1、D2、D3、D4、D5,前四個階段分別有16、32、64、96個通道。D5和C5具有相同數量的通道和相同的步幅。

圖2所示,利用RGB和深度流的輸出,我們首先融合提取的RGB特徵C5和深度特徵D5,生成RGB-D特徵CD5。提出的IDR技術從C1、C2、C3、C4、CD5中恢復深度圖,該深度圖由輸入深度圖監督,以加強特徵表示學習。對於顯著性預測,我們以CPR模組為基本單元設計了一個輕量級解碼器。解碼器在底層的輸出是最終預測的顯著性圖。更多細節見以下章節。

圖2:我們僅在最粗糙的層次上融合RGB和深度資訊,然後使用CPR有效地進行多尺度聚合。IDR分支以一種無計算的方式增強了行動網路學習到的功能較弱的功能。

3.2 RGB和深度特徵的跨模態融合(CMF)

深度貼圖顯示彩色影象的空間線索,這有助於區分前景物件和背景,特別是對於具有複雜紋理的場景。正如先前的研究[8]、[9]、[14]、[22]、[46]、[48]所證明的那樣,正確的RGB和深度特徵融合對於精確的RGB-D是必不可少的。我們在這裡的主要考慮是確保我們的方法的高效率。我們沒有在多個級別進行融合[8]、[9]、[14]、[22]、[46]、[48]、[64],而是隻在最粗糙的級別融合RGB和深度特徵,因為較小的特徵解析度導致較低的計算成本。

根據以上分析,我們只融合了RGB特徵圖C5和深度特徵圖D5。為此,我們設計了一個重量輕的交叉模態融合(CMF)模組,如圖2所示。直觀上,語義資訊主要存在於RGB影象中。

深度貼圖傳達了深度平滑區域的先驗資訊,這些區域近似表示完整物件或材料的形狀和結構。因此,我們採用深度特徵(如門)通過乘法增強RGB語義特徵,這可以看作是一種強正則化。請注意,元素級新增或連線只能通過平等對待特徵來聚合兩個特徵對映,這與我們的目標是正交的。§4.3中的實驗也證明了我們的假設。

具體而言,我們首先將RGB和深度特徵與上述IRB相結合,以匯出過渡RGB-D特徵對映T,其可表示為

其中和⊗是元素乘法運算子。同時,我們使用一個全域性平均池(GAP)層5來獲得一個特徵向量,然後使用兩個完全連線的層來計算RGB注意向量,如

其中FC和ReLU分別表示完全連線和ReLU層。FC1和FC2的輸出通道數與輸入通道數相同。σ表示標準的sigmoid函式。在不計算v的情況下,v、T和D5的乘法被輸入IRB,如

其中CD5表示CMF模組的輸出特徵圖。注意,在乘法之前,Vis複製到與T相同的形狀。等式(3)通過乘以D5再次過濾RGB語義特徵,通道注意用於重新校準融合特徵。在RGB和深度特徵融合後,我們可以匯出主幹特徵,包括RGB特徵C1、C2、C3、C4和融合的RGBD特徵CD5。

3.3 隱式深度恢復(IDR)

眾所周知[16]–[19],輕量級骨幹網路在特徵表示學習方面不如笨重的網路強大。為了保證RGB-D SOD的準確性,我們考慮加強行動網路的表徵學習。我們觀察到,深度貼圖傳達了通常表示物件、物件部分或平滑背景的深度平滑區域,因為直觀地說,物件或連線的填充區域通常具有相似的深度。這種觀察促使我們使用深度圖作為額外的監督源來指導表徵學習,這將有助於行動網路抑制物件或連線材料區域內的紋理變化,並突出它們之間的差異。這樣,突出物體和背景之間的對比度也會增強。基於這一思想,我們設計了隱式深度恢復(IDR)技術。在這裡,我們使用“隱式”一詞,因為IDR僅在培訓階段採用,在測試過程中省略,從而使其在實際部署中不需要計算。

我們繼續介紹如何使用C1、C2、C3、C4、CD5進行上述輔助監控。如圖3(a)所示,IDR的管道很簡單,即,只需將多級特徵對映串聯起來,然後將其融合。具體地說,我們首先應用1×1卷積來將C1、C2、C3、C4、CD5壓縮到相同數量的通道,即256。然後,將生成的要素貼圖調整為與asC4相同的大小,然後將其串聯。1×1卷積將級聯特徵對映從1280個通道更改為256個通道,以節省計算成本。接下來,我們按照四個順序IRB融合多層次特徵,從而獲得強大的多尺度特徵。最後,一個簡單的1×1卷積將融合後的特徵對映轉換為單個通道。通過標準的sigmoid函式和雙線性上取樣,我們可以獲得與輸入相同大小的恢復深度圖。IDR的訓練損失採用眾所周知的SSIM度量[65]來測量恢復深度地圖和輸入Dg之間的結構相似性,可以寫成

其中SSIM使用預設設定。請注意,在測試過程中省略了上述操作,以使IDR自由。

圖3.IDR和CPR。(a)IDR分支加強了移動主幹網功能較弱的功能。(b) CPR模組能有效地對多層次深度特徵進行聚合,D-Conv表示深度可分離卷積。

3.4 緊湊的金字塔細化

人們普遍認為主幹網中的高階特徵包含語義抽象特徵,而低階特徵則傳達細粒度細節。為了獲得準確的SOD,必須充分利用高水平和低水平特徵。關於這個主題有很多文獻[8]、[9]、[13]、[14]、[22],但是現有的方法通常在沒有考慮效率的情況下設計麻煩的解碼器。在這裡,我們的解碼器不僅應該有效地融合多級特徵,而且應該儘可能地高效。

該譯碼器使用緊湊金字塔細化(CPR)模組作為基本單元。為了提高效率,CPR使用1×1和深度可分離卷積[16],而不是以前方法[12]-[14],[22]中的普通卷積。由於多尺度特徵表現出多尺度表示,高尺度對應於粗尺度,反之亦然,因此多尺度學習對於多尺度特徵融合是必要的。因此,CPR採用輕量級多尺度學習策略來增強這種融合。假設CPR模組的輸入為X。如圖3(b)所示,CPR首先應用1×1卷積,以將通道數擴充套件MTIME。然後,將三個膨脹率為1,2,3的3×3深度可分離卷積並聯起來進行多尺度融合。這可以表述為

式中,d1、d2和d3分別為擴張率,即這裡的1、2、3。BN是批次標準化的縮寫[62]。使用1×1卷積將通道壓縮到與輸入相同的數量,即:。,

使用剩餘連線進行更好的優化。將式(2)中的注意機制應用於X,以計算注意向量v',因此

等式(7)使用全域性上下文資訊重新校準融合特徵。

如圖2所示,在每個解碼器階段,來自頂部解碼器和相應編碼器階段的兩個特徵對映首先分別使用1×1卷積將其通道數減少一半。然後連線結果,然後是用於特徵融合的CPR模組。通過這種方式,我們的輕量級解碼器從上到下聚合了多級功能。

3.5混合損耗函式

在每個譯碼器階段,我們通過依次新增1×1卷積和單通道、sigmoid函式以及雙線性上取樣到CPR模組的輸出來預測顯著性圖,如圖2所示。因此,我們可以分別匯出五個階段的預測顯著性圖Pi(i=1,2,···,5)。假設地面真值顯著性圖為G。每側輸出的損失可計算為

BCE表示二元交叉熵損失函式:

其中“·”表示點積行動,擲骰子擲骰子的損失[66]:

其中||·||表示“1”範數。通過深度監督和IDR,培訓損失可表述為:

式中λ為平衡重。在測試階段,p1是最終預測的顯著性圖。

4 實驗

我們首先在§4.1中提供了實驗裝置。然後,我們比較§4.2中最先進的RGB-D SOD方法,並在§4.3中進行全面的消融研究。我們還討論了§4.4中IDR的應用。