22.Deeply Supervised Salient Object Detection with Short Connections

阿新 • • 發佈：2018-12-01

具有短連線的深度監督的顯著性目標檢測

摘要

顯著目標檢測的最新進展是實質性的，主要受益於卷積神經網路（CNN）的爆炸式發展。最近開發的語義分割和顯著目標檢測演算法主要基於完全卷積神經網路（FCN）。對於沒有明確處理尺度空間問題的通用FCN模型，仍有很大的改進空間。整體巢狀邊緣檢測器（HED）提供跳過層結構，對邊緣和邊界檢測進行深度監督，但HED在顯著性檢測上的效能增益不明顯。在本文中，我們通過在HED架構內引入跳過層結構的短連線提出了一種新的顯著目標檢測方法。我們的框架充分利用從FCN中提取的多級和多尺度特徵，在每一層提供更高階的表示，這是執行分割檢測所必需的屬性。我們的方法在5個廣泛測試的顯著目標檢測基準上產生了最佳的結果，在效率方面（每個影象0.08秒），有效性和現有演算法的簡單性方面具有優勢。除此之外，我們還對訓練資料對效能的作用進行了詳盡的分析。我們的實驗結果為未來的研究和公平比較提供了更合理，更有力的訓練。

1.引言

顯著目標檢測是識別影象中視覺上最獨特的物件或區域，然後將它們從背景中分割出來。與其他類似分割的任務（例如語義分割）不同，顯著目標檢測更注重極少數有趣且有吸引力的物件。這種有用的特性使得顯著目標檢測通常可以作為各種計算機視覺應用的第一步，包括影象和視訊壓縮[2]，[3]，影象分割[4]，內容感知影象編輯[5]，[6]，目標識別[7]，弱監督語義分割[8]-[11]視覺跟蹤[12]，真實渲染[13]，[14]，照片合成[15]，[16]，資訊披露[17]，[18]，影象檢索[19]，[20]，動作識別[21]等。

早期的顯著目標檢測方法主要受到視覺注意的認知研究的啟發[22]，其中,對比在顯著性檢測中起著最重要的作用。考慮到這一事實，我們設計了各種手工製作的特性，採用全域性或區域性方式（參見[23]，[24]進行評論）。但是，由於這些手工製作的特徵是基於現有資料集的先驗知識，因此無法擴充套件雖然有些工作人員試圖開發不同的方案來組合這些特徵而不是利用個別特徵，但由此產生的顯著性圖仍然遠遠不能令人滿意，特別是在遇到複雜和雜亂的場景時。為了克服由人類先驗引起的缺點，基於方法的學習（例如[25]）似乎更好地整合不同型別的特徵以提高泛化能力。然而，由於許多融合細節是手動設計的，因此豐富的特徵表示仍然遭受低對比度並且無法在雜亂的場景中檢測到顯著的物件。

在各種計算機視覺任務中，如影象分類[27]，[28]，語義分割[29]，邊緣檢測[26]，[30]，目標檢測[31]，[32]和行人檢測[33]，卷積神經網路（CNNs）[34]成功地突破了傳統手工製作的特徵的極限。完全卷積神經網路（FCNs）[29]的出現進一步推動了這些研究領域的發展，提供了一種更有原則的學習方法。這種端到端學習工具也激發了最近使用FCN進行顯著目標檢測的研究工作[35]，[36]。從FCN中的大量引數中受益，與以前的方法相比，已經取得了很大的效能提升。完整巢狀的邊緣檢測器(HED)[26]模型明確地處理了尺度空間問題，在邊緣檢測上下文中，它導致了對一般FCN模型的巨大改進。雖然從不同尺度提取的多層次特徵融合機制為邊緣檢測提供了一種更為自然的方式，但對分割等相關的任務卻無能為力。邊緣檢測實際上不能用於高階語義特徵表示。這解釋了為什麼在HED模型中具有深度監督的跳過層結構不會導致顯著性檢測的明顯效能增益。實驗結果也支援這一說法，如圖1所示。

在本文中，我們主要研究具有深度監督的跳層結構。我們不是簡單地融合從不同尺度提取的多級特徵，而是在自上而下的檢視中考慮這樣的問題。如圖1所示，我們觀察到

1）較深的邊緣輸出編碼高階語義知識，因此可以更好地定位顯著物件所在的位置。然而，由於FCNs的下采樣操作，所預測的圖譜通常形狀不規則，特別是當輸入影象複雜且雜亂時(見瓶子影象），

2）較淺的邊緣輸出捕獲豐富的空間資訊。儘管產生了混亂的預測圖，它們仍能夠成功地突出顯示那些顯著物件的邊界。

基於這些現象，產生更好的顯著性圖譜的直觀想法是合理地組合這些多級特徵。這促使我們開發一種新的顯著性目標檢測方法，方法是在HED[26]體系結構中引入短連線到跳層結構。通過從較深側輸出到較淺側輸出的一系列短連線，我們的新框架提供了兩個優點：

高階特徵可以轉換為較淺的輸出層，從而可以幫助它們更好地定位最顯著的區域

2)較淺輸出層可以學習豐富的低階特徵，可以幫助從較深輸出層重新定義稀疏和不規則的預測圖。

通過組合來自不同級別的特徵，所得到的體系結構在每一層提供豐富的多尺度特徵圖，這是實現有效顯著目標檢測所必需的屬性。我們的方法是完全卷積的，不需要其他先驗資訊，如超畫素。生成解析度為300*400畫素的預測圖僅需0.08秒。除了改進最先進的結果，我們對不同訓練集的行為進行詳盡的分析，因為在顯著性目標檢測領域沒有公平比較的通用訓練集。我們的目標是提供更加統一的訓練集，同時為未來的研究建立公平的基準環境。

2.相關工作

在過去的二十年中，開發了一套極為豐富的顯著性檢測方法。大多數顯著目標檢測方法基於手工製作的區域性特徵[38]-[40]，全域性特徵[41]-[43]或兩者[25]，[44]。對這些方法的完整調查超出了本文的範圍，我們將讀者引用到最近的調查論文[23]，[45]以獲取詳細資訊。在這裡，我們主要討論基於深度學習架構的最近的顯著目標檢測方法。

2.1基於CNN的顯著性模型

與使用手工製作功能的傳統方法相比，基於CNN的方法幾乎在計算機視覺的每個子領域（包括顯著目標檢測）都重新整理了所有先前的最先進記錄。在[46]，He等人通過利用分層對比度特徵，提出了一種超畫素級卷積神經網路架構。對於每個超畫素尺度，將兩個對比度序列饋入卷積網路以構建更高階的特徵。最後，學習了不同的權重，將多尺度顯著性圖譜融合在一起，產生了更加有意義的權重。李等人[47]提出使用從DCNN提取的多尺度特徵來匯出顯著圖。通過將不同級別的影象分割饋送到DCNN並聚合多個所得特徵，然後使用一堆全連線層來確定每個分段區域是否顯著。王等人[48]通過整合區域性估計和全域性搜尋來預測顯著性圖譜。深度神經網路首先用於學習區域性補丁特徵，以便為每個畫素提供顯著性值。然後，將區域性顯著性圖譜，全域性對比度和幾何資訊合併為另一個深度神經網路的輸入，用於預測每個區域的顯著性得分。在[49]中，趙等人提出了一種用於顯著目標檢測的多上下文深度學習框架。兩個不同的CNN被設計為獨立地捕獲每個片段補丁的全域性和本地上下文資訊。最終的迴歸用於每個片段補丁的最終顯著性決策。李等人[50]考慮了從CNNs和手工製作的特徵中提取的高階語義特徵。為了將它們組合在一起，利用單一的全連線的神經網路來估計每個查詢區域的顯著性.劉等人[36]設計了一個深度網路，其中產生了一個粗糙的預測圖，然後是分層和逐步地預測圖的詳細資訊。在[35]中，通過利用輸入影象的對比度資訊提出了深度對比度網路。它結合了畫素級完全卷積流和分段空間池流。全連線的條件隨機場（CRF）也用於進一步從對比網路中確定預測圖。在[51]中，Wang等人建議利用迴圈完全卷積網路的優勢。通過這樣做，他們的經常性全卷積網路通過校正預測誤差而允許通過先前的預測圖來完成。使用語義分割資料的預訓練策略被用於提取顯著物件的通用表示。

2.2跳層結構

最近，由於CNN及其靈活的架構，在分段檢測方面取得了很大進展。在這些通用結構中，跳層結構已被大多數研究人員廣泛接受，這些研究人員具有融合多級和多尺度特徵的能力。像Hypercolumn[37]和DCL[35]這樣的早期跳層結構在各自的領域取得了突破。然而，它們只是簡單地融合具有不同比例的跳層，以用於更高階的特徵表示構建，如圖2（a）所示。不同的是，FCN類結構[29]（見圖2（b））考慮了一種更好的方法來利用多層特徵，逐漸融合從上層到下層的特徵。在[26]中，謝和Tu提出了一種對每個側輸出（跳層）進行深度監督的方案。除了將所有跳過層融合在一起之外，在每個側輸出之後新增一系列側面損失以保留邊緣資訊的更多細節。圖2（c）顯示了這些架構的簡化版本。已經考慮了多個多尺度特徵，並且最近這些發展已經取得了顯著的進展，對於沒有明確處理尺度空間問題的通用CNN模型仍有很大的改進空間。

3深度監督與短連線

本節介紹了我們的方法和一些實現細節。在此之前，讓我們首先看看觀察結果。

3.1觀察

正如大多數先前的工作中所指出的，良好的顯著目標檢測網路應該足夠深，以便可以學習多級特徵。此外，它應該具有不同步幅的多個階段，以便從不同尺度學習更多固有特徵。這種要求的一個很好的候選者可能是HED網路[26]，其中在VGGNet中每個階段的最後一個卷積層之後添加了一系列輸出層[28]。然而，實驗結果表明，這種結構並不適合目標檢測。圖1提供了這樣的說明。造成這種現象的原因有兩個。一方面，需要均勻區域的顯著性檢測與需要特殊處理的邊緣檢測完全不同。一個好的顯著性檢測演算法應該能夠從影象中提取最具視覺特色的目標和區域，而不是簡單的邊緣資訊。另一方面，從較低階產生的特徵過於複雜，並且從較深輸出層獲得的顯著性圖不規則。

為了克服上述問題，我們提出了一種自上而下的方法，可以合理地結合低階和高階特徵，以實現準確的顯著性檢測。以下小節專門用於詳細描述所提出的方法。

3.2基於HED的顯著性檢測

為了更好地理解我們提出的方法，我們從標準的HED體系結構[26]以及它的擴充套件版本開始，這是這項工作的一個特例，用於顯著的物件檢測，並逐漸轉移到我們提出的體系結構。

3.2.1 HED體系結構

在HED架構[26]中，引入了5個側輸出，每個側輸出直接連線到每個級的最後一個卷積層。令T = {（Xn，Zn），n = 1，...，N}表示訓練資料集，其中Xn = {x（n）j，j = 1，...，| Xn |}是輸入影象和Zn = {z（n）j，j = 1，...，|Xn|}，z（n）j∈[0,1]表示Xn的相應連續標籤顯著性圖譜。結果，為了方便符號，我們省略了下標n，因為我們假設輸入都是相互獨立的。我們將所有標準網路層引數的集合表示為W.在不失一般性的前提下，進一步假設存在有M邊輸出。每個邊輸出都與一個分類器相關聯，其中對應的權值可以表示為w =（w（1），w（2）,…,w（M））。
因此，HED的側目標函式可以由

其中αm是第m側損失的權重，l（m）side表示第m側輸出的影象級類平衡交叉熵損失函式[26]。此外，還添加了一個加權融合層，以更好地捕捉每一側輸出的優點。融合層的融合損失可表示為

其中f =（f1，...，fM）是融合權重，A（m）side是第m側輸出的啟用，h（·）表示S形函式，σ（·，·）表示標籤與融合預測之間的距離，即設定為影象級平衡的交叉熵損失[26]。因此，最終損失函式由

HED將每個側輸出連線到VGGNet[28]的每個級中的最後一個卷積層，分別為conv1_2，conv2_2，conv3_3，conv4_3，conv5_3.每個側輸出由單通道卷積組成卷積核大小為1×1的層，後跟上取樣層，用於學習邊緣資訊。

3.2.2增強型HED架構

在本部分中，我們擴充套件了HED架構以進行顯著目標檢測。在我們的實驗中，我們觀察到更深的層可以更好地定位最顯著的區域，因此基於HED的體系結構，我們將另一側輸出連線到VGGNet中的最後一個池化層（pool5）[28]。此外，由於顯著目標檢測是一種更加困難的任務檢測方法，我們還可以在每個側輸出中使用不同卷積核通道和空間大小的其他卷積層，如圖4所示。

我們使用與HED中相同的雙線性插值操作進行上取樣。我們還使用標準的交叉熵損失並計算訓練影象中所有畫素的損失函式X = {xj，j = 1，...，|X|}和顯著性圖譜Z = {zj，j = 1，...，|Z|}。我們的損失函式可以定義如下：

其中

表示第m側輸出中位置j的啟用值的概率，可以通過h（a（m）j）計算，其中

`A（m）side = {a（m）j，j = 1，...，| X |}是第m側輸出的啟用。與[26]類似，我們新增加權融合層來連線每一側啟用。在我們的例子中，融合層的損失函式可以表示為

其中`A（m）side是第m側輸出的新啟用，M = M + 1，`σ（·，·）表示標籤對映圖與新融合預測之間的距離，其具有與方程(4)相同的形式。

原始HED和增強HED之間的相應的目標檢測結果如圖7所示。可以很容易地發現，已經實現了大約3％的改進。儘管有這樣的改進，如圖1所示，較淺的側輸出的顯著性圖譜仍然看起來很亂，而較深的側輸出也產生不規則的結果。此外，較深的側輸出確實可以定位顯著的物件，但仍然丟失一些詳細資訊。

3.3短連線

我們的方法的洞察力是更深的側輸出能夠找到顯著區域的位置，但是以犧牲細節的損失為代價，而較淺的側面輸出側重於低級別的特徵，但缺乏全域性資訊。這些現象激勵我們利用以下方式適當地組合不同的側輸出，以便可以提取最具視覺特色的物件。

3.3.1公式化

在數學上，我們在第m側輸出的新側啟用~R（m）side可以給出

其中rmi是從側輸出i到側輸出m（i> m）的短連線的權重。我們可以通過直接將rmi設定為0來退出一些短連線。新的側損失函式和融合損失函式可以分別用

其中r = {rmi}，i> m。注意，這次~l（m）side表示我們在方程式（4）中定義的標準交叉熵損失。因此，我們新的最終損失函式可寫為

3.3.2結構

新架構的主幹是增強型HED，已在第3.2.2節中描述。圖5說明了如何構建從側輸出4到側輸出2的短連線。側輸出3和4中的得分圖首先通過簡單的雙線性插值進行上取樣，然後在輸出2的內部連線到原始線圖。雙線性插值的超引數可以根據上下文。由於顯著目標檢測是類不可知的任務，我們進一步加權前面的得分圖，其已被圖5中的虛線邊界框包圍，並引入另一個1×1卷積層作為側輸出2的新得分圖。類似的方法可用於連線多個短連線的側輸出。例如，讓我們假設3個短連線連線到側輸出2.在虛線邊界框內將有4個得分圖連線在一起。

我們的架構在功能上可以被認為是兩個緊密相連的階段，我們分別稱之為顯著性定位階段和細節改進階段。顯著性定位階段的主要焦點是尋找給定影象中最顯著的區域。有關詳細資訊，我們將介紹一種自上而下的方法，即從較深的側輸出層到較淺的側輸出層的一系列短連線。這種考慮的原因是，在較深的邊資訊的幫助下，較低的側輸出既可以準確地預測顯著的物件，又可以從較深的側輸出中重新獲得結果，從而產生密集且準確的顯著圖。我們通過執行一系列消融實驗並在下一節中顯示相應的定量和視覺結果，進一步測試了我們提出的架構的有效性。

3.4實施細則

我們的網路基於公共可用的Caffe庫[52]和公開的FCN[29]。如上所述，我們選擇VGGNet [28]作為我們預先訓練的模型，以便與其他作品進行更好的比較。

3.4.1推論

儘管引入了一系列短連線，但由較深和較淺側輸出產生的預測圖的質量仍然不能令人滿意。關於這個事實，在測試階段，我們採用這些側輸出的更復雜的組合。令~Z1,…,~Z6分別表示每個側輸出的得分圖。它們可以通過~Zm=h（~R（m）side）來計算。回想一下，在我們的例子中，h（·）是sigmoid函式。因此，可以通過

來計算融合輸出對映圖.

為了避免由最深和最淺側輸出的預測圖質量差引起的負面影響，我們還使用~Z2，`Z3和`Z4來幫助進一步填寫丟失的細節。因此，推理期間的最終輸出對映可以表示為

令人驚訝的是，我們發現這樣的組合確實有助於稍微改善結果。這是因為儘管融合輸出圖包含每個側輸出的聚合，但仍然遺漏了融合輸出圖中的一些詳細資訊。關於每個側輸出圖的質量（見圖1），我們決定使用等式（11）作為最終輸出圖。

3.4.2平滑方法

雖然我們的模型可以精確地找到影象中的顯著物件，但是對於那些複雜的場景，仍然會丟失所得到的顯著圖的邊界資訊。為了進一步提高顯著圖的空間連續性和質量，我們採用全連線的條件隨機場（CRF）方法[53]作為推理階段的選擇層。

CRF的能量函式由

給出.

其中x是畫素的標籤預測。為了使我們的模型更具競爭力，我們沒有直接使用預測圖作為一元項的輸入，而是使用下面的一元項

其中`Si表示畫素xi的歸一化顯著值，h（·）是S形函式，τ是尺度引數。成對電位定義為

其中，如果xi ≠ xj，則μ（xi，xj）= 1，否則為零。Ii和pi分別是畫素值和xi的位置。引數w1，w2，σα，σβ和σγ控制每個高斯核的重要性。

在本文中，我們使用[53]，稱為PerDenseCRF . 由於在我們的例子中只有兩個類，所以我們直接使用推匯出的每個畫素的後驗概率作為最終的顯著性圖。

3.4.3引數

在這項工作中使用的超引數包括學習率（1e-8），權重衰減（0.0005），動量（0.9），每個側輸出（1）的損失權重。我們使用全解析度影象來訓練我們的網路，並且將小批量大小設定為10.新新增的卷積層中的卷積核權重全部用隨機數初始化。我們的融合層權重在訓練階段都用0.1667初始化。全連線CRF中引數使用驗證集上的交叉驗證來確定。在我們的實驗中，τ設定為1.05，並且w1，w2，σα，σβ和σγ分別設定為3.0,3.0,60.0,8.0和5.0。

4實驗和分析

在本節中，我們將介紹使用的資料集和評估標準，並報告我們提出方法的效能。此外，還進行了大量的消融實驗，分析了我們方法中每個元件的重要性。

4.1資料集

我們評估我們對5個代表性資料集的方法，包括MSRA-B [43]，ECSSD [54]，HKU-IS [47]，PASCALS [55]和SOD [56]，[57]，所有這些都可以線上獲得。這些資料集都包含大量影象以及分段良好的註釋，並且最近已被廣泛使用。 MSRA-B包含來自數百個不同類別的5,000張影象。由於其多樣性和大量，MSRA-B已成為顯著目標檢測文獻中使用最廣泛的資料集之一。此資料集中的大多數影象只有一個顯著物件，因此它逐漸成為評估處理簡單場景的能力的標準資料集。ECSSD包含1,000個語義上有意義但結構複雜的自然影象。HKU-IS是另一個包含超過4000個具有挑戰性的影象的大型資料集。此資料庫中的大多數影象都與更多的影象對比。PASCALS包含850個挑戰影象（每個由多個物件組成），所有這些都是從PASCAL VOC 2010分割資料集的驗證集中選擇的。我們還在SOD資料集上評估我們的系統，SOD資料集是BSDS資料集的子集。它包含300個影象，其中大多數具有多個顯著物件。所有這些資料集都包含地面實況人類註釋。為了保持評估的完整性並與現有方法進行公平比較，我們使用與[25]中相同的訓練和驗證集，並使用相同模型測試所有資料集。

4.2評估指標

我們使用三個普遍認可的標準度量（參見[23]，[23]，[41]，[58]）來評估我們的模型，包括PR曲線，F-度量和平均絕對誤差（MAE）。對於給定的連續顯著性圖譜S，我們使用閾值將其轉換為二元掩碼B.然後將其查準率和查全率分別計算為precision = |B∩Z|/| B |和recall = |B∩Z|/| Z |，其中,|·|累積掩碼中的非零條目。在給定資料集的顯著性圖上平均精度和召回值產生PR曲線。

為了全面評估顯著性圖的質量，使用F測量度量，其被定義為

根據之前的工作，為了強調精度值的重要性，我們選擇β2為0.3。

設`S和`Z表示連續的顯著性圖譜和標籤值，歸一化為[0,1]。平均絕對誤差（MAE）分數可以計算為

4.3消融分析

我們嘗試了不同的設計選項和不同的短連線模式，以說明我們方法的每個元件的有效性。

4.3.1各種短連線模式

我們的結構如圖3所示是如此靈活，可以被視為大多數現有體系結構的通用模型，如圖2所示。

為了更好地展示我們提出的方法的優勢，我們使用圖2中列出的不同網路架構進行顯著目標檢測。除了Hypercolumns架構[37]和基於HED的架構[26]，我們使用我們提出的方法實現三種代表性模式。第一個公式如下，與圖2(d)相似。

第二個模式表示如下，它比第一個要複雜得多。

最後一個模式，本文使用的模式，是由

定量結果如圖7所示。從圖7中可以看出，通過在每個側輸出中增加另一個側輸出和兩個額外的卷積層，我們在F-測量的效能增益為2.5個點。此外，隨著短連線的增加，我們的方法逐漸實現了更好的效能。雖然與增強型HED結構相比，使用模式1時沒有獲得性能增益，但是當我們轉向模式2時，可以獲得0.8點的增益。當考慮模式3時，也可以獲得另外0.6點的增益。

4.3.2側輸出層的細節

我們進行了幾次消融實驗，以探索最佳的側輸出設定。每個實驗中每個側輸出層的詳細資訊如圖6所示。我們使用圖7中的模式3作為我們的基線模型。為了突出不同引數的重要性，我們採用僅改變一個引數的變數控制方法。此外，所有結果都在PASCALS資料集上進行了公平比較。與第四個實驗相比，第一個實驗利用了更多的通道，但獲得了相同的F-測量核。這表明每個側輸出的更多通道不能帶來額外的效能增益。在第二個實驗中，我們嘗試減少1個卷積層，然後將其外部輸出降低，從而使得效能降低1.5個點。儘管有小的減少，但足以說明在每個側輸出中引入兩個卷積層的重要性。此外，我們嘗試減少更深側輸出中的較大卷積核的大小。同樣，這會導致F測量值略有下降。以上所有實驗都表明我們使用的
側輸出設定是合理和合適的。

4.3.3上取樣操作

在我們的方法中，我們使用網內雙線性插值在每個側輸出中執行上取樣。正如在[29]中實現的那樣，我們使用固定反捲積的卷積核來實現具有不同步幅的側輸出。由於深側輸出層生成的預測圖不夠密集，我們也嘗試使用“洞演算法”使深側輸出中的預測圖更加密集。我們採用與[35]中相同的技術。但是，根據我們的實驗，使用這種方法會產生更差的效能。我們注意到，隨著融合預測圖變得更密集，一些非顯著畫素被錯誤地預測為顯著畫素，即使此後使用CRF。驗證集上的F-測量分數下降了近1%。

4.3.4資料擴充

事實證明，資料增強在許多基於學習的視覺任務中非常有用。正如在大多數先前的工作中所做的那樣，我們水平地掃描所有訓練影象，導致增大的影象集比原始影象集大兩倍。我們發現這種操作進一步將效能提高了0.5％以上。此外，我們還嘗試將輸入的影象裁剪為固定大小的321*321。然而，實驗結果表明，這樣的操作會使我們的效能下降0.5個百分點以上。這可能是因為具有完整大小的輸入影象包含更豐富的資訊，允許我們的網路更好地捕獲顯著物件。

4.3.5不同的主幹

我們還通過將ResNet-101 [59]替換為VGGNet來擴充套件我們的工作。考慮到ResNet-101的網路結構，我們只使用圖4中的底部5側輸出，它們分別連線到conv1，res2c，res3b3，res4b22和res5c。我們保持其他設定不變。我們在圖10的底部顯示結果。使用相同的訓練集，平均每個資料集的F-測量得分進一步改善。

4.3.6提出的CRF模型

大多數先前的工作[35]，[53]僅使用負對數似然性，並且使用它們的CRF模型。與它們不同，我們引入了一個調製因子，旨在給出正面預測更多的信心，如公式（13）。這是合理的，因為大多數預測通過觀察MAE分數是正確的。在我們的實驗中，我們發現新增這樣的調節因子對改善F測量分數幾乎沒有幫助，但能夠進一步降低MAE評分（即減少錯誤預測）約0.3分。

4.4與現有技術的比較

我們將提出的方法與最近的7種基於CNN的方法進行了比較，包括MDF [47]，DS [60]，DCL [35]，ELD [50]，MC [49]，RFCN [51]和DHS [36]。還考慮了四種經典方法，包括RC [41]，CHM [61]，DSR [62]和DRFI [25]，它們已被證明是Borji等人[23]基準研究中的最佳方法。值得一提的是，雖然如圖14所示，雖然更多的訓練影象能夠為我們帶來更好的結果，但我們的結果仍然是來自
MSRAB資料集的2500個訓練影象，以便與現有作品進行公平比較。

4.4.1視覺比較

為了展示我們提出的方法與上述方法相比的優越性，我們選擇了來自不同資料集的多個代表性影象，這些影象包含各種困難環境，包括複雜場景，具有中心偏差的顯著物體，具有不同尺寸的顯著物體，低對比度在前景和背景等之間，以及在圖8中顯示視覺比較。我們手動將所選影象分成多個組，這些組由實線分開。我們還為每個組提供多個描述其屬性的標籤。考慮到所有情況，可以很容易地看出，我們提出的方法不僅僅是高亮度的顯著區域，而且還會產生連貫的邊界。值得一提的是，由於連線短，我們的方法為顯著區域提供了更多的信心，在顯著物件和背景之間產生了更高的對比度。更重要的是，它產生了連通區域，極大地增強了我們模型的能力。在圖8所示的幾乎所有情況下，這些優點都可以得到各種各樣的理論，因此比其他方法更好。

4.4.2 PR曲線

我們在這裡將PR方法與現有方法進行比較。在圖9中，我們描繪了由我們的方法和先前的3種流行資料集上最先進的方法產生的PR曲線。很明顯，基於FCN的方法基本上勝過其他方法。更重要的是，在所有基於FCN的方法中，我們方法的PR曲線在座標的左上角尤其突出。我們還可以發現，當查全率得分接近1時，我們的方法的精確度要高得多，反映出我們的誤報遠低於其他方法。這也表明我們在短連線方面結合低階和高階特徵的策略是必不可少的，這樣得到的顯著性圖更接近於標籤。

4.4.3 F-measure和MAE

我們還將我們的方法與現有方法在F-測量和MAE分數方面進行了比較。定量結果顯示在圖10中。可以看出，我們的方法在所有資料集上實現了最佳得分（最大F-測量和MAE），如圖10所示。在ECSSD和SOD資料集上，我們的方法將當前最好的F-measure提高了1點，這是一個很大的差距，因為這些值已經非常接近理想值1。關於MAE評分，我們的方法在MSRA-B和PASCALS資料集上實現了超過1個點的減少。在其他資料集上，仍有至少0.09點的改進。這意味著我們案例中錯誤預測的數量明顯少於其他方法。此外，我們還觀察到所提出的方法在更加困難的資料集上表現得更好，例如HKUIS [47]，PASCALS [55]和SOD [56]，[57]，其中包含大量具有多個顯著物件的影象。這表明我們的方法能夠檢測和分割最突出的物件，而其他方法通常在這些階段中的一個階段失敗。

4.5顯著性的存在

迄今為止，大多數現有的顯著目標檢測方法關注於存在至少一個顯著物件的資料集。但是，在許多實際場景中，顯著物件並不總是存在。因此，當應用於沒有任何顯著物件的場景時，基於上述假設的方法可能容易導致不正確的預測結果。為了解決這個問題，我們建議在網路中引入另一個分支來預測輸入影象的顯著性。新的分支由一個全域性平均池化層組成，其後是多層感知器（MLP），並且在很多分類網路中都存在許多因素，並且存在許多分類網路[28]，[59]。全域性平均池化層用於將具有不同形狀的特徵圖轉換為相同的大小，以便將得到的特徵向量饋送到MLP中。與[28]，[32]一樣，MLP在這裡由三個全連線層組成，所有這些層都有1024個神經元，除了最後一個有兩個神經元。softmax損失用於優化新分支。

在我們的實驗中，我們使用與[63]中相同的訓練集，其中包含5000個背景影象（即其中沒有顯著物件的影象）和來自MSRA10K的5000個影象[41]. 對於這些背景影象，突出的目標檢測模組的梯度不允許反向傳播，這樣產生的預測圖就不會受到干擾。我們發現這項操作至關重要。這裡使用的超引數與我們的顯著目標檢測實驗相同。我們訓練我們的網路進行24,000次迭代，並在20,000次迭代時將學習率降低10倍。我們在三個資料集上測試我們的模型，包括JSOD [63]，MSRA-B [43]和ECSSD [54]。圖11列出了與另外兩個SSVM [63]和Wang等人[64]的工作相比較的結果。由於JSOD資料集（主要包含純紋理）與其他兩個資料集（MSRAB和ECSSD主要包含具有明顯顯著目標的影象）之間存在明顯分離，因此所有資料集的分類結果已經飽和（非常接近理想值） 1” ）。因此，我們期待更多具有挑戰性的實際情況，在不久的將來，世界各地的困難將得到發展。

4.6時間安排

我們的網路是完全卷積的，與大多數先前的顯著目標檢測方法相比，它可以非常快速地執行。在對包含2,500個訓練影象的MSRA-B資料集進行培訓時，我們的網路在12,000次迭代中花費的時間不到8小時。有趣的是，儘管10,000次迭代足以實現收斂，但我們發現另外2,000次迭代仍然在MAE中帶來了小的效能提升。在推理階段，我們需要大約0.08秒來處理大小為300×400的輸入影象。這比以前的大多數作品都要快得多，比如DCL [35]，每張相同尺寸的影象需要1s以上。考慮到CRF層，還有0.4秒需要的。因此，對於尺寸為300*400的影象，我們的總時間成本不到0.5s.

5討論

在本節中，我們對提出的方法進行了有用的分析，我們認為這將有助於研究人員開發更強大的方法。

5.1失敗案例分析

我們方法的一些失敗預測已經在圖12中示出。可以看出，這些失敗案例通常可以分為三種情況。第一個是基於cnn的顯著目標檢測方法的常見缺陷，在這種方法中顯著目標不能完全分割出來，只遺漏了一小部分顯著性目標。典型的例子是圖12的第一行中所示的影象。在第二種情況下，不能提取顯著物件的主體或預測非顯著區域是顯著的。如圖12的中間一行所示，這種情況主要是由複雜的背景和非常低的對比度引起的。最後一種型別的故障情況是由透明物體引起的，如圖12底部所示。雖然我們的方法可以檢測到透明物件的某些部分，但是將完整物件分割出來仍然是非常困難的。

我們認為可以使用三種可能的補救方法解決上述問題。首先，假設解決方案是提供更多關於分段級別的先驗知識，以便可以同時檢測具有相似紋理或顏色的區域。由於CNN的內部結構，得分圖中兩個位置的相關性由前一層的可學習權重決定，使得該問題難以通過網路自身來解決。段級資訊允許CNN糾正在環境1中那些錯誤的預測。此外，段級資訊還可以作為後處理工具，通過簡單的投票策略進一步細化預測的顯著性地圖。其次，需要展示更強大的訓練資料，包括簡單和複雜的場景。如圖14所示，複雜場景下的訓練資料可以大大提高簡單和困難資料集的效能。另一個解決方案應該是設計更高階的模型，然後提取更強大的特徵表示形式,來處理複雜結構的複雜輸入[65]。

5.2基準訓練集

訓練集的選擇是基於學習演算法的一個重要方面。一個好的訓練集肯定會提高學習能力，導致一個更有創造力的模型，可以在幾乎所有場景中表現良好，即使有複雜的背景。然而，最近基於學習方法的訓練集是不同的，並且這些工作都沒有探索哪個訓練集是最好的。圖10列出了現有方法使用的不同訓練集的細節。此外，對不同大小的不同資料集進行訓練使得比較不公平。儘管訓練影象的數量與效能增益不成比例，但是不同訓練集的大小和質量打破了不同方法之間的公平比較。從圖10中可以看出，有些人只使用了包含2500張圖片的訓練集，而有些人使用了大約10000張圖片進行訓練。

在本節中，我們試圖深入分析基於我們所提出的方法使用不同資料集進行訓練的效果。我們的目標是在現有資料集的基礎上，為未來的研究提供一個新的、統一的、令人信服的、大規模的訓練集。為此，我們進行了一些實驗，並對6個廣泛使用和公開可用的資料集進行了詳盡的比較，如圖13所示。請注意，所有訓練列表都將公開提供。在測試階段，我們使用最大F-測量分數和MAE分數作為度量指標。注意，由於大多數資料集包含5000多幅影象，因此每個模型都經過了16000次迭代的訓練。一個例外是在ECSSD上經過6000次迭代訓練的模型。

5.2.1資料集質量測量

為了更好地顯示資料集的質量，每次我們訓練其中一個，除了SOD資料集只有300個影象和PASCALS資料集低一致性行為，並對所有測試集進行測試。由於ECSSD包含的影象少於2,000個，因此所有影象都用於訓練，因此不會留下任何影象進行測試。對於其餘的大型資料集，如果提供了預設分割，那麼它們將被直接使用。否則，我們將資料集按6:1:3的比例分別進行訓練、驗證和測試。

詳細的實驗結果如圖13所示。由於MSRA-B和MSRA10K資料集之間存在較大的重疊，我們僅在MSRA-B上顯示結果，而不是兩者。根據圖13所示，可以得出以下結論。首先，每個資料集的最佳結果總是通過對相應訓練集的訓練獲得，並且該現象特別明顯為DUT-OMRON。這可能是由於每個資料集中的影象特徵引起的，使得不同的資料集有不同的特徵。因此，我們認為直接比較在不同資料集上訓練的不同模型所獲得的效能值是不合適的(參見圖13)。第二,有更多的訓練影象不一定意味著更好的表現。從圖13可以看出，ECSSD資料集上訓練可以使我們在SOD資料集上獲得最好的效能，儘管只有1000張訓練影象。針對上述問題，折衷的解決方案是構建一個統一的、複合的、通用的資料集。

5.2.2超越單個數據集的訓練

我們選擇了圖13中的4個數據集來構建比較。雖然MSRA10K比MSRA-B資料集大兩倍以上，但與MSRA-B資料集訓練相比，訓練有素的模型具有競爭力。在這裡，我們只保留MSRA-B進行訓練，因為它具有高質量的影象和註釋。因此，在圖14的第二列中總共顯示了11種不同的組合。在測試階段，我們還使用上述六種測試組進行公平比較。

從圖14的結果來看，後續的結論可以用來描述。首先，大範圍的設定並不一定意味著更高的測試效能。通過比較方案3和其他方案可以觀察到這種現象。儘管只有3,500個訓練影象，但這種組合比具有6,000多個訓練影象的組合表現更好。確實，註釋的質量可能是導致這種問題的重要原因。但是，這種考慮超出了本文的範圍。這裡的所有結論都是基於我們使用的每個資料集都具有良好分段的註釋的假設。

其次，與單個數據集相比，資料集的不適當組合可能導致更差的效能。通過比較方案4和0，可以發現儘管在HKU-IS，PASCALS和SOD資料集上具有更好的效能，但在MSRA-B和DUT-OMRON資料集上進行測試時仍然會略有下降。通過這些實驗，我們強調，具有大量影象的訓練集可能無法帶來更好的效能提升。一個好的訓練集應該考慮儘可能多的案例。但是，由於現有資料集的多樣性，很難獲得能夠表現出所有現有資料集之間一致性的令人信服的資料集。關於顯著目標檢測的當前狀態，我們建議使用圖14中的方案11作為公平比較的訓練集，並確定由不同訓練集引起的效能偏差。顯著目標檢測中的另一個嚴重問題是大多數資料集不再具有挑戰性。顯而易見的是，由於現有資料集的效能接近，不同模型之間的差異難以區分。我們希望具有複雜場景和高度一致性的更具挑戰性的資料集將在未來展現出來。

6 結論

在本文中，我們提出了一個深度監督的顯著目標檢測網路。我們不是將損失層直接連線到每個階段的最後一層，而是在較淺和較深的輸出層之間引入一系列短連線。利用這些短連線，每個輸出層的啟用都能夠突出顯示相應的物體並準確定位其邊界。全連線的CRF也用於糾正錯誤的預測並進一步改善空間一致性。我們的實驗表明，這些機制可以在各種影象上產生更準確的顯著性圖。我們的方法顯著地推進了最先進的技術，並且能夠在完全複雜的區域內捕獲顯著區域，這進一步證明了所提出的架構的優點。