1. 程式人生 > >Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Sal

Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Sal

問題:

作者認為,顯著性目標檢測領域迄今為止的工作解決的是一個相當病態的問題。即不同的人對於什麼是顯著性目標沒有一個普遍的一致意見。這意味著一些目標會比另一些目標更加顯著,並且不同的顯著性目標中存在著一個相對排名。

本文方法:

本文方法解決了考慮了相對排名這個更普遍的問題,並且提出了適合於衡量該問題的資料與度量方法,本文解決方案是基於相對顯著性和分段式細化的分層表示的深度網路。該網路也可以解決顯著性目標計數問題。

主要貢獻:

1.提出一個端到端網路用以解決多個顯著物件檢測問題,並根據物件的顯著程度進行排序。

2.提出階段性細化機制,在該結構上逐步恢復更精細結構的預測。

 

以下為論文翻譯(如有疏漏還望諒解)

摘要

目標顯著性檢測是一個已經詳細考慮的問題,並且提出了許多解決方案。在本文中,我們認為迄今為止的工作已經解決了一個相對病態的問題。具體而言,沒有普遍的協議關於在查詢多個觀察者時什麼構成顯著物件。這意味著某些物件比其他物件更容易被判斷為顯著,並且暗示在顯著物件上存在相對等級。本文提出的解決方案解決了考慮相對等級的這個更普遍的問題,並且我們提出了適合於衡量相對物件顯著性格局中的成功的資料和度量基於相對顯著性和階段式細化的分層表示,提出了一種新穎的深度學習解決方案。我們還表明,可以使用相同的網路解決顯著物件子化的問題,並且我們的方法超出了所有考慮的所有指標(傳統和新提出的)的任何先前工作的效能。

1.簡介

顯著物體檢測中的大多數工作都考慮單個顯著物體[37,38,7,8,31,32,9,19,17,24,39,18]或多個顯著物體[13,27,36] 但是並不認為突出的東西可能因人而異,某些物體可能會因其重要性而得到更普遍的一致。

缺少資料,包括由多個觀察者手工分割的顯著物件。 重要的是要注意,由少數觀察者(包括一個)提供的任何標籤都不允許辨別物體的相對重要性。 基於凝視資料[33]的相對顯著性的隱式分配也給出了困難,給出了不同的認知過程而不是涉及手動標記的計算決策[16]。 此外,注視資料對於解釋諸如中心偏差,視覺運動約束和其他潛在因素等給定因素是相對具有挑戰性的[2,1]。

圖1.我們以深度神經網路的形式提出一個解決方案來檢測顯著物件,考慮這些物件顯著性的相對排序,並預測顯著物件的總數。左向右:輸入影象,檢測到的顯著區域, 顯著物件的等級順序,顯著物件計數的置信度得分(子化)。 顏色表示不同顯著物件例項的排名順序。

因此,在本文中,我們更廣泛地考慮了顯著物件檢測的問題。 這包括檢測影象中的所有顯著區域,並通過為不同的顯著區域分配置信度來解釋觀察者間的變異性。 我們通過進一步處理來增加PASCAL-S資料集[23],以便以相對顯著性的形式提groundtruth。 除了傳統度量之外,基於顯著物件相對於groundtruth排序的等級順序,針對其他演算法測量成功。 最近的工作也考慮了顯著物件的次級化問題。 我們的觀點是,這種確定應該可以通過提供顯著物體檢測的模型來實現(見圖1)。 我們還允許我們的網路進行細分。

總的來說,我們的工作概括了顯著物件檢測的問題,我們提出了一個新的模型,根據這個問題的傳統形式,多個顯著物件檢測和相對排序,以及子化,提供顯著物件的預測。 我們的結果顯示了所考慮的所有問題的最新效能。

2.背景

2.1顯著性目標檢測

卷積神經網路(CNN)已經提高了計算機視覺中許多問題的效能標準,包括顯著物件檢測。 基於CNN的模型能夠提取比現代工作中使用的手工製作的功能更具代表性和複雜性的功能[21,34,15],這些功能促進了廣泛採用。

一些基於CNN的方法利用超畫素和物件區域提議來實現準確的顯著物件檢測 [9,19,17,22,39,18]。 這些方法遵循多分支架構,其中CNN用於跨不同抽象級別提取語義資訊以生成初始顯著性預測。 隨後,新增新分支以獲得超畫素或物件區域提議,其用於提高預測的精度。

作為超畫素和物件區域提議的替代方案,其他方法[26,8,37]通過聚合多級特徵來預測每畫素的顯著性。羅等人。 [26]通過CNN整合本地和全球特徵,CNN結構為多解析度網格。侯等人[8]在淺層和深層特徵圖之間實現階段式短連線,以實現更精確的檢測,並推斷出僅考慮中間層特徵的最終顯著性圖。張等人[37]將多級特徵組合為提示,以生成和遞迴微調多解析度顯著圖,這些顯著圖通過邊界保留細化塊進行細化,然後融合以產生最終預測。

其他方法[24,31,38]使用端到端編碼器 - 解碼器架構,該架構產生初始粗略顯著圖,然後逐級細化它以提供顯著物件的更好定位。 Liu和Han [24]提出了一種將區域性上下文資訊逐步與粗略顯著圖相結合的網路。王等人[31]提出了一種用於顯著性檢測的迴圈完全卷積網路,其包括用於校正初始顯著性檢測錯誤的先驗。張等人[38]在特定卷積層之後引入重新形成的丟失以量化卷積特徵中的不確定性,以及用於減少反捲積偽像的新的上取樣方法,從而為顯著物件檢測提供了更好的邊界。

與上述方法相反,我們通過應用新穎的機制來控制通過網路的資訊流,通過逐步細化來實現空間精確度,同時還重要地包括隱含地攜帶確定相對顯著性所必需的資訊的堆疊策略。

2.2顯著性目標的細化

最近的工作[35,7]也解決了影象中對顯著物件進行細分的問題。 此任務涉及計算顯著物件的數量,而不管其重要性或語義類別。 [35]中提出的第一個顯著物件子網格網路應用前饋CNN將問題視為分類任務。 He等人 [7]通過探索數字和空間表示之間的相互作用,將子化任務與檢測結合起來。 我們的建議提供了對顯著物件數量的具體確定,識別該數量的可變性,並且還提供輸出作為反映這種可變性的分佈。

3.提出的網路結構

我們提出了一個新的端到端框架,用於解決檢測多個顯著物件的問題,並根據物件的顯著程度對物件進行排序。我們提出的顯著物體檢測網路的靈感來自卷積 - 反捲積通道[28,24,12]的成功,其中包括用於初始粗略水平預測的前饋網路。然後,我們提供階段性的細化機制,在該機制上逐漸恢復更精細結構的預測。圖2顯示了我們提出的網路的總體架構。編碼器階段用作特徵提取器,其將輸入影象轉換為豐富的特徵表示,而細化階段嘗試恢復丟失的上下文資訊以產生準確的預測和排名。

我們首先描述如何在3.1節中生成初始粗略顯著圖。接下來分別對3.2節和3.3節中的階段細化網路和多階段顯著圖融合進行詳細描述。

3.1粗預測前饋網路

最近應用於高階視覺任務的前饋深度學習模型(例如影象分類[6,30],目標檢測[29])採用由重複卷積階段和空間彙集組成的級聯。通過池化進行下采樣允許模型在編碼的最深階段實現具有相對較差的空間解析度的高度詳細的語義特徵表示,並且還通過範圍大得多的濾波器的空間覆蓋來標記。對於識別問題,空間解析度的損失不成問題;然而,逐畫素標記任務(例如,語義分割,顯著物件檢測)需要畫素精確資訊以產生準確的預測。因此,我們選擇Resnet-101 [6]作為我們的編碼器網路(基本構建塊),因為它在分類和分段任務方面具有優越的效能。按照畫素標記[3,12]的先前工作,我們使用擴張的ResNet-101 [3]來平衡語義上下文和精細細節,從而使輸出特徵圖減少8倍。更具體地說,給定輸入影象I\epsilon \mathbb{R}^{h\times w \times d},我們的編碼器網路產生一個大小為\left \lfloor \frac{h}{8} ,\frac{w}{8}\right \rfloor的特徵圖。為了通過自上而下的細化網路擴充編碼器網路的主幹,我們首先附加一個額外的卷積層和3×3核心和12個通道,以獲得巢狀相對顯著性堆疊(NRSS)​​。然後,我們附加一個Stacked Convolutional Module(SCM)來計算每個畫素的粗略水平顯著性得分。值得注意的是,我們的編碼器網路足夠靈活,可以替換為任何其他基線網路,例如: VGG-16 [30],DenseNet 101 [10]。此外,我們利用金字塔池化[3]來收集更多的全域性背景資訊。所描述的操作可以表示為:

I是輸入影象,(W,\Theta)表示卷積C的引數.S_{v}^{t}是階段t的粗級NRSS,其封裝了每個畫素的不同顯著程度(類似於預測可能同意一個物件的觀察者的比例是顯著的),S_{m}^{t}指的是粗級顯著著圖,並且\xi是指SCM。 Fs(·)表示由編碼器網路生成的輸出特徵對映。 SCM由三個卷​​積層組成,用於生成所需的顯著圖。初始卷積層有6個通道,3×3核心,後面是兩個卷積層,分別有3個通道,3×3核心和1個通道,1×1核心。 SCM中的每個通道為巢狀的相對顯著性堆疊的每個空間位置學習軟權重,以便基於它們屬於顯著物件的置信度來標記畫素。

3.2逐階段細化網路

已經顯示出顯著物件檢測成功的大多數現有作品[24,32,37,8]通常共享階段式解碼的共同結構以恢復每畫素分類。儘管編碼器的最深階段具有最豐富的特徵表示,但僅依靠解碼階段的卷積和解除池化來恢復丟失的資訊可能會降低預測的質量[12]。因此,可以從較早的表示逐漸恢復在最深層丟失的空間解析度。這種概念出現在所提出的基於細化的模型中,其包括編碼器和解碼器層之間的跳躍連線[25,12,37,8]。但是,如何有效地結合本地和全域性背景資訊仍然是值得進一步分析的領域。受基於細化的方法[25,11,12]的成功啟發,我們提出了一種基於多階段融合的細化網路,通過將初始粗略表示與早期層表示的更精細特徵相結合,在解碼階段恢復丟失的上下文資訊。細化網路由等級感知細化單元的連續階段組成,其嘗試在每個細化階段中恢復丟失的空間細節,並且還保持顯著物件的相對等級順序。每個階段細化單元將前面的NRSS與更早的更精細尺度表示作為輸入,並執行一系列操作以生成精細NRSS,其有助於獲得精細顯著圖。注意,細化分層NRSS意味著細化單元利用不同SCM級別的一致程度來迭代地提高相對等級和總體顯著性的置信度。作為最後階段,由SCM生成的精確顯著性圖被融合以獲得整體顯著性圖。

3.2.1秩感知細化單元

先前的顯著性檢測網路[32,24]通過直接整合來自早期特徵的表示來提出跨不同層次的改進。在[12]之後,我們將門單元整合在我們的秩感知細化單元中,該單元控制傳遞的資訊以濾除與圖形ground和顯著物件相關的模糊性。由前饋編碼器生成的初始NRSS(S_{v}^{t})為第一細化單元提供輸入。注意,可以將S_{v}^{t}解釋為解碼過程中的預測顯著性對映,但是我們的模型強制通道維度與標記顯著物件所涉及的參與者數量相同。細化單元採用由以下方法生成的門控特徵對映\zeta ^{t}:門單元[12]作為第二輸入。如[12]所示,我們通過組合來自編碼器網路的兩個連續特徵圖(f_{v}^{t}f_{v}^{t+1})來獲得\zeta ^{t}(參見圖2中的虛線框)。我們首先對前面的S_{v}^{t}進行上取樣,使其尺寸加倍。在上取樣的S_{v}^{t}\zeta ^{t}上應用由一系列操作組成的變換函式\tau _{f},以獲得精細的NRSS(S_{v}^{t+1})。然後我們將SCM模組新增到S_{v}^{t+1}之上以生成精確顯著圖S_{m}^{t+1}。最後,預測的S_{v}^{t+1}被饋送到下一級秩感知細化單元。請注意,我們只將NRSS轉發到下一階段,允許網路學習顯著物件的不同置信水平之間的對比。與其他方法不同,我們對細化的NRSS和精確的顯著性圖都進行監督。獲得精確NRSS的程式和所有階段的精確顯著性圖是相同的。所描述的操作可以總結如下:

其中u代表上取樣操作; w^{b}w_{s}^{b}分別表示變換函式\tau _{f}和SCM(等式中的\xi)的引數。 注意,t指的是細化過程的特定階段。

3.3多級顯著性圖融合

在細化單元的不同階段的預測顯著性圖能夠找到具有越來越尖銳邊界的顯著區域的位置。 由於所有秩感知細化單元彼此堆疊在一起,因此網路允許每個階段學習在細化過程中有價值的特定特徵。 這些現象促使我們將不同層次的SCM結合起來預測,因為它們之間的內部連線沒有明確地存在於網路結構中。 為了促進互動,我們在網路的末端新增融合層,該融合層連線不同階段的預測顯著性對映,從而產生融合特徵對映S_{m}^{\hat{f}}。 那麼,我們應用1×1卷積層\gamma生成我們網路的最終預測顯著性圖S_{m}^{T}。 請注意,我們的網路具有T個預測,包括一個融合預測和T-1個階段預測。 我們可以編寫如下操作:

其中ð表示跨渠道連線; wf是用於獲得最終預測的結果引數。

3.4Ground-truth的堆疊表示

顯著物件檢測或分割的ground-truth包含一組數字,用於定義每個畫素的顯著程度。生成二元掩模的傳統方法是通過閾值處理,這意味著沒有相對顯著性的概念。由於我們的目標是明確地模擬觀察者協議,因此使用傳統的二元groug-truth掩模是不合適的。為了解決這個問題,我們建議生成一組堆疊的圖,這些圖對應於不同的顯著性水平(由觀察者間協議定義)。給定ground-truth顯著圖\zeta _{m},我們得到N個ground-truth的堆疊\zeta_{v}\zeta _{i}\zeta_{i+1},.....,\zeta_{N}) 其中每個對映\zeta _{i}包括二進位制指示,該二進位制指示至少i個觀察者判斷物件是顯著的(以每畫素級別表示)。 N是標記顯著物件的不同參與者的數量。疊加的groundtruth顯著性對映\zeta_{v}為多個顯著物件提供了更好的分離(參見方程式(4)進行說明),並且自然地充當相對等級順序,允許網路學習專注於顯著程度。重要的是要注意疊加的ground-truth的巢狀性質,其中\zeta_{i+1}\subseteq\zeta _{i}。這在概念上是重要的,其中\zeta _{i}= 1\Leftrightarrow恰好與i個觀察者一致,導致ground-truth堆疊中的零層,以及基於一致程度的微小差異對ground-truth的大的改變。

3.5顯著性目標子化網路

以前的工作[35,7]將次級化視為一項簡單的分類任務。 與我們的多個顯著物件檢測網路類似,子網路化網路也基於ResNet-101 [6],除了我們刪除最後一個塊。 我們在末尾附加一個完全連線層,為輸入影象中存在的0,1,2,3和4+顯著物件中的每一個生成置信度分數,然後是另一個完全連線的層,從而為每個類別生成最終置信度分數。 這背後的原因是,單層允許積累與顯著性相關的置信度,而兩層允許推理相對顯著性。 我們使用我們預先訓練的檢測模型來訓練子化網路作為分類器,子化網路減少了ground-truth中的顯著物件數n和總預測目標數的兩個交叉熵損失l_{sub}^{1}(c,n)和l_{sub}^{f}(cf,n)。

顯著物件次級化的新資料集:由於顯著物件次級化不是一個廣泛解決的問題,因此建立了有限數量的資料集[35]。為了便於在更復雜的場景中研究這個問題,我們為Pascal-S資料集[23]建立了子化ground-truth,它提供了例項計數作為標籤。 Pascal-S資料集中關於不同類別的影象分佈如表1所示。從表中可以明顯看出,有相當數量的影象具有兩個以上的顯著物件,但只有少數影象具有超過七個。 我們最初在標籤過程中包括所有顯著物件的例項。 為了減少不同類別之間的不平衡,我們建立了另一個ground-truth集,我們只將影象分類為1,2,3和4+顯著物件。

表1.與Pascal-S資料集中不同數量的顯著物件相對應的影象的計數和百分比。 

3.6訓練網路

我們提出的網路在每個細化階段產生一系列巢狀相對顯著性堆疊(NRSS)​​和顯著性對映;但是,我們主要對最終的融合顯著性圖感興趣。鼓勵網路的每個階段通過利用先前的NRSS表示來重複產生具有越來越精細細節的NRSS和顯著性圖。我們在每個細化階段的輸出處應用輔助損耗以及在網路末端的總體主要損失。這兩種損失都有助於優化過程。更具體地說,令I\epsilon\mathbb{R}^{h\times w\times 3}是具有ground-truth顯著圖\zeta _{m}\in\mathbb{R} ^{h\times w}的訓練影象。如3.4節所述,我們生成一堆groundtruth顯著圖\zeta _{v}\in \mathbb{R}^{h\times w\times 12}。為了對NRSS(S_{v}^{t})和顯著圖S_{m}^{T}進行監督,我們首先將\zeta_{v}\zeta _{m}下采樣到每個階段生成的S_{v}^{t}的大小,在每個階段得到\zeta _{v}^{t}\zeta_{v}^{m}。然後,在每個細化階段,我們定義逐畫素歐幾里德損失\bigtriangleup _{S_{v}}^{t}\Delta _{S_{m}}^{t}分別測量(S_{v}^{t}\zeta _{v}^{t})和(S_{m}^{t}\zeta _{m}^{t})之間的差異。我們可以將這些操作概括為:

 其中x\in \mathbb{I}\mathbb{R}^{d}y\in \mathbb{I}\mathbb{R}^{d}(d表示空間解析度)是向量化的ground-truth和預測的顯著性圖。 xi和yi分別表示S_{v}^{t}\zeta _{v}^{t}的特定畫素。W表示整個網路的引數,N表示ground-truth片的總數(在我們的例子中N = 12)。 結合主和輔助損耗的網路的最終損失函式可寫為:

其中Lmas(W)是指在最終預測顯著圖S_{m}^{T}上計算的歐幾里德損失函式。 我們將所有階段的\lambda _{t}設定為1以平衡損失,這仍然是連續可微的。 每個預測階段都包含與兩個預測相關的資訊,允許我們的網路從深層傳播監督資訊。 這也開始於將權重與初始粗略表示對齊,從而導致粗略到精細的學習過程。 融合預測通常看起來比其他階段性預測好得多,因為它包含來自所有細化階段的聚合資訊。 對於顯著性推斷,我們可以簡單地將任意大小的影象提供給網路,並使用融合預測作為我們的最終顯著性圖。 

4.實驗

我們模型的核心遵循基於ResNet-101 [6]的結構,其具有預先訓練的權重以初始化編碼器部分。 提出了基本體系結構的一些變體,並且我們報告了以下變體的數字:RSDNet:該網路包括擴充套件的ResNet-101 [3] + NRSS + SCM。 RSDNet-A:該網路與RSDNet相同,除了ground-truth按比例縮放1000倍,鼓勵網路明確地學習更深層次的對比。 RSDNet-B:結構遵循RSDNet,除了添加了一個巨大的金字塔池模組。 RSDNet-C:RSDNet-B +ground-truth擴充套件。 RSDNet-R:RSDNet,具有逐級的秩感知細化單元+多級顯著圖融合。

4.1資料集和評估指標

資料集:Pascal-S資料集包括850個自然影象,其中多個複雜物件來自PASCAL VOC 2012驗證集[4]。我們將Pascal-S資料集隨機分成兩個子集(425用於訓練,425用於測試)。在該資料集中,顯著物件標籤基於使用12個參與者來標記顯著物件的實驗。實際上,所有用於顯著物件分割或檢測的現有方法將ground-truth顯著性閾值化以獲得二元顯著性圖。這個操作似乎有點武斷,因為閾值可能需要k個觀察者之間達成共識,並且k的值在不同研究之間變化。這是最常用的顯著物件分割資料集之一,但在具有由合理樣本大小的觀察者提供的多個明確標記的顯著區域方面是獨特的。由於這項工作的一個關鍵目標是對影象中的顯著物件進行排序,因此我們使用原始的ground-truth圖(每個畫素的值對應於認為它是顯著物件的觀察者的數量),而不是試圖預測基於可論證的有爭議的閾值處理過程的二進位制輸出。

評估指標:對於多重顯著物件檢測任務,我們使用四種不同的標準指標來衡量效能,包括精確召回(PR)曲線,F-測量(沿曲線最大),ROC曲線下面積(AUC)和平均絕對值誤差(MAE)。由於其中一些依賴於二元決策,我們根據認為物件顯著的參與者數量來確定ground-truth顯著性圖,從而產生12個二元ground-truth圖。對於每個二元ground-truth圖,預測顯著性圖的多個閾值允許計算真陽性率(TPR),假陽性率(FPR),精確度和召回率以及相應的ROC和PR曲線。鑑於在此工作之前的方法是基於變化的閾值進行訓練並考慮二元ground-truth圖,基於產生最佳AUC或F-測量分數的二元ground-truth圖來報告分數(並且顯示相應的曲線)。還報告了最大F-測量,平均F-測量和中值F-測量,以提供效能如何隨所選閾值而變化的感覺。我們還報告了MAE分數,即預測顯著性圖和產生最小分數的二元ground-truth圖之間的平均畫素差異。為了評估顯著物件的等級順序,我們引入了顯著物件排名(SOR) 度量,其被定義為Spearman在地面真實等級順序和顯著物件的預測等級順序之間的秩次順序相關性。為便於解釋,SOR分數歸一化為[0 1]。根據考慮整個資料集的每種方法的平均SOR分數報告分數。

4.2效能比較

評估顯著檢測模型的問題本身具有挑戰性,這導致所使用的基準之間的差異。鑑於這些考慮因素,我們應用於所有方法的具體評估旨在消除一種演算法相對於另一種演算法的任何優點。我們將我們提出的方法與最新的最新方法進行比較,包括Amulet [37],UCF [38],DSS [8],NLDF [26],DHSNet [24],MDF [18],ELD [17] ],MTDS [22],MC [39],HS [34],HDCT [15],DSR [21]和DRFI [14]。為了公平比較,我們根據[20]中提供的公開程式碼構建評估程式碼,我們使用模型作者提供的顯著性圖,或者通過執行帶有推薦引數設定的預訓練模型。
定量評估:表2顯示了我們模型的所有變體的效能得分,以及其他最近的顯著物件檢測方法。很明顯,RSDNet-R優於其他所有評估指標的近期方法,這確定了我們提出的有效性。從結果我們得到的基本觀察結果很少:(1)我們的網路在Pascal-S資料集上以相當大的差距改進了最大F-度量,這表明我們的模型足夠通用,可以實現更高的精度。更高的召回率(見圖3)。 (2)我們的模型降低了Pascal-S資料集的整體MAE,並且在ROC曲線(AUC)得分下獲得了比圖3中所示的基線更高的面積。(3)儘管我們的模型僅在一個子集上訓練Pascal-S,它明顯優於同樣利用大規模顯著性資料集的其他演算法。總體而言,該分析暗示了所提出的分層堆疊細化策略的優勢,以提供更準確的顯著性圖。此外,值得一提的是,RDSNet-R優於所有最近用於顯著物件檢測/分割的基於深度學習的方法,而沒有任何後處理技術,例如通常用於提升分數的CRF。

表2.方法的定量比較,包括AUC,最大F-測量(越高越好),中位數F-測量,平均F-測量,MAE(越低越好)和SOR(越高越好)。最好的三個結果是 分別以紅色,紫色和藍色顯示。 

圖3.左:ROC曲線對應於不同的最新方法。右:對應於各種演算法的顯著物體檢測的精確呼叫曲線。 

定性評估:圖4描繪了RSDNet-R與其他最先進方法的視覺比較。我們可以看到,我們的方法可以準確地預測顯著區域,並在各種挑戰中產生更接近地面真實圖的輸出 例如,觸控影象邊界的例項(第1和第2行),同一物件的多個例項(第3行)。 每個階段的巢狀相對顯著性堆疊提供了不同的表示,以區分多個顯著物件,並允許推斷它們的相對顯著性。

4.2.1檢測排序

 由於顯著的例項排名是一個全新的問題,因此沒有現有的基準。 為了促進研究這個問題的這個方向,我們有興趣從預測的顯著性圖中找到顯著物件的排名。 通過平均該例項掩碼內的顯著程度來獲得顯著例項的排序。

其中x代表預測顯著性圖(S_{m}^{T})的特定例項,\delta包含的畫素總數\rho _{\delta },並且\delta(xi,yi)指畫素(xi,yi)的顯著性得分。 雖然可能存在用於定義排名順序的替代方案,但這是分配該分數的直觀方式。 話雖如此,我們希望這是進一步探索問題的另一個有趣的細微差別; 特別是顯著性與規模,以及部分整體關係。 請注意,我們無需更改網路體系結構即可獲得所需的排名。 相反,我們使用提供的例項分割和顯著性對映來計算每個影象的排名。

 為了證明我們的方法的有效性,我們將總體排名得分與最近的最新狀態方法進行了比較。值得注意的是,沒有先前的方法報告顯著例項排名的結果。我們應用建議的SOR評估指標來報告不同模型如何衡量相對顯著性。表2中的最後一列顯示了我們的方法的SOR分數以及與其他最先進方法的比較。對於我們模型的最佳變體,我們獲得85.2%的相關性得分。所提出的方法在對多個顯著物件進行排序方面明顯優於其他方法,並且我們的分析表明學習顯著物件檢測在某種程度上隱含地學習排名,但是明確學習排名也可以改善顯著物件檢測,而不管如何定義基礎事實。圖5顯示了為顯著物件檢測設計的現有技術方法的定性比較。請注意,排名對三個以上物件的作用尤其明顯。

圖5.顯著物件的排名順序的定性描述。 相對等級由指定的顏色指示。 藍色和紅色影象邊框分別表示正確和不正確的排名。

4.2.2應用:顯著物件子化

如前所述,顯著物件檢測,排序和子化是相互關聯的。 因此,自然要考慮顯著區域預測和排名是否為子化提供指導。 進一步訓練檢測網路的副本以在Pascal-S上執行子化。 為簡單起見(並與先前的工作[35,7]一致),我們訓練我們的系統僅用於預測1,2,3或4+的物件,並報告表3中的平均精度(AP)[5]。 由於這是在Pascal-S資料集上執行子圖化的第一項工作,因此我們沒有任何基線可供比較。為了使比較成為可能,我們在SOS資料集[35]上微調和評估我們的模型,並報告 表4中的AP和加權AP(總體)得分。與基線相比,我們提出的模型在該資料集上實現了最先進的結果。

 

表5.在所有ground-truth閾值中使用最先進方法的定量比較(AUC和Fm),每個方法對應於特定數量參與者之間的一致性。 最佳和第二好成績分別以紅色和藍色顯示。 

圖6.我們模型的最終預測堆疊(NRSS)的主成分分析(PCA)的視覺化。 第一列顯示影象及其groud-truth。 第二列和第三列顯示了一組groud-truth堆疊切片。最後一列提供了我們預測堆疊的前三個主要元件的視覺化,作為RGB影象。 請注意,前三個元件本身的貢獻在相對顯著性方面是診斷性的。 

 4.3檢查巢狀相對顯著性堆疊

巢狀相對顯著性堆疊的切片的比較可能是具有挑戰性的,因為一些層對之間的差異可能是微妙的,並且對比度可以跨層不同。因此,我們通過主成分分析(PCA)檢查NRSS層之間的可變性,以確定存在最大可變性(和訊號)的區域。圖6示出了作為RGB影象的前三個主要分量,其中第一主成分(其捕獲跨層的最大方差)被對映到R通道,第二主成分被對映到G通道,依此類推。groud-truth中的顯著區域在各層的可變性中被捕獲,表明我們的顯著性排序機制的價值。此外,幾乎可以直接從該視覺化讀取相對等級,其中前2個特徵向量的高值導致黃色,第一個僅為紅色等。
我們還報告了表5中每個切片的AUC分數和最大F-測量值(表示為S)。與基線相比,我們提出的方法在所有基本真值閾值上獲得更好的分數,這對應於表示同意的不同參與者數量。一個物件是顯著的。這進一步顯示了堆疊機制的有效性和預測相對顯著性,無論如何確定groud-truth(如果被視為二進位制數量),這導致改進。

4.4失敗案例

儘管大多數案件表現良好; 有些例項更具挑戰性(見圖7)。 有時,groud-truth有多個具有相同程度顯著性的物件(參與者同意的關係)(參見圖7中的第1行)。 當關於影象中顯著的一致性(如第二行中所示)或者在具有相對接近的顯著程度的兩個物件之間存在遮擋(如最後一行中所示)時,發生其他的排序失敗。

圖7.顯示了模型和ground-truth之間等級上的分歧的一些說明性示例。 這些對於ground-truth中的關係以及具有許多顯著物件的場景是最常見的。 

5.總結

在本文中,我們提出了一個神經網路框架,用於檢測,排序和子化多個顯著 物件引入堆疊細化機制以實現更好的效能。 這種方法成功的關鍵在於如何在groud-truth和網路中以產生穩定效能的方式表示相對顯著性。 我們強調的是,到目前為止,顯著物件檢測已經假設了一個相對有限的,有時是不一致的問題定義。 綜合實驗表明,所提出的架構在廣泛的指標範圍內優於最先進的方法。

References

[1] A. Açık, A. Bartel, and P. Koenig. Real and implied motion
at the center of gaze. Journal of Vision, 14(1):2–2, 2014. 1
[2] N. D. Bruce, C. Wloka, N. Frosst, S. Rahman, and J. K. Tsotsos.
On computational modeling of visual saliency: Examining
what’s right, and what’s left. Vision research, 116:95–112,
2015. 1
[3] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.
Yuille. Deeplab: Semantic image segmentation with deep
convolutional nets, atrous convolution, and fully connected
crfs. TPAMI, 40(4):834–848, 2018. 2, 3, 5
[4] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and
A. Zisserman. The pascal visual object classes (voc) challenge.
IJCV, 88(2):303–338, 2010. 5
[5] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and
A. Zisserman. The PASCAL Visual Object Classes Challenge
2007. 7
[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In CVPR, 2016. 2, 4, 5
[7] S. He, J. Jiao, X. Zhang, G. Han, and R. W. Lau. Delving into
salient object subitizing and detection. In CVPR, 2017. 1, 2,
4, 7
[8] Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, and P. Torr.
Deeply supervised salient object detection with short connections.
In CVPR, 2017. 1, 2, 3, 6, 7, 8
[9] P. Hu, B. Shuai, J. Liu, and G. Wang. Deep level sets for
salient object detection. In CVPR, 2017. 1, 2
[10] G. Huang, Z. Liu, L. Maaten, and K. Q. Weinberger. Densely
connected convolutional networks. In CVPR, 2017. 3
[11] M. A. Islam, S. Naha, M. Rochan, N. Bruce, and Y. Wang.
Label refinement network for coarse-to-fine semantic segmentation.
arXiv:1703.00551, 2017. 3
[12] M. A. Islam, M. Rochan, N. D. Bruce, and Y. Wang. Gated
feedback refinement network for dense image labeling. In
CVPR, 2017. 2, 3, 4
[13] S. Jia, Y. Liang, X. Chen, Y. Gu, J. Yang, N. Kasabov, and
Y. Qiao. Adaptive location for multiple salient objects detection.
In NIPS, 2015. 1
[14] H. Jiang, J. Wang, Z. Yuan, Y. Wu, N. Zheng, and S. Li.
Salient object detection: A discriminative regional feature
integration approach. In CVPR, 2013. 6, 7
[15] J. Kim, D. Han, Y.-W. Tai, and J. Kim. Salient region detection
via high-dimensional color transform. In CVPR, 2014. 2,
6
[16] K. Koehler, F. Guo, S. Zhang, and M. P. Eckstein. What
do saliency models predict? Journal of vision, 14(3):14–14,
2014. 1
[17] G. Lee, Y.-W. Tai, and J. Kim. Deep saliency with encoded
low level distance map and high level features. In CVPR,
2016. 1, 2, 6
[18] G. Li and Y. Yu. Visual saliency based on multiscale deep
features. In CVPR, 2015. 1, 2, 6
[19] G. Li and Y. Yu. Deep contrast learning for salient object
detection. In CVPR, 2016. 1, 2
[20] X. Li, Y. Li, C. Shen, A. Dick, and A. Van Den Hengel.
Contextual hypergraph modeling for salient object detection.
In ICCV, 2013. 6
[21] X. Li, H. Lu, L. Zhang, X. Ruan, and M.-H. Yang. Saliency
detection via dense and sparse reconstruction. In ICCV, 2013.
2, 6
[22] X. Li, L. Zhao, L. Wei, M.-H. Yang, F. Wu, Y. Zhuang,
H. Ling, and J. Wang. Deepsaliency: Multi-task deep neural
network model for salient object detection. TIP, 2016. 2, 6, 7
[23] Y. Li, X. Hou, C. Koch, J. M. Rehg, and A. L. Yuille. The
secrets of salient object segmentation. In CVPR, 2014. 1, 4
[24] N. Liu and J. Han. Dhsnet: Deep hierarchical saliency network
for salient object detection. In CVPR, 2016. 1, 2, 3, 6,
7
[25] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional
networks for semantic segmentation. In CVPR, 2015. 3
[26] Z. Luo, A. Mishra, A. Achkar, J. Eichel, S. Li, and P.-M.
Jodoin. Non-local deep features for salient object detection.
In CVPR, 2017. 2, 6, 7, 8
[27] M. Najibi, F. Yang, Q. Wang, and R. Piramuthu. Towards the
success rate of one: Real-time unconstrained salient object
detection. arXiv:1708.00079, 2017. 1
[28] H. Noh, S. Hong, and B. Han. Learning deconvolution network
for semantic segmentation. In ICCV, 2015. 2
[29] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards
real-time object detection with region proposal networks. In
NIPS, 2015. 2
[30] K. Simonyan and A. Zisserman. Very deep convolutional
networks for large-scale image recognition. arXiv:1409.1556,
2014. 2
[31] L. Wang, L. Wang, H. Lu, P. Zhang, and X. Ruan. Saliency
detection with recurrent fully convolutional networks. In
ECCV, 2016. 1, 2
[32] T.Wang, A. Borji, L. Zhang, P. Zhang, and H. Lu. A stagewise
refinement model for detecting salient objects in images. In
CVPR, 2017. 1, 3
[33] C. Xia, J. Li, X. Chen, A. Zheng, and Y. Zhang. What is and
what is not a salient object? learning salient object detector
by ensembling linear exemplar regressors. In CVPR, 2017. 1
[34] Q. Yan, L. Xu, J. Shi, and J. Jia. Hierarchical saliency detection.
In CVPR, 2013. 2, 6, 7
[35] J. Zhang, S. Ma, M. Sameki, S. Sclaroff, M. Betke, Z. Lin,
X. Shen, B. Price, and R. Mech. Salient object subitizing. In
CVPR, 2015. 2, 4, 7
[36] J. Zhang, S. Sclaroff, Z. Lin, X. Shen, B. Price, and R. Mech.
Unconstrained salient object detection via proposal subset
optimization. In CVPR, 2016. 1
[37] P. Zhang, D. Wang, H. Lu, H. Wang, and X. Ruan. Amulet:
Aggregating multi-level convolutional features for salient object
detection. In ICCV, 2017. 1, 2, 3, 6, 7, 8
[38] P. Zhang, D.Wang, H. Lu, H.Wang, and B. Yin. Learning uncertain
convolutional features for accurate saliency detection.
In ICCV, 2017. 1, 2, 6, 7, 8
[39] R. Zhao, W. Ouyang, H. Li, and X. Wang. Saliency detection
by multi-context deep learning. In CVPR, 2015. 1, 2, 6