23.Deep Networks for Saliency Detection via Local Estimation and Global Search

阿新 • • 發佈：2018-12-01

Deep networks for saliency detection via Local Estimation and Global Search

摘要

本文提出了一種將區域性估計和全域性搜尋相結合的顯著性檢測演算法。在區域性估計階段，我們通過使用深度神經網路（DNN-L）來檢測區域性顯著性，該神經網路學習區域性塊特徵以確定每個畫素的顯著性值。通過探索高階物件概念，進一步確定估計的區域性顯著性圖。在全域性搜尋階段，將區域性顯著性圖與全域性對比度和幾何資訊一起用作描述一組物件候選區域的全域性特徵。訓練另一個深度神經網路（DNN-G）以基於全域性特徵預測每個物件區域的顯著性得分。最終顯著圖由顯著目標區域的加權和生成。我們的方法提出了兩個有趣的見解。首先，通過監督方案學習的區域性特徵可以有效地捕獲區域性對比度，紋理和形狀資訊以用於顯著性檢測。其次，不同的全域性顯著性線索之間的複雜關係可以通過深層網路捕獲並主要利用而不是啟發式。幾個基準資料集的定量和定性實驗表明，我們的演算法對最先進的方法表現出色。

1.引言

顯著性檢測旨在識別影象中最重要和最顯著的物件區域，近年來越來越受到關注。作為預處理步驟，它可以有效地關注與當前任務相關的有趣影象區域，並且廣泛地促進計算機視覺應用，例如分割，影象分類和壓縮，僅舉幾個例子。雖然取得了很大進展，但仍然是一個具有挑戰性的問題。

現有方法主要通過計算模型以自下而上的方式利用區域性或全域性檢視來形成顯著性檢測。區域性方法[13,25,19,39]計算區域性環境中的顏色，紋理和邊緣取向通道的中心 - 環繞差異，以捕獲區域性突出其周圍環境的區域。儘管在生物學上是合理的，但區域性模型往往缺乏全域性資訊，並且傾向於突出顯著物件的邊界而不是內部（見圖1（c））。相比之下，全域性方法[1,24,29]將整個影象考慮在內以預測以整體稀有性和唯一性為特徵的顯著區域，從而幫助檢測大物件並均勻地將顯著性值分配給所包含的區域。與對邊緣和噪聲等高頻影象內容敏感的區域性方法不同，當顯著物件的紋理區域與背景相似時，全域性方法效果較差（參見圖1（d））。最近的一些研究探索了局部和全域性方法的結合，其中背景先驗，中心先驗，顏色直方圖和其他手工製作的特徵以簡單和啟發式的方式用於計算顯著性圖。

雖然區域性和全域性模型[32,36]的結合在技術上是合理的，但這些方法有兩個主要缺點。首先，這些方法主要依賴於手工製作的特徵，這些特徵可能無法描述複雜的影象場景和物件結構。其次，所採用的顯著性先驗和特徵大多是基於啟發式的組合，並且不清楚這些特徵如何能夠更好地整合。

在本文中，我們提出了一種新的顯著性檢測演算法，它結合了局部估計和全域性搜尋（LEGS）來解決上述問題。在區域性估計階段，我們制定基於深度神經網路（DNN）的顯著性檢測方法，通過考慮其區域性上下文為每個畫素分配區域性顯著性值。訓練好的深度神經網路，命名為DNN-L，將原始畫素作為輸入，並學習區域性影象塊的對比度，紋理和形狀資訊。 DNN-L生成的顯著性圖通過探索高階物件（即，物件的一般視覺資訊）進一步確定，以確保標籤一致性並用作區域性顯著性測量。在全域性搜尋階段，我們搜尋最顯著的物件區域。首先使用通用目標提議方法[20]生成一組候選物件區域。收集包含全域性顏色對比度，幾何資訊以及由DNN-L估計的區域性顯著性度量的特徵向量以描述每個物件候選區域。這些提取的特徵向量用於訓練另一個深度神經網路DNN-G，以從全域性角度預測每個物件候選區域的顯著性值。最終顯著圖由顯著性值加權的顯著物件區域的總和生成。圖2顯示了我們演算法的傳輸流程。

深度網路在影象分類，目標檢測和場景解析中已經證明了很多成功。然而，在顯著性檢測中使用DNN仍然是有限的，因為主要由影象補丁提供的DNN不能捕獲影象區域的全域性關係並且保持區域性鄰域中的標籤一致性。我們的主要貢獻是通過提出一種從區域性和全域性的角度將DNN應用於顯著性檢測的方法來解決這些問題。我們證明了所提出的DNN-L能夠捕獲區域性對比度，紋理以及形狀資訊，並預測每個畫素的顯著性值，而無需手工製作的特徵。所提出的DNN-G可以通過監督學習方案使用各種顯著性線索來有效地檢測全域性顯著區域。DNN-L和DNN-G都在相同的訓練資料集上訓練（詳見5.1節）。如果沒有額外的訓練，我們的方法可以很好地推廣到其他資料集，並且能夠很好地應對最先進的方法。

2.相關工作

在本節中，我們將討論相關的顯著性檢測方法及其與通用目標檢測方法的關聯。此外，我們還簡要回顧了與這項工作密切相關的深層神經網路。

顯著性檢測方法通常可以分類為區域性和全域性方案。區域性方法通過計算區域性對比度和稀有度來衡量顯著性。在Itti等人的開創性工作[13]中，計算了多尺度影象特徵的中心 - 環繞差異，以檢測區域性顯著性。Ma和Zhang [25]利用區域性鄰域的色彩對比度來衡量顯著性。在[11]中，顯著性值是通過不同特徵圖上的馬爾可夫鏈的平衡分佈來測量的。僅考慮區域性上下文的方法傾向於檢測高頻內容並抑制顯著物件內的均勻區域。另一方面，全域性方法通過使用整個影象的整體對比度和顏色統計來檢測顯著性。Achanta等[1]通過計算每個畫素之間相對於其平均值的色差來估計視覺顯著性。在[7]中使用基於全域性對比度和空間相干性的直方圖來檢測顯著性。劉等人[24]提出了一組來自區域性和全域性檢視的特徵，這些特徵由條件隨機場整合以生成顯著圖。在[29]中，基於區域的唯一性和空間分佈的兩個對比度度量被定義為顯著性檢測。為了識別小的高對比度區域，Yan等人[40]提出了一種分析顯著性線索的多層方法。在[16]中提出了一種基於隨機森林的迴歸模型，將區域特徵向量直接對映到顯著性得分。最近，朱等人[42]提出了一種背景測量方案，以利用邊界先驗進行顯著性檢測。雖然已經取得了重大進展，但是大多數上述方法通過啟發式方法整合手工製作的特徵以生成最終的顯著性圖，並且在具有挑戰性的影象上表現不佳。相比之下，我們利用深度網路（DNN-L）自動學習捕獲區域性顯著性的特徵，並使用另一個深度網路（DNN-G）瞭解全域性線索之間的複雜依賴性。

通用目標檢測方法[3,2,37]旨在生成影象中所有類別獨立物件的位置，並且近年來引起了越來越多的關注。現有技術通過測量影象視窗的物件性[2,5]或者在自下而上過程中對區域進行分組來提出物件候選[37,20]。生成的候選物件可以顯著減少類別特定物件檢測器的搜尋空間，這反過來又幫助其他模組進行識別和其他任務。因此，通用目標檢測與顯著目標分割密切相關。在[2]中，顯著性被用作物件度測量以生成候選物件。Chang等[4]使用圖形模型來利用物件性和顯著性提示的關係來進行顯著目標檢測。在[23]中，訓練隨機森林模型來預測候選物件的顯著性得分。在這項工作中，我們提出了一種基於DNN的顯著性檢測方法，結合了局部顯著性估計和全域性顯著物件候選搜尋。

深度神經網路在影象分類[21,8,34]，目標檢測[35,10,12]和場景解析[9,30]中取得了最先進的成果。成功源於深層架構的可表達性和能力，有助於學習複雜的功能和模型，直接從訓練示例中解釋互動關係。由於DNN主要將影象補丁作為輸入，因此它們在捕獲場景解析以及顯著性檢測的長期標籤依賴性方面往往失敗。為了解決這個問題，Pinheiro和Collobert[30]使用迴圈卷積神經網路來考慮大的情境。在[9]中，以多尺度方式應用DNN以學習用於場景標記的分層特徵表示。我們建議在區域性和全域性視角中利用DNN進行顯著性檢測，其中DNN-L估計每個畫素的區域性顯著性，DNN-G基於全域性特徵搜尋顯著物件區域以強制執行標記依賴性。

3.區域性估計

區域性估計的動機是區域性異常值從鄰域那裡以不同的顏色或紋理突出，往往會引起人們的注意。為了從區域性檢視中檢測這些異常值，我們制定了二元分類問題，以確定每個畫素是基於其周圍是顯著的（1）還是非顯著的（0）。我們使用深度網路，即DNN-L進行分類，因為DNN已經在影象分類中展示了最先進的效能，並且不依賴於手工製作的功能。通過將物件級概念結合到區域性估計中，我們提出了一種改進方法來增強區域性顯著性圖的空間一致性。

3.1 基於DNN的區域性顯著性估計

DNN-L的架構。所提出的DNN-L由六層組成，具有三個卷積層和三個全連線層。每一層都包含可學習的引數，包括線性變換，然後是非線性對映，由ReLUs[28]實現，以加速訓練過程。區域性響應歸一化應用於第一層以幫助泛化。最大池化應用於所有三個卷積層以用於平移不變性。在第一和第二全連線層之後使用dropout以避免過擬合。網路採用51×51畫素的RGB影象塊作為輸入，並利用softmax迴歸模型作為輸出層，以生成中心畫素突出和非突出的概率。架構詳細資訊列於表1中。

訓練資料。對於訓練集中的每個影象（參見第5.1節），我們通過以滑動視窗方式裁剪51×51 RGB影象塊來採集樣本，步長為10畫素。為了標記訓練補丁，我們主要考慮其中心畫素的標籤顯著值以及補丁和標籤顯著性掩模之間的重疊。如果i），則將補丁B標記為積極訓練示例,中心畫素是顯著的;ii）它足以與標籤中的顯著區域G重疊：|B∩G|≥0.7×min（|B|，|G|）。類似地，如果i)中心畫素位於背景內;ii)其與標籤的顯著區域的重疊小於預定閾值：|B∩G|<0.3×min（|B|，|G|）,則將貼片B標記為負訓練示例。標記為既不是積極也不是否定的剩餘樣本不使用。在[21]之後，除了從每個畫素中減去訓練集上的平均值之外，我們不預處理訓練樣本。

訓練DNN-L。給定訓練補丁集{Bi}NL和相應的標籤集{li}NL，我們使用具有權重衰減的softmax損失作為損失函式，

其中θL是DNN-L的可學習引數集，包括所有層的權重和偏差; 1{·}是指標函式; P（li = j |θL）是DNN-L預測的第i個訓練樣本的標籤概率;λ是權重衰減引數;WLk是第k層的權重。DNN-L使用隨機梯度下降進行訓練，批量大小為m = 256，動量為0.9，重量衰減為0.0005。學習率初始設定為0.01，並且當損失穩定時，學習率降低0.1倍。訓練過程重複80個週期。圖3（a）示出了第一層中學習的卷積核，其捕獲區域性鄰域的顏色，對比度，邊緣和圖案資訊。圖3（c）顯示了第一層的輸出，其中具有不同特徵的區域性顯著畫素由不同的特徵圖突出顯示。

在測試階段，我們以滑動視窗方式將DNN-L應用於整個影象，並將每個畫素的概率P（l=1|θ）預測為其區域性顯著性值。圖4（c）演示了生成的區域性顯著圖。圖3和圖4都表明，所提出的區域性估計方法可以通過用區域性影象塊訓練DNN-L來有效地學習而不是設計表徵區域性顯著性的有用特徵。

3.2細化

區域性估計方法通過考慮鄰域內的顏色，對比度和紋理資訊來檢測顯著性。因此，它可能對高頻背景噪聲敏感並且不能保持空間一致性。另一方面，顯著性與物件級概念密切相關，即有趣的目標容易引起人們的注意。基於這一觀察，我們建議通過結合低水平顯著性和高水平目標來重新定義區域性顯著性圖。為此，我們利用測地目標提議（GOP）[20]方法來提取一組目標片段。生成的目標候選者編碼資訊形狀和邊界線索，並用作影象中物件的過完整覆蓋。我們的方法根據區域性顯著性圖搜尋具有高概率的這些候選的子集作為潛在物件，從而將區域性估計和通用目標檢測整合為補充過程。

給定輸入影象，我們首先使用GOP方法生成一組目標候選掩碼{Oi}NO，並使用我們的區域性估計方法生成顯著圖SL。為了確定每個片段的信度，我們主要考慮基於區域性顯著性圖，準確度分數A和覆蓋度分數C的兩個測量值，定義如下

其中Oi（x，y）=1表示位於輸入影象的（x，y）的畫素屬於第i個物件候選，否則Oi（x，y）=0;SL（x，y）∈[0,1]表示畫素（x，y）的區域性顯著性值。

準確度分數Ai測量第i個物件候選者的平均區域性顯著性值，而覆蓋率分數Ci測量第i個物件候選者所覆蓋的顯著區域的比例。圖5給出瞭解釋這兩個測量值的直觀示例。與區域性顯著區域具有小重疊的黃色候選區域被分配低精度分數和低覆蓋分數。覆蓋幾乎整個區域性顯著區域的紅色候選區域具有高覆蓋率但是精度得分低。位於區域性顯著區域內的綠色候選區域具有高準確度分數但是低覆蓋分數。只有最佳藍色候選人具有高準確度分數以及高覆蓋率分數。基於上述觀察，我們通過考慮準確度得分和覆蓋率得分來確定第i個候選人的信心。

我們設定β= 0.4，以強調準確度得分對最終信心的影響。為了找到最佳候選物件的子集，我們按照它們的順序按降序對所有候選物件進行排序。通過對前K個候選區域求平均來生成所定義的區域性顯著圖（在所有實驗中K被設定為20）。圖4顯示了改進前後的區域性顯著性圖。

4.全域性搜尋

中心和物件偏差[31,22]，對比資訊[38]和背景[33,15]等顯著性提示已被證明在以前的工作中是有效的。但是，這些顯著性提示是獨立考慮的，並且基於啟發式方法進行組合。例如，通過將影象的邊界區域內的所有畫素視為背景來利用背景先驗，而不考慮整個影象的顏色統計或前景的位置。相反，我們為顯著性檢測制定了一種基於DNN的迴歸方法，其中同時考慮各種顯著性提示，並通過監督學習方案自動學習它們的複雜依賴性。對於每個輸入影象，我們首先使用所提出的區域性估計方法來檢測區域性顯著性。提取72維特徵向量以從全域性檢視描述由GOP方法生成的每個物件候選。提出的深度網路DNN-G將提取的特徵作為輸入，並通過迴歸預測候選區域的顯著性值。

4.1全域性特徵

所提出的72維特徵向量覆蓋了物件候選區域的全域性對比度特徵，幾何資訊和區域性顯著性度量。全域性對比度特徵由三個部分組成：邊界對比度，影象統計發散度和內部方差，它們在RGB，Lab和HSV顏色空間中計算。給定物件候選區域O並使用RGB顏色空間作為示例，我們在候選區域內的所有畫素上計算其RGB直方圖hRGBO，平均RGB值mRGBO和RGB顏色方差varRGBO.我們在影象的四個方向上定義了15個畫素寬度的邊界區域作為邊界區域。由於不同方向的邊界區域可能具有不同的外觀，我們分別計算它們的RGB直方圖和平均RGB值。為了表示方便，我們將RGB直方圖和四個邊界區域的平均RGB值統一分別表示為hRGBB和mRGBB.整個影象hRGBI的RGB直方圖也用作影象統計。通過候選的RGB直方圖和四個邊界區域之間的卡方距離χ2（hRGBO，hRGBB）以及它們的平均RGB值之間的歐幾里德距離d（mRGBO，mRGBB）來測量邊界對比度。通過候選區域的RGB直方圖與整個影象之間的卡方距離χ2（hRGBO，hRGBI）來測量候選區域與整個影象統計的顏色發散。候選區域的內部顏色方差由RGB顏色方差varRGBO測量。Lab和HSV顏色空間中的全域性對
比度特徵以類似的方式提取。表2總結了全域性對比度特徵的組成部分。

幾何資訊表徵候選物件的空間分佈。我們提取質心座標，長/短軸長度，尤拉數和封閉邊界框的形狀資訊，包括其寬度，高度和縱橫比。除了尤拉數之外的所有上述特徵都相對於輸入影象大小進行歸一化。表3顯示了幾何資訊的細節。區域性顯著性測量基於由區域性估計方法產生的顯著性圖來評估每個候選區域的顯著性值。給定重新定義的區域性顯著圖和物件候選掩模，我們使用（2）-（3）計算準確度分數A和覆蓋分數C.還計算了物件掩模和區域性顯著圖之間的重疊率（詳見表3）。

4.2 通過DNN-G迴歸進行顯著性預測

DNN-G由6個全連線層組成。每層執行線性變換，然後是ReLU，以加速訓練過程和dropout操作，以避免過擬合（見表1）。對於訓練資料集（第5.1節）中的每個影象，使用GOP方法生成大約1200個物件區域作為訓練樣本。從每個候選區域提取所提出的72維全域性特徵向量v，然後通過減去平均值併除以元素的標準偏差來預處理。給定標籤顯著圖G，將精度pi和重疊率oi，yi=[pi，oi]的標籤向量分配給每個物件區域Oi。

給定訓練資料集{vi}NG和相應的標籤集{yi}NG，通過解決以下優化問題來學習DNN-G的網路引數

其中θG是網路引數集;φ（vi|θG）= [φ1i，φ2i]是第i個訓練樣本的DNN-G的輸出;WGk是第k層的權重;η是權重衰減引數，設定為0.0005。通過使用批量大小為1000且動量為0.9的隨機梯度下降來解決上述優化問題。學習率初始設定為0.05，並且當損失穩定時，學習率降低0.5倍。訓練過程重複100個週期。

在測試階段，網路將第i個候選區域的特徵向量作為輸入，並通過φ（vi |θG）預測其精度和重疊率。候選區域的全域性信度得分由下式定義

將{`O1，...，`ON}表示為輸入影象中所有候選區域的掩碼集，按降序排列全域性信念分數。相應的全域性信心分數由{confG1，...，confGN}表示。通過前K個候選掩模的加權和來計算最終顯著圖，

雖然在精神上相似，但我們的全域性搜尋方法在以下方面與[10]，[16]和[23]有顯著的不同：i）我們的方法利用DNN來學習不同視覺線索之間的複雜依賴關係，並在全域性檢視中確定候選區域的顯著性，而[10]將DNN應用於邊界框以提取分類特定的特徵。 ⅱ）[16]和[23]都使用隨機森林來根據區域特徵預測區域顯著性，其中[23]訓練每個資料集的模型。相反，我們使用DNN進行顯著性檢測並在一個數據集中進行訓練（參見第5.1節）。 III）。全域性搜尋與我們的工作中的區域性估計相結合，從兩個角度促進更強大的顯著性檢測。

5.實驗結果

5.1 設定

我們在四個基準資料集上評估了所提出的演算法：MSRA-5000 [24]，SOD [27]，ECCSD [40]和PASCAL-S [23]。MSRA-5000資料集廣泛用於顯著性檢測，並涵蓋各種影象內容。大多數影象僅包括一個與背景具有高對比度的顯著物件。從伯克利分割資料庫收集包含300個影象的SOD資料集。該資料集中的許多影象具有各種尺寸和位置的多個顯著物件。 ECCSD資料集包含1000張帶有來自網際網路的複雜場景的影象，更具挑戰性。新開發的PASCAL-S資料集構建在PASCAL VOC 2012細分挑戰的驗證集上。該資料集包含850個具有多個複雜物件和雜亂背景的自然影象。PASCAL-S資料集可以說是最具挑戰性的顯著性資料集之一，沒有各種設計偏差（例如，中心偏差和顏色對比度偏差）。所有資料集都包含手動註釋的標籤顯著性圖。

由於MSRA-5000資料集涵蓋了各種場景，而PASCAL-S資料集包含了複雜結構的影象，我們從MSRA-5000資料集隨機抽取3000張影象，從PASCAL-S資料集隨機抽取340張影象，以訓練這兩個網路。其餘的影象用於測試。水平反射和尺度改變(±5%)應用於所有訓練影象增加訓練資料集。DNN使用caffe[14]框架實現[14]。經過訓練的模型和原始碼可以在我們的網站中找到。

我們使用PR曲線，F-測量和平均絕對誤差（MAE）來評估效能。通過使用閾值分割顯著區域並將二元圖與標籤進行比較來計算顯著圖的精確度和召回率。 PR曲線顯示了不同閾值下顯著性圖的平均精度和召回率。 F測量定義為Fγ=(（1 +γ2）precision×recall)/(γ2precision+recall)，其中使用顯著性圖的平均顯著性值的兩倍作為閾值獲得精確度和回憶，並且將γ2設定為0.3。MAE是顯著性圖和標籤之間的平均每畫素差異。

5.2特徵分析

我們的全域性搜尋方法利用各種顯著性線索來描述每個候選物件。我們基於不同特徵空間中前景區域和背景區域的分佈，對所有全域性特徵的判別能力進行了實證分析。我們使用來自PASCAL-S資料集的510個測試影象生成500000個物件候選區域。基於與標籤顯著區域的重疊率oi，第i個候選區域被分類為前景（oi> 0.7）或背景（oi <0.2）。剩餘的候選區域（0.2≤oi≤0.7）未使用。圖6顯示了4.1節中討論的三種類型的特徵空間中的前景區域和背景區域的分佈以及DNNG生成的全域性信任評分空間。在補充材料中可以找到更多結果。圖6中的分佈圖顯示了所有三種類型的特徵空間中前景區域和背景區域之間的強重疊。基於這些特徵的啟發式組合，前景和背景區域難以分離。我們的全域性搜尋方法訓練深
度網路，以學習複雜的特徵依賴性，並實現顯著性檢測的準確信度分數。

5.3 效能比較

我們將提出的方法（LEGS）與包括SVO[4]，PCA[26]，DRFI[16]，GC[6]，HS[40]，MR[41]，UFO[17]，wCtr[42]，CPMCGBVS[23]和HDCT [18]在內的十種最先進模型進行比較。我們使用作者提供的實現或顯著性圖進行公平比較。我們的方法在PR曲線（圖8），F-測量以及所有三個資料集中的MAE分數（表4）方面都有利於最先進的方法。圖7顯示我們的方法在各種具有挑戰性的場景中生成更準確的顯著性圖。我們的方法的強大效能可歸因於DNN用於複雜特徵和模型學習，以及區域性/全域性顯著性估計的整合。

6.結論

在本文中，我們通過結合區域性估計和全域性搜尋來提出用於顯著性檢測的DNN。在區域性估計階段，建議的DNN-L通過從區域性對比度，紋理和形狀資訊學習豐富的影象塊特徵來估計區域性顯著性。在全域性搜尋階段，提出的DNN-G有效地利用了全域性顯著性線索之間的複雜關係，並預測每個物件區域的顯著性值。我們的方法通過有監督的基於DNN的學習方案集成了低階顯著性和高級別物件性。基準資料集的實驗結果表明，該演算法可以實現最先進的效能。

23.Deep Networks for Saliency Detection via Local Estimation and Global Search

Deep networks for saliency detection via Local Estimation and Global Search

摘要

1.引言

2.相關工作