1. 程式人生 > >20.Saliency Detection via Graph-Based Manifold Ranking

20.Saliency Detection via Graph-Based Manifold Ranking

Saliency Detection via Graph-Based Manifold Ranking

基於圖的流形排序的顯著性檢測

摘要

大多數現有的自下而上方法基於其在區域性上下文或整個影象內的對比度來測量畫素或區域的前景顯著性,而一些方法側重於分割出背景區域並由此突出顯示物件。我們不是考慮顯著物體與周圍區域之間的對比,而是以不同的方式考慮前景和背景線索。我們通過基於圖的流形排序對影象元素(畫素或區域)與前景線索或背景線索的相似性進行排序。影象元素的顯著性是基於它們與給定種子或查詢的相關性來定義的。我們將影象表示為具有超畫素作為節點的閉環圖。基於關聯矩陣,基於與背景和前景查詢的相似性對這些節點進行排序。顯著性檢測以兩階段方案進行,以有效地提取背景區域和前景顯著物件。兩個大型基準資料庫的實驗結果表明,所提出的方法在準確性和速度方面與最先進的方法相比表現良好。我們還建立了一個更加困難的基準資料庫,其中包含5,172個影象,用於測試我們提出的顯著性模型,並使用此文章公開提供此資料庫,以便在顯著性領域進一步研究。

 

  1. 引言

顯著性檢測的任務是識別場景中最重要和資訊量最大的部分。它已被應用於許多視覺問題,包括影象分割[11],物體識別[28],影象壓縮[16],基於內容的影象檢索[8]等。顯著性方法通常可以分為自下而上或自上而下的方法。自下而上的方法[1],[2],[6],[7],[9] - [12],[14],[15],[17],[21],[24],[25],[27],[32],[33],[37]是資料驅動和預先注意的,而自上而下的方法[23],[36]是任務驅動的,需要有階層的監督學習標籤。我們注意到,已經開發了用於眼睛定位預測的顯著性模型[6],[14],[15],[17],[19],[25],[33]和顯著目標檢測[1],[2],[7],[9],[23],[24],[32]。前者側重於識別自然影象上的一些人類固定位置,這對於理解人類的注意力非常重要。後者是準確地檢測顯著物件應該在哪裡,這對於許多高階視覺任務是有用的。在本文中,我們關注自下而上的顯著目標檢測任務。

顯著目標檢測演算法通常生成邊界框[7],[10],二值前景和背景分割[12],[23],[24],[32]或顯示每個畫素顯著性可能的顯著性圖。劉等人[23]通過訓練條件隨機場以組合一組新穎特徵來提出二元顯著性估計模型。王等人[32]在統一的能量最小化框架中分析多個線索,並使用基於圖形的顯著性模型[14]來檢測顯著的物件。在[24]中Lu等人開發分層圖模型並利用凹度上下文來計算節點之間的權重,從中對圖進行雙分割槽以進行顯著目標檢測。另一方面,Achanta等人[1]基於其與整個影象的顏色對比來計算每個畫素的顯著性似然。Cheng等[9]考慮全域性區域對整個影象的對比以及跨區域的空間關係來提取顯著性圖。在[11]中Goferman等提出一種上下文感知顯著性演算法,以基於人類視覺注意力的四個原理來檢測表示場景的影象區域。特徵的中心和周圍分佈的對比度是基於顯著目標檢測的Kullback-Leibler散度計算的[21]。謝等人[35]通過利用中低層次線索,提出了貝葉斯框架內自下而上顯著性的新模型。孫等人[30]通過引入邊界和軟分割來改進謝的模型。最近,Perazzi等人[27]表明可以使用高維高斯濾波器以統一的方式表達完整的對比度和顯著性估計。在這項工作中,我們為每個輸入影象生成一個全解析度顯著圖。

大多數上述方法通過測量整個影象上的區域性中央-圍繞對比度和特徵的稀有度來測量顯著性。相反,Gopalakrishnan等人[12]將目標檢測問題表示為圖形上的二元分割或標記任務。最顯著的種子和幾個背景種子通過完整圖表上隨機遊走的行為來識別ķ-正則化圖。然後,使用半監督學習技術來推斷未標記節點的二進位制標籤。最近,提出了一種利用背景先驗的方法用於顯著性檢測[34]。主要觀察是一對背景區域之間的距離短於來自顯著物件的區域和來自背景的區域的距離。節點標記任務(顯著物件或背景)被公式化為基於該標準的能量最小化問題。

我們觀察到背景通常呈現與四個影象邊界中的每一個的區域性或全域性外觀連通性,並且前景呈現外觀連續性和一致性。在這項工作中,我們利用這些線索來計算基於超畫素排序的畫素顯著性。對於每個影象,我們構造一個閉環圖,其中每個節點都是一個超畫素。我們將顯著性檢測建模為流形排序問題,並提出了用於圖形標記的兩階段方案。圖1顯示了所提演算法的主要步驟。在第一階段,我們利用先驗的邊界[13,22],通過使用影象每一側的節點作為標記,進行背景查詢。從每個標記結果中,我們基於它們與那些查詢的相關性(即,排序)來計算節點的顯著性作為背景標籤。然後將四個標記的圖整合以生成顯著性圖譜。在第二階段,我們在第一階段對結果顯著圖進行二值分割,並將標記的前景節點作為顯著查詢。

 
 


基於每個節點與最終圖譜的前景查詢的相關性來計算每個節點的顯著性。

 

為了完全捕獲內部圖形結構資訊並在圖形標註中結合區域性分組線索,我們使用流形排序技術來學習排序函式,這對於學習最佳關聯矩陣是必不可少的[20]。與[12]不同,所提出的具有流形排序的顯著性檢測演算法僅需要來自一個類的種子,其作用是邊界先驗或前景提示初始化。邊界先驗被提出靈感來自最近的影象人類固定作品[31],這表明人類傾向於凝檢視像的中心。這些先驗也被用於影象分割和相關問題[13],[22],[34]。相比之下,半監督方法[12]需要背景和顯著種子,並生成二進位制分割。此外,很難確定顯著種子的數量和位置,因為它們是通過隨機遊走產生的,特別是對於具有不同顯著物件的場景。這是圖示記的已知問題,其中結果對所選種子敏感。在這項工作中,所有背景和前景種子都可以通過背景先驗和排序背景查詢(或種子)輕鬆生成。由於我們的模型結合了從整個影象中提取的區域性分組提示,所提出的演算法生成明確定義的顯著物件邊界並均勻地突出顯示整個顯著區域。

 

     2.基於圖的流行排序

基於圖的排序問題描述如下:給定節點作為查詢,其餘節點基於它們與給定查詢的相關性進行排序。目標是學習排序函式,該函式定義未標記節點和查詢之間的相關性。

2.1流行排序


在[39]中,提出了一種利用資料(如影象)的固有流形結構進行圖形標記的排序方法。給定一個數據集X={x1,...,xl,xl+1,..., xn}∈ Rm×n,一些資料點標記為查詢,其餘資料點需要根據它們與查詢的相關性進行排序。令f:X→Rn表示排序函式,其將排序值fi分配給每個點xi,並且f可以被視為向量f  =  [f1,...,fn]T.設y = [y1,y2,...,yn]T表示指示向量,其中如果xi是查詢則yi = 1,否則yi = 0。接下來,我們在資料集上定義圖G =(V,E),其中節點V是資料集X並且邊E通過關聯矩陣W = [wij]n×n加權。給定G,度矩陣是D = diag {d11,...,dnn},其中dii =∑jwij。類似於PageRank和譜聚類演算法[5,26],通過求解以下優化問題來計算查詢的最佳排序:


其中引數μ控制平滑度約束(第一項)和擬合約束(第二項)的平衡。也就是說,良好的排序函式不應該在附近點之間變化太多(平滑約束),並且不應該與初始查詢賦值(擬合約束)相差太多。通過將上述函式的導數設定為零來計算最優解。結果排序函式可寫為:

其中I是單位矩陣,α=1/(1+μ),S是歸一化拉普拉斯矩陣,S=D-1/2WD-1/2。

排序演算法[39]源於半監督學習的分類工作[38]。從本質上講,多元排序可以被視為一類分類問題[29],其中只需要正面例子或反面例子。我們可以通過使用方程式2中的非歸一化拉普拉斯矩陣來獲得另一個排序函式:


在實驗中,我們比較了方程2和方程3的顯著性結果,後者取得了更好的效能(見圖8),因此,我們在實驗中採用方程3。

 

2.2顯著性測量

給定表示為圖形和一些顯著查詢節點的輸入影象,每個節點的顯著性被定義為由等式3計算的排序分數,其被重寫為f* = Ay以便於分析。矩陣A可以被認為是學習的最佳關聯矩陣,其等於(DW)-1。第i個節點的排序得分f*(i)是第i行的A和y的內積。因為y是二進位制指示符向量,所以f*(i)也可以被視為第i個節點與所有查詢的相關性的總和。

在傳統的排序問題中,查詢是手動標記的。然而,由於所提出的演算法選擇了顯著性檢測的查詢,其中一些可能是不正確的。因此,我們需要為每個查詢計算置信度(即顯著性值),其被定義為由其他查詢(除了其自身)排序的排序得分。為此,我們在通過等式3計算排序分數時將A的對角元素設定為0。我們注意到這個看似微不足道的過程對最終結果有很大影響。如果我們計算每個查詢的顯著性而不將A的對角元素設定為0,則其在f*中的排序值將包含該查詢與其自身的相關性,這是毫無意義的並且通常異常大,從而嚴重削弱其他查詢對排序分數的貢獻。最後,我們在給出顯著查詢時使用歸一化排序得分F¯*,當給出背景查詢時使用 1 - f¯*。

 

3.圖形構造

我們構建單層圖G=(V,E)如圖2,其中V是一組節點和E是一組無向邊。在這項工作中,每個節點都是由SLIC演算法[3]生成的超畫素。由於相鄰節點可能具有相似的外觀和顯著性值,因此我們使用一個ķ -利用空間關係的正則圖。首先,每個節點不僅連線到與其相鄰的節點,還連線到與其相鄰節點共享公共邊界的節點(參見圖2)。通過擴充套件節點連線的範圍具有相同的程度ķ,我們有效地利用區域性平滑線索。其次,我們強制連線影象四邊的節點,即任何一對邊界節點都被認為是相鄰的。因此,我們將該圖表示為閉環圖。這種閉環約束顯著改善了所提出方法的效能,因為它傾向於減少類似超畫素的測地距離,從而改善了排序結果。圖3顯示了一些示例,其中排序結果有和沒有這些約束。我們注意到,當


顯著物件出現在影象邊界附近或某些背景區域不相同時,這些約束很有效。

 

 


由於邊緣的約束,很明顯構造的圖形是稀疏連線的。也就是說,關聯矩陣的大多數元素W是零。在這項工作中,兩個節點之間的權重由

其中ci和cj表示對應於CIELAB顏色空間中的兩個節點超畫素的平均值,並且σ是控制權重強度的常數。權重是根據顏色空間中的距離計算的,因為它已被證明在顯著性檢測中是有效的[2,4]。


通過對構建的圖上的節點進行排序,等式3中的逆矩陣(DW)-1可以被視為完整的關聯矩陣,即,圖上的任何節點對之間存在非零相關值。該矩陣自然地捕獲空間關係資訊。也就是說,當空間距離減小時,節點之間的相關性增加,這是顯著性檢測的重要線索[9]。

4.兩階段顯著性檢測

在本節中,我們詳細介紹了使用背景和前景查詢排序的自下而上顯著性檢測的兩階段方案。

4.1 使用背景查詢排序

基於視覺顯著性早期作品的注意理論[17],我們使用影象邊界上的節點作為背景種子,即標記資料(查詢樣本)來對所有其他區域的相關性進行排序。具體來說,我們使用邊界先驗構建四個顯著圖,然後將它們整合到最終對映圖中,這被稱為分離/組合(SC)方法。


以頂部影象邊界為例,我們將此側的節點用作查詢,將其他節點用作未標記的資料。因此,給出指示符向量y,並且基於f*中的等式3對所有節點進行排序,這是一個N維向量(N是圖的節點總數)。這個向量中的每個元素都表示節點與背景查詢的相關性,它的補充是顯著性度量。我們將此向量標準化為0到1之間的範圍,並使用頂部邊界先驗顯著性,St可以寫成:

 

其中索引i是圖上的一個超畫素節點,f*表示歸一化向量。


類似地,我們使用底部,左側和右側影象邊界作為查詢來計算其他三個對映圖譜Sb,S1和Sr.我們注意到,顯著性圖譜是用不同的指標向量y計算的,而權重矩陣W和度矩陣D是固定的。也就是說,我們需要為每個影象計算一次矩陣的逆(DW)。由於超畫素的數量很小,因此矩陣在方程式中是逆的。可以有效地計算等式3的逆矩陣。因此,四個地圖的總計算負荷很低。通過以下過程整合四個顯著性圖譜:

使用SC方法生成顯著性圖有兩個原因。首先,不同側面的超畫素通常不相似,應該具有較大的距離。如果我們同時使用所有邊界超畫素作為查詢(即,指示這些超畫素是相似的),則標記結果通常不太理想,因為這些節點不可壓縮(參見圖4)。請注意我們在第3節中使用的測地距離可以認為是弱標記的,因為只涉及幾個超畫素(即,只有與側面具有低色距的超畫素被認為是相似的),而具有所有超畫素的情況可以被認為是強標記的(即,所有節點來自雙方被認為是相似的)。其次,它減少了不精確查詢的影響,即,標籤的顯著性節點被無意中選擇為背景查詢。如圖5的第二列所示,使用所有邊界節點生成的顯著性圖很差。由於標記結果不精確,具有顯著物件的畫素具有低顯著性值。然而,由於物體通常是緊湊的“東西”(例如人或汽車)而不是鬆散的“東西”(例如草或天空),因此它們很少佔據影象的三面或四面,所以建議的SC方法確保至少兩個顯著圖是有效的(圖5的第三列)。通過整合四個顯著性圖,可以識別物件的一些顯著部分(儘管整個物件未被均勻地突出顯示),這為第二階段檢測過程提供了足夠的線索。

雖然顯著物件的大部分割槽域在第一階段突出顯示,但某些背景節點可能無法被充分抑制(參見圖4和圖5)。為了緩解這個問題並改善結果,特別是當物件出現在影象邊界附近時,通過使用前景查詢進行排序來進一步改進顯著性圖。

 

4.2 使用前景查詢排序

第一階段的顯著性對映是使用自適應閾值的二進位制分段(即,顯著前景和背景),其便於選擇前景顯著物件的節點作為查詢。我們期望所選擇的查詢儘可能多地覆蓋顯著物件區域(即,具有高召回率)。因此,閾值被設定為整個顯著圖上的平均顯著性。


一旦給出了顯著的查詢,就會出現一個使用等式3的指標向量y形成計算排序向量f*。如在第一階段中執行的那樣,排序向量f*在0和1的範圍之間歸一化,以形成最終的顯著圖

其中索引i表示圖上的超畫素節點,`f*表示歸一化向量。


我們注意到在這個階段可能會錯誤地選擇節點作為前景查詢。儘管有一些不精確的標記,但是如圖6所示,所提出的演算法可以很好地檢測到顯著的物件。這可以解釋如下。顯著目標區域通常相對緊湊(在空間分佈方面)並且外觀均勻(在特徵分佈方面),而背景區域則相反。換句話說,目標內相關性(即,顯著物件的兩個節點)在統計上遠大於目標背景和背景內相關性,這可以從關聯矩陣A中推斷出來。為了顯示這種現象,我們計算了從具有標籤[2]的資料集中取樣的300個影象中的每一個A中的平均物件內、背景內和物件-背景相關性值,如圖7所示。因此,物件節點與標籤顯著查詢的相關性值的總和遠大於對所有查詢的背景節點的相關性值的總和。也就是說,可以有效地抑制背景顯著性(圖6的第四列)。類似地,儘管圖5的第一階段之後的顯著性圖不精確,但是在第二階段中的前景查詢之後,顯著性圖可以很好地檢測到顯著物件。演算法1總結了所提出的顯著目標檢測演算法的主要步驟。

5.實驗結果

我們在三個資料集上評估所提出的方法。第一個是MSRA資料集[23],其中包含5,000個影象,其中顯著區域的標籤由邊界框標記。第二個是MSRA-I000資料集,它是MSRA資料集的一個子集,其中包含[2]提供的1,000個影象,其中包含用於顯著物件的精確的人工標記掩模。最後一個是提議的DUT-OMRON資料集,其中包含5個使用者的5,172個精心標記的影象。有關此資料集的源影象,標籤和詳細說明,請訪問http://ice.dlut.edu.cn/lu/dut-omron/homepage.htm。我們將我們的方法與十四種最先進的顯著性檢測演算法進行比較:IT[17],GB[14],MZ [25],SR[15],AC[1],Gof[11],FT[2],LC[37],RC[9],SVO[7],SF[27],CB [18],GS_SP[34]和XIE[35]方法。

實驗設定:我們設定超畫素節點的數量N=200在所有的實驗中。該演算法有兩個引數:等式4中的邊權重σ和等式3中的平衡權重α。引數σ控制一對節點之間的權重強度,引數α平衡了流形排序演算法正則化函式中的平滑約束和擬合約束。這兩個引數是根據經驗選擇的,σ2= 0.1和α= 0.99,對於所有的實驗。


評估指標:我們通過精確度,召回率和F-度量來評估所有方法。精度值對應於正確分配給提取區域的所有畫素的顯著畫素的比率,而召回值被定義為檢測到的顯著畫素相對於標籤數的百分比。與之前的工作類似,通過使用0到255範圍內的閾值對顯著性圖進行二值化來獲得精確度曲線.F度量是通過精度和召回的加權諧波計算的整體效能測量:

我們設定β2= 0.3來強調精度[2]。

 

5.1 MSRA-I000

我們首先詳細研究了所提演算法的設計選項。分析使用歸一化(等式2)和非歸一化(等式3)拉普拉斯矩陣進行排序的排序結果。圖8(a)顯示具有非歸一化拉普拉斯矩陣的排序結果更好,並且在所有實驗中使用。接下來,我們展示了所提出的圖構建方案的優點。我們為圖上的四種節點連線計算了四條PR曲線:閉環約束而沒有擴充套件節點的範圍 ķ-正則圖,沒有閉環約束和ķ-無正則圖,沒有閉環約束和 ķ-帶正則圖和閉環約束ķ-正規圖。圖8(b)顯示了使用閉環約束和ķ-正則化圖表表現最佳。還評估了SC方法在第一階段中的效果。圖8(c)顯示我們使用從不同邊界先驗生成的顯著圖整合的方法在第一階段表現更好。我們進一步比較了所提演算法的每個階段的效能。圖8(d)表明使用前景查詢的第二階段通過背景查詢進一步改善了第一階段的效能。


我們評估了所提出的方法對十四種最先進的自下而上顯著性檢測方法的效能。圖9顯示了所有方法的PR曲線。我們注意到,所提出的方法優於SVO [7],Gof[11],CB[18]和RC[9],它們是最近基準研究中顯著性檢測的最佳效能方法[4]。此外,所提出的方法明顯優於GS_SP[34]方法,該方法也基於邊界先驗。我們還使用[2]中提出的自適應閾值計算查準率、查全率和F-度量,定義為影象平均顯著性的兩倍。圖9的最右邊的圖表示所提出的演算法實現了最高精度和F測量值。總體而言,使用三個度量的結果表明,所提出的演算法優於最先進的方法。圖10顯示了評估方法的一些顯著性圖。我們注意到,所提出的演算法統一突出顯著區域並保留比其他方法更精細的物件邊界。

5.2 MSRA

我們進一步評估了在MSRA資料集上提出的演算法,其中影象由不同使用者用九個邊界框註釋。要計算查準率和查全率,我們首先將矩形擬合到二元顯著性圖,然後使用輸出邊界框進行評估。與MSRA-1000資料庫上的實驗類似,我們還使用平均顯著性的兩倍閾值對顯著性圖進行二值化,以計算查準率、查全率和F-測量值。圖11顯示了所提出的模型在這個大型資料集上的效能優於其他方法。我們注意到Gof [11]和FT [2]方法具有極大的查全率,因為它們的方法傾向於選
擇大的注意力區域,但代價是低精度。

5.3 DUT - OMRON


我們在DUT-OMRON資料集上測試所提出的模型,其中影象由五個使用者用邊界框註釋。類似於MSRA資料庫上的實驗,我們還計算了二元顯著圖的矩形,然後通過固定閾值和自適應閾值方法來評估我們的模型。圖12顯示建議的資料集更具挑戰性(所有模型執行得更差),從而為未來工作的改進提供了更多空間。

5.4 執行


基於具有Intel雙核i3-2120 3.3 GHz CPU和2GB RAM的計算機,表1列出了在MSRA-1000資料庫上使用matlab實現的當前最佳效能方法的平均執行時間。我們的執行時間遠遠快於其他顯著性模型。具體來說,SLIC演算法[3]的超畫素生成花費0.165秒(約64%),實際顯著性計算花費0.091秒。所提演算法的MATLAB實現可在http://ice.dlut.edu.cn/lu/1u/publications.html或http://faculty.ucmerced.edu/mhyang/pubs.html獲得。

 

6.結論

我們提出了一種自下而上的方法,通過圖表上的流形排序來檢測影象中的顯著區域,其結合了局部分組線索和邊界先驗。我們採用兩階段方法,使用背景和前景查詢進行排序,以生成顯著性圖。我們在大型資料集上評估所提出的演算法,並通過與十四種最先進的方法進行比較來展示有希望的結果。此外,所提出的演算法在計算上是有效的。我們未來的工作將側重於將多個功能與應用程式整合到其他視覺問題中。