1. 程式人生 > >27.Saliency Detection A Spectral Residual Approach

27.Saliency Detection A Spectral Residual Approach

不得不說,這篇文章很短,但很經典,發表在CVPR2007,程式碼也只有5行,可能因為個人原因,感覺裡面還是有很多地方不太明白為什麼,分享給大家我的小翻譯,希望我們可以互相學習

Saliency Detection A Spectral Residual Approach

顯著性檢測光譜殘留方法

摘要

人類視覺系統檢測視覺顯著性的能力非常快速和可靠。然而,這種基本智慧行為的計算建模仍然是一個挑戰。 本文提出了一種簡單的視覺顯著性檢測方法。

我們的模型獨立於物件的特徵,類別或其他形式的先驗知識。通過分析輸入影象的對數譜,我們提取了譜域中影象的譜殘差,並提出了一種快速的方法來構造空間域中的相應顯著圖。

我們在自然圖片和人工影象(如心理模式)上測試此模型。結果表明我們的方法快速而穩健的顯著性檢測。

 

  1. 引言

目標識別的第一步是目標檢測。物件檢測旨在在識別之前從其背景中提取物件。但在進行識別特徵分析之前,機器視覺系統如何從未知背景中提取顯著區域?

傳統模型通過將特定特徵與目標相關聯,實際上將此問題轉換為特定類別物件的檢測[3]。由於這些模型基於訓練,因此可擴充套件性成為廣義任務的瓶頸。面對不可預測和無數類別的視覺模式,需要通用的顯著性檢測系統。換句話說,顯著性檢測器的實現應該儘可能少地參考目標的統計知識。

人類視覺系統的顯著性檢測過程是如何實現的?據信,涉及兩個階段的視覺處理:第一,平行,快速但簡單的預注意過程;然後,連續,緩慢但複雜的注意過程。文獻[27,24]中討論了預注意處理的特性。在此階段,某些低階特徵(如方向,邊緣或強度)可以自動“彈出”。從目標檢測的角度來看,在預注意階段彈出的是目標的候選。為了解決已被檢測但尚未被識別為物件的候選者,Rensink在他的連貫性理論中引入了原始目標的概念[15,13,​​14]。

在機器視覺領域,已經出現模型來找到給定影象的”原始目標”。基於Treisman的整合理論[24],Itti和Koch提出了一種模擬人類視覺搜尋過程的顯著性模型[8,6,7]。最近,Walther擴充套件了顯著性模型,併成功將其應用於目標識別任務[26]。然而,作為預處理系統,這些模型在計算上要求很高。

大多數檢測模型都側重於總結目標物件的屬性。但是,不太可能存在由各種類別的物件共享的一般屬性。在本文中,我們以另一種方式提出這個問題:探索背景的屬性。

在第2節中,引入了光譜殘差。從自然影象統計原理出發,我們提出了一種模擬預注意視覺搜尋行為的前端方法。與傳統的影象統計模型不同,我們分析每個影象的對數譜並獲得譜殘差。然後我們將光譜殘差變換到空間域以獲得顯著圖,其提示原始物件的位置。在第3節中,我們還展示了基於光譜殘差方法的多目標檢測。

為了評估我們方法的效能,在4.1節中,我們將我們的方法與[8]和人類標記的結果進行了比較。結果表明,該方法是一種快速可靠的計算模型,可用於早期視覺處理。

 

  1. 光譜殘差模型

高效編碼是一種通用框架,在該框架下可以解釋我們的視覺處理的許多機制。 Barlow [1]首先提出了有效編碼假設,該假設消除了感官輸入中的冗餘。視覺系統的一個基本原則是抑制對頻繁出現的特徵的響應,同時保持對偏離規範的特徵敏感[9]。因此,只有意外訊號才能傳遞到後續處理階段。

從資訊理論的角度來看,有效編碼將影象資訊H(Image)分解為兩部分:

H(圖片)= H(創新)+ H(先驗知識),

H(Innovation)表示新穎部分,H(Prior Knowledge)是應該由編碼系統抑制的冗餘資訊。在影象統計領域,這種冗餘對應於我們環境的統計不變特性。這些特性已經在與自然影象統計有關的文獻中得到了全面的討論[4,25,17,18]。現在人們普遍認為自然影象不是隨機的,它們遵循高度可預測的分佈。

在以下部分中,我們將演示一種通過刪除統計冗餘元件來近似影象的“創新”部分的方法。我們相信這一部分本身就是在預注意階段突然出現原始物件的原因。

 

2.1 對數譜表示


在自然影象統計的不變因素中,尺度不變性是最受歡迎和最廣泛研究的屬性[20,17]。此屬性也稱為1/f法則。它指出自然影象集合的平均傅立葉譜的振幅A(f)服從分佈:

在對數-對數尺度上,自然影象集合的振幅譜在經過取向平均後大致位於直線上。

儘管對數-對數譜在理論上已經成熟並且已被廣泛使用,但它在單個影象的分析中不受青睞,因為:(1)在單個影象中不可能發現尺度不變性;(2)取樣點的比例不均勻,低頻部分在對數平面上稀疏地跨越,而高頻部分則在一起,受到噪聲的影響[25]。


在本文中,我們採用了影象的對數譜表示L(f)而不是對數-對數表示。對數譜可以通過L(f)=log(A(f))獲得。log-log和log譜表示之間的比較如圖1所示。

對數譜表示已用於與統計場景分析有關的一系列文獻[22,23,21,11]。在下一節中,我們將在顯著性檢測任務中利用對數譜的功能。對數譜的例子如圖2所示。我們發現不同影象的對數譜具有相似的趨勢,儘管每個影象都包含統計奇異點。圖3分別顯示了在1,10和100個影象上的平均光譜曲線。該結果表明平均對數譜中的區域性線性。

2.2 從光譜殘差到顯著圖

相似之處意味著冗餘。對於旨在最小化冗餘視覺資訊的系統,它必須意識到輸入刺激的統計相似性。因此,在可以觀察到相似性的不同對數譜中,值得我們注意的是從平滑曲線中跳出的資訊。我們認為,光譜中的統計奇異點可能是影象中異常區域的原因,彈出原始物件。

給定輸入影象,從下采樣影象計算對數譜L(f),其中高度(或寬度)等於64px。輸入大小的選擇與視覺比例有關。第3.1節討論了視覺尺度和視覺顯著性之間的關係。


如果先前獲得了L(f)中包含的資訊,則需要處理的資訊是:

其中A(f)表示對數譜的一般形狀,其作為先驗資訊給出。R(f)表示輸入影象特有的統計奇異點。在本文中,我們將R(f)定義為影象的光譜殘差。


如圖3所示,平均曲線表示區域性線性。因此,採用區域性平均濾波器hn(f)來近似A(f)的形狀是合理的。在我們的實驗中,n等於3.改變hn(f)的大小隻會稍微改變結果(見圖5)。平均頻譜A(f)可以通過卷積輸入影象來近似:


其中,hn(f)是一個N*N的矩陣,由以下定義:


因此,光譜殘差R(f)可以通過以下方式獲得:

在我們的模型中,光譜殘差包含影象的創新。它就像場景的壓縮表示一樣。使用逆傅立葉變換,我們可以在空間域中構造稱為顯著圖的輸出影象。顯著性圖主要包含場景的重要部分。殘餘光譜的內容也可以被解釋為影象的意外部分。因此,顯著性對映中每個點的值都被平方,以表示估計誤差。為了獲得更好的視覺效果,我們使用高斯濾波器g(x)(σ= 8)對顯著圖進行了平滑處理。

總之,給定影象I(x),我們有:


其中F和F-1分別表示傅立葉變換和逆傅立葉變換。 P(f)表示影象的相位譜,其在處理期間被保留。

  1. 檢測顯著圖中的原始物件


顯著性圖是原始物件的顯式表示,在本節中,我們使用簡單的閾值分割來檢測顯著性中的原始物件。 給定影象的S(x),獲得物件圖O(x):

根據經驗,我們設定threshold=E(S(x))*3,其中E(S(x))是顯著性圖的平均強度.閾值的選擇是誤報和忽視目標之間的權衡問題。 第4.1節提供了對此問題的簡要討論。

在生成目標對映O(x)的同時,可以方便地從輸入影象中的對應位置提取原始物件。按順序提取多個目標。

3.1 選擇視覺尺度


視覺系統在某些尺度下工作。例如,在大規模中,人們可以將房屋視為物體,但是在小規模中,房屋的前門很可能作為物體彈出。我們實驗中的比例選擇等於輸入影象尺寸的選擇。然而,在更小的範圍內,大的特徵與影象中微小但突然的變化相比變得沒有競爭力。改變比例會在顯著性圖中導致不同的結果。該特性如圖7所示。

視覺尺度與視覺感測器的光學能力緊密相關。對於預先注意的任務,採用常數因子作為視覺尺度的估計是合理的。由於預注意力視覺的空間解析度非常有限[5]。如果沒有緩慢的審查過程,人類就不太可能察覺到影象的細節,這與傅立葉頻譜中的高頻部分相對應[12]。根據模擬實驗,我們發現64 px的輸入影象寬度(或高度)是對正常視覺條件尺度的良好估計。

 

4. 實驗和分析

評估目標檢測系統的效能並不容易。其中一種廣泛使用的測量方法是記錄眼球運動[7]。然而,這種方法在我們的實驗中並不適用,因為眼動儀只記錄位置資訊,不能記錄被關注區域的大小和形狀。此外,隱蔽的注意力在目標檢測中起作用,可以在沒有明顯眼睛運動的情況下感知原始物體。

 

4.1 評估結果

在我們的實驗中,我們提供4個自然場景影象。這些影象取自[11],[10]和[26]。每個受試者被指示“選擇呈現物件的區域”。如果每個主體都報告不可能在某個影象中定義物件,那麼該影象將從資料集中被拒絕。最後,收集了62張影象來測試我們的方法的效能。

實驗的目的不同於分割[10]。分割任務的主要問題是空間的突然變化。但在我們的任務中,手工貼標機只集中在前景和背景之間的邊緣。


對於每個輸入I(x),從第k個手工貼標機獲得的二進位制影象表示為Ok(x),其中1表示目標物件,0表示背景。給定生成的顯著圖S(x),可以獲得命中率(HR)和誤報率(FAR):

該標準指出,最優顯著性檢測系統應該在沒有處理者建議原始物件的區域中響應低,並且在大多數貼標籤者在原始物件的共識處相遇的區域中響應高。


我們將結果與該領域的先前方法進行比較,我們還基於Itti眾所周知的理論[8]生成顯著性圖作為控制集。可以從http://www.saliencytoolbox.net下載此方法的MATLAB實現。對於Itti的方法,影象被下采樣到320×240。對於光譜殘差法,每個顏色通道都是獨立處理的。為了進行比較,我們必須使這兩種方法的FAR或HR相等。例如,給定光譜殘差顯著性圖的距離,我們可以通過引數c來調整Itti方法S(x)的顯著性圖:


和使用ˆS (x),而不是S(x)用等式11和等式12來計算FAR和HR。同樣的,在給出了Itti方法的HR的情況下,我們線性地調整了由譜殘差產生的顯著性對映。

結果表明,與Itti方法相比,該方法具有更好的綜合性能。在計算上,執行FFT的成本相對較低——這為顯著性檢測器帶來了相當大的優勢,使其更容易在現有系統上實現。

 

4.2 對心理模式的響應

我們還用人工模式測試我們的方法。這些模式被一系列注意力實驗[24,27]採用,以探索預注意視覺搜尋的機制。


人們普遍認為,某些複雜的特徵超出了預先注意的能力,必須採用更精細和耗時的搜尋過程來區分圖9中“閉合”等模式中的奇異點。相應地,我們的方法無法找出“c”中的唯一圓。

5.討論

我們提出了一種通用目標檢測方法。該方法基於影象的對數譜表示。我們的主要貢獻是發現光譜殘差及其檢測原始物體的一般能力。

 

5.1 光譜殘差法的前景

譜殘餘方法的一個優點是它的通用性。在我們的系統中,不需要顯著性檢測所需的先驗知識。此外,這種顯著性的一體化定義涵蓋了未知特徵,例如圖9中的“曲線”。 此外,光譜殘差解決了來自不同通道(例如,形狀,紋理和方向)的加權特徵的問題。 與其簡單的實現相比,我們的系統的結果被證明是有效的。 最後,與其他檢測演算法相比,我們的方法的計算消耗非常簡約,為實時系統提供了一種很有前景的解決方案。

 

5.2 進一步的工作

我們的結果與人類視覺系統的表現有驚人的相似之處,特別是對心理模式的反應,都是巧合,還是人類視覺系統和光譜殘差有生物學意義?據報道,具有相似頻譜的不同物體相互干擾[2]。最近的研究還表明,當仔細調整背景光譜以掩蓋前景光譜時,視覺目標需要更多時間來識別[28]。需要做更多的工作來發現早期視覺的光譜特性。

 在本文中,我們的討論僅限於靜態影象。雖然可以在不考慮視訊序列的連續性的情況下計算視訊序列的每個幀的顯著性對映,但是併入運動特徵將極大地擴充套件我們的方法的應用。由於運動特徵的特殊性,尚未提出統一的特徵模型。然而,我們很高興看到已經將動作納入一般特徵框架[16]。

另一項潛在的工作是將我們的方法與分割技術合作。分割是一個獨立的研究領域,其主要目標是分離邊界。相比之下,我們的方法忽略了物件的空間同質性。例如,在圖8的最後一個例子中,馬球運動員和他們的馬被分開。為了實現通用物件檢測,應該進一步努力來界定物件的清晰邊界。