1. 程式人生 > >A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

行處理 敏感度 生成 類比 執行 什麽 .html 之一 -c

A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

技術分享圖片


  1. 題目:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
  2. 作者:Laurent Itti, Christof Koch, and Ernst Niebur
  3. 領域:視覺顯著性
  4. 類型:新問題,新方法


核心思想


從人類視覺心理學的角度入手來研究該問題,采用方法包含了兩部分,一是提取顯著圖(Saliency Map, SM),二是動態更新關註點(Focus of Attention, FOA)


技術分享圖片


受生物學啟發,該方法模仿人類自下而上的視覺選擇性註意過程,提取圖像的底層特征,構造相應的顯著圖。


顯著圖的構造基於“特征集成理論”(feature integration theory),每一種特征都會有自己的顯著圖,在某個特征下,不同位置的像素之間互相競爭,最終會有一些像素脫穎而出,成為該特征中的顯著點。


處理流程


技術分享圖片

提取顯著圖(Saliency Map, SM)


  • 顯著圖的構造基於“特征集成理論”(feature integration theory),每一種特征都會有自己的顯著圖,在某個特征下,不同位置的像素之間互相競爭,最終會有一些像素脫穎而出,成為該特征中的顯著點
  • 作者根據“中心-周圍”拮抗理論,算出每一個像素點(作為中心點)相對於周圍的像素點的顯著值,所有點的顯著值就構成了一副顯著圖。而不同特征下的顯著圖經過某種方式,匯集成最終的場景顯著圖。


作者在這裏采用了三種特征:亮度,顏色(根據“顏色雙對立”系統[color double-opponent]),角度(使用Gabor濾波器),為了生成這些特征的顯著圖(Conspicuity Maps),作者先對原圖像進行尺度變換,生成九層高斯金字塔.

這一方面增強了該方法的尺度不變性,另一方面也模擬了層級感受野的機制。


我們可以把金字塔中的低層級圖像的像素點看成“中心”,把高層級圖像的對應像素點看成“周圍”

。然後把高層級圖像通過插值的方式變成和低層級圖像相同的大小,最後,把兩個圖像對應像素點的某種特征的值,進行逐點相減,產生一個尺度下某種特征的顯著圖。

中央周邊差操作,是根據人眼生理結構設計的。人眼感受野對於視覺信息輸入中反差大的特征反應強烈,例如中央亮周邊暗的情況、中央是綠色周邊是紅色的情況等,這都屬於反差較大的視覺信息。

在高斯金字塔中,尺度較大的圖像細節信息較多,而尺度較小的圖像由於高斯平滑和減抽樣操作使得其更能反映出局部的圖像背景信息,因而將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作(across-scale),能得到局部中心和周邊背景信息的反差信息。


最後還要把得到的不同特征的不同尺度的顯著圖進行合並,得到最終的顯著圖.


首先是合並同一特征不同尺度的顯著圖.

  • 作者把它們都放縮到金字塔的第四層級(最開始選擇的時候,中心點只取2,3,4這三級,所以得到的顯著圖只有這三級的,因此在這裏就是把這些級通過降采樣到第四級)
  • 然後把每張顯著圖的每一個像素點的顯著值進行歸一化

作者歸一化的方式比較特別,原則就是去除不同特征因為幅值不同而帶來的不均衡性,以及盡可能地讓最顯著的點突出出來(加大“貧富差距”)

  • 最後,把所有圖對應點的顯著值相加,得到最終該特征的顯著圖。要註意的是,對於角度特征,作者采用了四個角度,因此實際上可以看成是四個特征,所以在對角度特征進行顯著圖合並時
  • 作者是先對各個角度做一次顯著圖合並
  • 然後把合並好的四個圖直接疊加起來得到角度特征的顯著圖


接下來是合並不同特征的顯著圖.

  • 作者先把三個特征的顯著圖都做再一次上述的歸一化
  • 然後進對三者求平均,便得到最終的顯著圖

有趣的是,作者把得到的結果記為技術分享圖片,而不是SM (Saliency Map),這是因為重頭戲在接下來的部分.




亮度特征通道

技術分享圖片


顏色特征通道

技術分享圖片

其中表示黃色的Y: negative values are set to zero.


方向特征通道

通過利用方向Gabor金字塔從I中獲得(I即為第一個特征圖Intensity), 其中σ∈[0..8]表示參數範圍, 技術分享圖片表示涉及到的方向.

Gabor濾波器是余弦柵格和二維高斯包絡的產物, 這個可部分約等於在靈長動物的定位選擇神經系統中, 視覺皮層接收信息的敏感度(脈沖響應)?Gabor filters, which are the product of a cosine grating and a 2D Gaussian envelope, approximate the receptive field sensitivity profile (impulse response) of orientation-selective neurons in primary visual cortex [A.G. Leventhal, The Neural Basis of Visual Function: Vision and Visual Dysfunction, vol. 4. Boca Raton, Fla.: CRC Press, 1991.].


center-surround differences

技術分享圖片

技術分享圖片

技術分享圖片

註意

  • 公式中的運算符.?技術分享圖片表示先對b進行插值擴張, 調整大小到a的尺寸, 再進行像素級差值計算.
  • 這裏得到的幾個特征圖大小只有三種尺度, 即2, 3, 4.



a new map normalization operator技術分享圖片

技術分享圖片

  1. normalizing the values in the map to a fixed range 技術分享圖片, in order to eliminate modality-dependent amplitude differences;
  2. finding the location of the map‘s global maximum 技術分享圖片 and computing the average?技術分享圖片 of all its other local maxima;
  3. globally multiplying the map by 技術分享圖片 .

如果一個特征圖只有部分值非常突出的話,那麽技術分享圖片就會很大,特征圖整體乘以技術分享圖片就會增強整個特征圖,如果普遍值都較高的話技術分享圖片就會很小,因此乘以平方後會抑制整個特征圖。


組合不同的特征圖的難點之一在於不同的特征圖表示了不可比較的模態的先驗信息,有不同的動態範圍和提取機制。42個特征圖結合時,在一些特征圖中表現非常強的顯著目標可能被其它更多的特征圖的噪聲或不顯著的目標所掩蓋


在缺少top-down監督的情況下,作者提出了一個歸一化操作算子技術分享圖片整體提升那些有部分強刺激峰值(醒目位置)的特征圖,而整體抑制那些包含大量可比峰值響應


圖解見上圖,對於亮度特征圖,普遍的值都較高,因此進行整體抑制,而對於方向特征圖,只在某一小部分區域有著較大的值,因此進行整體提升。


conspicuity maps

技術分享圖片

技術分享圖片

The three conspicuity maps are normalized and summed into the final input 技術分享圖片 to the saliency map:

技術分享圖片

註意

  • 公式中的技術分享圖片中的運算符表示進行像素級加和. 而且這裏註意, 只操作了c+3, 沒有考慮+4的情況.
  • 這裏的公式中, 在進行歸一化計算之前, 所有的得到的特征圖先放縮到等級4的尺度上(原本只2, 3, 4).
  • 從上式我們可以看出一個很重要的思想:作者假設了相似的特征之間對於顯著性競爭很強,而不相似的特征對於顯著性圖的貢獻沒有競爭,是互相獨立無關的。




動態更新關註點(Focus of Attention, FOA)


一般而言,我們得到上一步的顯著圖就完事了,而作者又增加了一個動態更新關註點的過程,目的就是為了模擬人類視覺註意力轉移的過程,從而生成更具表現力的顯著圖。


此處,作者把真顯著圖(SM)類比成一個動態更新的神經層,它的初始輸入是上一步得到的尺度等級技術分享圖片靜態顯著圖(S),?並且都是獨立的.

在任何給定的時間,顯著性圖(SM)的最大值定義了最顯著的圖像位置?,而關註焦點(FOA)應該指向該位置.


然後作者又定義了一個激活神經網絡:“勝者為王”網絡(winner-take-all),?其中單元之間的突觸相互作用確保僅保留最活躍的位置,而所有其他位置被壓制.?

S、SM、WTA網絡三者的大小是一致的,並且每一個點都是一一對應的。


初始時,SM的值由S決定(通過類似神經信號傳導的方式),而之後它又會在WTA網絡的影響下進行更新

  • S中最顯著的點會給SM中對應的點最大的初始激勵值
  • SM中每一個點又會刺激WTA網絡中對應的點
  • 當WTA網絡中的某個點首先達到激活閾值時,一個真註視點(FOA)就產生了

SM中的神經元的電位在更為顯著的區域會增長得更快,這些神經元不會fire.

fire的意思是當神經元的電位超過一個閾值的時候,電位就會立刻降到一個固定的較低的值去,然後重新開始增長電位, 不會fire也就是說這裏的神經元僅僅充當一個積分電路的角色,用來累積電位,但電位永遠不會超過設定的閾值


這個機制很好地模擬了當有多個顯著點時,人類是怎樣產生註意的:第一個引起註意的就是註視點.

至於哪個會是第一個,就仁者見仁智者見智了,畢竟WTA網絡的激活方式並沒有指定,比如可以所有的點同步變更,也可以先變更中心區域的點


當WTA網絡出現了一個勝者時,將會同時執行以下三個過程:

SM中的每一個神經元都會刺激與它相連的WTA神經元,所有的WTA神經元都各自發展,互相獨立,直到有一個WTA神經元率先達到了電位閾值,然後fire了。

  1. 將FOA轉移到勝者對應的點上,即更新註視點
  2. 重置WTA網絡(清零),為下一次註視點變更做準備
  3. 在SM中對註視點周圍的區域做一定時間的局部抑制確保能夠發生註視點轉移,並且確保註視點不會立刻返回來

這樣做的好處是在下一次的電位累積中,顯著性稍微比最強的差一點的區域可以成為新的winner,從而可以使得FOA(focus of attention)動態變化,因為我們關註的東西可能不只一處,同時還防止下一次的FOA又是上一次檢測到的顯著性區域。

這種機制被稱為“inhibition of return”,它已經在一些研究中被證明是確實存在的.
說得通俗一點,就是本次稱為FOA的區域在下一次直接在相應的SM圖中的值變為0,讓其他區域有機會稱為新的FOA。


最後值得說明的一點是,在每一次勝者為王的競爭中,最後勝出的是一個像素,那麽如何根據這個像素來定義FOA區域呢? 本文采用的方法是以這個像素為中心,半徑是SM圖長寬中較小的那個邊長的1/6,形成一個圓形區域作為FOA區域。而關於leaky integrate-and-fire neuron模型中閾值的選擇在本文引用的論文中有介紹,這裏就不做具體介紹了。


為了模擬“近鄰優先”(proximity preference)的原則,作者還在SM上對註視點周圍(除了抑制區域外)的點加了一個短時間的激勵。


當然作者對它的模型進行調參了,以便使註視點轉移的過程更接近人類視覺系統的行為。


結論


  • The authors showed that this model is superior to previous spatial frequency content (SFC) based models in the presence of noise
  • Resulting FOA trajectories were not directly compared against human visual trajectories, but agreed with other models when identifying regions of high saliency


眼見為實!讓程序跑出來的結果和我們人類的判斷作比較就好。作者將他人做過的根據眼動觀測儀的結果(Spatial Frequency Content),與自己用程序跑出來的結果進行對比,可以看出來結果還是不錯的。


當然這個模型也是有缺點的:

  • 太依賴特征的選擇了,沒有考慮到的特征就不會產生出顯著性,太過於human-design,比較適合專用系統。
  • 此外,由於最終的顯著圖是在第四級高斯金字塔下呈現的,這就導致了分辨率的降低,也就損失了一些圖像的信息。作者之所以這樣做,是因為他不關心精確的分割問題,只是找出顯著點,然後大致畫一塊區域。


補充內容


顯著性


人在用眼睛看到一個場景的時候,會首先註意到場景中非常特別、吸引人的部分。


舉個例子,有十個陌生人朝你走過來,從左到右第八個人穿的黑色衣服,其他九個人穿的白色衣服,除了衣服顏色不一樣,其他一模一樣。不帶任何主觀目的地看,你會首先註意到誰?一般來說我們會註意到穿黑色衣服的那個人,為什麽呢?因為他和其他九個人衣服顏色不一樣,即他在這十個人裏面是顯著的,人類會首先註意到顯著的東西。


那我們說人首先會註意到顯著的東西這句話有沒有科學依據呢?論文中提到說經過前人的一些研究發現,中級和高級的視覺處理過程會首先選取當前場景的一個子集,然後再進一步進行處理,比如進行分類識別等,這樣做的目的是減少場景分析的復雜度。那麽這個子集會包括什麽內容呢?主要包括的就是“focus of attention”, 後文稱為FOA,即註意的焦點。


自下而上/自上而下


選取這些焦點是通過兩種方式的結合,一種是自下而上(bottom-up)的、基於顯著性驅動的與任務無關的方式,這種方式是快速的,另一種是自上而下(top-down)的,受到我們意誌力控制的、與任務相關的方式,這種方式是相對較慢的。


在本文的“十個人”的例子,如果你不帶任何目的的看這十個人,那你首先註意到的一般會是黑色衣服的那個人,這就是bottom-up的方式.

我對這裏bottom-up的理解是bottom指的是場景,up指的是大腦,即場景中什麽東西最特別,那我的大腦就先註意到什麽東西。

bottom-up的前提是你不帶任何目的的看,那假如說現在我接到了一個任務,告訴我說事實上這十個人裏面,最左邊的那個是一位特工,其他9個人都是他的替身,用來掩人耳目的而已,而我要做的事情是和真正的特工接頭,比如說走到那個特工面前然後對念兩句唐詩就完成了接頭。那麽當這十個人朝你走過來的時候,你會首先註意到哪個人?


可以類比你去機場或者車站接朋友的時候,在人群中我們一定會先註意到朋友在哪兒,而不會是其他人在哪兒。這就是top-down的方式,即我們大腦中已經有了一個目的或者說任務要找誰,然後當場景出現的時候自然就會基於這個任務去選擇首先註意到誰。


leaky integrate-and-fire neuron


它是一種神經元的模型,關於這種神經元模型的細節可以參考 SPNM,裏面有詳細的介紹和數學推導。本文是將最後的SM建模成為一個在尺度為4的情況下的二維leaky integrate-and-fire neuron的模型。


論文裏所說的電位以及fire等詞匯都是來自leaky integrate-and-fire neuron模型中的。


討論


  • 在靈長類視覺系統中,顯著性圖可以作為計算機視覺中低級系統和高級系統之間的過濾器。
  • 這裏提出的模型相當復雜(在SIFT特征提取的順序上)。
  • 作為更先進的cv算法的先驅,可能是有用的。


參考鏈接


  1. 翻譯:
  1. https://blog.csdn.net/weixin_40740160/article/details/84640669
  2. https://blog.csdn.net/chenjiazhou12/article/details/39456589
  1. 筆記:?
  1. 簡練:?http://yugnaynehc.github.io/2016/04/23/a-model-of-saliency-based-visual-attention-for-rapid-scene-analysis/
  2. 細致:?https://blog.csdn.net/xbcReal/article/details/53590039
  1. PPT:?http://www.ee.unlv.edu/~b1morris/ecg782/sp14/docs/kauke_saliency_20140410.pdf
  2. 論文:?http://ilab.usc.edu/publications/doc/Itti_etal98pami.pdf

A Model of Saliency-Based Visual Attention for Rapid Scene Analysis