無聊讀論文:視覺注意力模型RARE2012
阿新 • • 發佈:2020-01-07
Riche, N., Mancas, M., Duvinage, M., Mibulumukini, M., Gosselin, B., & Dutoit, T. (2013). RARE2012: A multi-scale rarity-based saliency detection with its comparative statistical analysis. Signal Processing: Image Communication, 28(6), 642–658. https://doi.org/10.1016/j.image.2013.03.009
一篇老早老早以前的文章啦,今天看到有文章使用它的方法,特地拜讀下。
視覺注意力機制這東西我們感興趣,那就是因為它有用呀。比如幫助人機互動介面優化,讓使用者使用互動按鈕更加舒服;廣告設計的評估;視訊影象資料壓縮,著重保留更感興趣的影象資訊。機器人的視覺感知等等吧。
關於人類的視覺注意力的通用定義,不知道現在生物學上有沒有研究明白這是怎麼回事,反正在這篇文章發表的時候是沒有滴。但是一般意義上講,人類的注意力可以定義為對傳入刺激進行優先排序並有選擇地關注其中一部分的自然能力。行,有個初步的定義也好呀。那視覺上的注意力咋搞呢,大腦接收到的影象訊號並不只是一個待排序的訊號序列呀。
在計算機視覺中,對注意力機制的探索大部分依賴於“saliency maps”這一概念,字面意思就是“顯著性圖”。簡單來講,“saliency maps”就是對某一個模型的輸入訊號做了一個對映,對映的結果就是,對模型比較重要的訊號會得到一個較強的相應。
那麼對於視覺注意力機制來講,輸入就是影象;人眼容易被吸引的地方就是比較重要的訊號。所以,解釋視覺注意力機制,就是想找到一個更好的“saliency maps”。它應該迅速的根據輸入影象告訴我們,那些地方對我們的視覺感知系統非常有吸引力。
按照這樣的思路,“saliency maps”中就包含了兩種機制。一種是自下而上的注意力,也稱為刺激驅動的或外在的注意力。另一種是自上而下的,也稱為任務驅動的或內生的注意力,它集成了觀察者在特定情況下可能具有的特定知識(任務,場景型別的模型,可識別的物件等)。而RARE2012純粹是自下而上的,因為自下而上的方法效能更好。就是完全依靠輸入影象資訊,不需要考慮其他決策機制,當然效能更好辣。
文章對比了當年流行的好幾種 方法,結論就是他們的方法挺好。哈哈哈
他們的方法:
-------------------------------------------------------------------------------------------
演算法第一階段:
第一步:首先用主成分分析PCA的方法,把rgb三通道的影象對映到三個線性不相關空間。就是拆分成了三個通道,這三個通道中,channal1主要包含亮度資訊,而channal2和channal3則包含色度的資訊。但是三個通道的資訊都是獨立的。看起來它的三個通道有點像hsv嘛,hsv就是明度、色調和飽和度。不過具體怎樣分解的我不知道哦,還要看原始碼,文章中沒說。
第二步:對三個通道的影象直接用PCA計算rarity。哎,這裡還是得看原始碼,對影象進行主成分分析得到降維我可以理解,那上邊用PCA方法拆分通道是咋回事呢?不管如何,這樣做得到了三張rarity分佈圖。這樣做就是在提取影象中的低階顏色特徵,當然也包括亮度分佈特徵。
第三步:然後再對上述三個通道影象利用Gabor濾波器提取方向特徵圖。選擇Gabor濾波器是因為Gabor類似於大腦中視覺皮層(V1)的簡單神經處理過程。
Gabor定義為:
Gabor與人類視覺系統中簡單細胞的視覺刺激響應非常相似。它在提取目標的區域性空間和頻率域資訊方面具有良好的特性。Gabor小波對於影象的邊緣敏感,能夠提供良好的方向選擇和尺度選擇特性,而且對於光照變化不敏感,能夠提供對光照變化良好的適應性。
用Gabor 函式形成的二維Gabor 濾波器具有在空間域和頻率域同時取得最優區域性化的特性,因此能夠很好地描述對應於空間頻率(尺度)、空間位置及方向選擇性的區域性結構資訊。Gabor就是用來提取影象中的空間方向和紋理特徵。
文章中對Gabor分別輸入8個方向,這樣對於一幅輸入影象來講,一共會有8個結果。這8幅輸出要融合到1張輸出影象中。
同一角度不同方向的輸出融合:
根據公式(2)對8張不同方向圖計算效率係數:
根據EC大小對8張方向圖排序。每張方向圖都乘以權重:i/N 。N=8,i就是這張方向圖的EC排第幾位。文中設了一個閾值,篩選掉EC太小的方向圖:
T=0.3 是作者認為比較合理的值。
然後融合8張方向圖:
這樣PCA方法得到的三張影象channal1、channal2和channal3經過Gabor提取到了3幅紋理方向的rarity圖。
-------------------------------------------------------------------------------------------
第二階段:
這一階段的稀有度機制才是rare2012的關鍵,畢竟名字就是這個嘛。
方法就是:統計在設定的尺度範圍內,該畫素出現的頻率。
n_i 是當前畫素j的灰度值為i的概率(比例), n_i 就是根據rarity圖的直方圖得到的。這個公式說的有點不明不白的,S是啥?看起來是沒有歸一化的rarity圖中的灰度最大值。不管怎樣,它的思想就是統計影象中某一灰度出現的頻率,認為是某一個灰度在區域性區域出現的概率。這就是該畫素的注意力得分,就是Attention()。
Fig. 2中給出了一個例子,輸入左圖,藍色的區域在整幅影象中出現的概率較低,那麼它在稀有度圖中的值就偏高。
第二階段中,對第一階段得到的6張map計算attention。
-------------------------------------------------------------------------------------------
第三階段:
對第二階段得到的6張attention map進行融合操作。
首先是通道內融合,由channal1得到的顏色特徵圖和紋理方向圖計算attention後,進行融合。融合方法為:
就是EC和map點乘。這裡出現了S哦,不過它是不是公式5中的S呢,這個要看下原始碼,論文中沒說。N=2,為啥是2,哪裡來的兩張圖,也不明白。
先不管這些地方,看最後,rare2012是如何得到最終的輸出的:
根據第三階段的融合操作,三個通道的影象最後輸出了三個結果。
這三個結果再融合起來,就是最後的輸出了。融合的方法就是第一階段的第三步,融合gabor後的8張影象的方法。首先計算效率係數,然後排序,然後乘權重,閾值篩選。
rare2012是由rare2007和rare2011發展而來,每一次改進都帶來的一些創新。效能更好,考慮的特徵更全面。俺麼rare2012結果如何?
對比結果中,上面是眼動監測的結果,也就是人眼實際的聚焦情況。下面是rare2012的結果。看起來挺好的嘛。
但是rare2012有時也有完全出錯的時候。fig7中後面三個資料的結果,rare2012都錯了。看來注意力機制還是要引入充分合理的自上而下的邏輯判斷。
不過rare2012在當年對比同類模型,還是相當有優勢的。當然論文中有定量的效能和準確率分析。
&nbs