Selective Search for Object Recognition
http://blog.csdn.net/charwing/article/details/27180421
Selective Search for Object Recognition
是J.R.R. Uijlings發表在2012 IJCV上的一篇文章。主要介紹了選擇性搜索(Selective Search)的方法。選擇性搜索綜合了蠻力搜索(exhaustive search)和分割(segmentation)的方法。選擇性搜索意在找出可能的目標位置來進行物體的識別。與傳統的單一策略相比,選擇性搜索提供了多種策略,並且與蠻力搜索相比,大幅度降低搜索空間,讓我們可以用到更好的識別算法。
現實中,很多圖像是包含多類別,多層次的信息的,如上圖。所以我們要用到多層分割的方法,並且要用多種分割策略。
(一)選擇性搜索(selectivesearch)
1. 分層分組:區域包含的信息比像素多,所以我們的特征是基於區域的。為了得到一些小的初始化的區域,用的是[13]中區域劃分的方法。
[13]具體看http://blog.sciencenet.cn/blog-261330-722530.html
然後我們的分層分組算法如下:
我們首先用[13]得到一些初始化的區域R={r1,….rn}
計算出每個相鄰區域的相似性s(ri,rj)
1. 找出相似性最大的區域max(S)={ri,rj}
2. 合並rt=ri∪rj
3. 從S集合中,移走所有與ri,rj相關的數據
4. 計算新集合rt與所有與它相鄰區域的相似性s(rt,r*)
5. R=R∪rt
直到S集合為空,重復1~5。
2. 各種分割策略
關於s(ri,rj)的計算,我們有多種方法,但要註意的是這些相似性特征應該是可以傳遞的。如當我們合並ri和rj成rt時,rt的特征可以由ri和rj直接計算,而不需要根據他們每個像素點的值進行重新計算。
(1) 多種顏色模型(color model):文章共比較了8種顏色模型
(2) 相似性準則的補充(complementary similarity measure)
共介紹了四種準則,每一種都是可以快速計算的。
Scolor(ri,rj)用於計算ri,rj的相似性。對每個區域,我們都可以得到一個一維的顏色分布直方圖。直方圖一共有25個區間,區域i的顏色分布直方圖為
如果有3個顏色通道,則n=75。還要用L1 norm來進行歸一化。
當i和j合並成t,區域t的顏色分布直方圖可以用下面式子進行計算:
t 的size用下面式子計算:
Stexture(ri,rj)我們可以用到SIFT(局部特征描述子)
SIFT介紹見:http://www.cnblogs.com/saintbird/archive/2008/08/20/1271943.html
我們取8個方向,方差為1的高斯濾波器,10個空間的直方圖來描述。
如果有3個顏色通道,n=240=8*3*10,同理得到區域i的紋理直方圖要用L1norm歸一化。
同理,紋理的傳遞性也可以用(2)式解決。
Ssize (ri,rj)鼓勵小的區域盡早合並。
size(im)表示整個圖片的像素數目。
Sfill (ri,rj)鼓勵有相交或者有包含關系的區域先合並。
BBij指包含i,j區域的最小外包區域。
在這篇文章中,我們用到如下計算相似性:
3. 初始化區域
用[13]得到的初始化區域可以根據閾值k得到不同的結果。
(二)用選擇性搜索進行識別(object recognition using selective search)
1. 訓練數據的產生
在訓練數據上,標註出目標區域,如上圖中綠色高亮區域的奶牛,將這些標註區域作為正樣本。使用selective search產生目標假設區域(也就是若幹個分割區域)。將分割區域的外接矩形和目標標註區域的重疊度在20%~50%之間的區域標註為負樣本。我們規定負樣本之間不能有超過70%的重疊。
有了正樣本和負樣本之後,我們用的特征提取方法是:
color-SIFT descriptors[32]+a finer spatialpyramid division[18]
然後進行SVM訓練。
2. 叠代訓練
采用叠代訓練方式,在每次訓練完成之後,挑選出false positives樣本,並將其加入到訓練樣本中,其實這便是增加了困難樣本數。使用其進行模型訓練,直到收斂(精度不在產生變化)。
(三)評價(evaluation)
文章給出了一些判斷標準。
ABO(Average Best Overlap)
G應該是物體所在的目標區域。L是selective search算法算出的候選區域。找出Selective Search算法中與該類目標區域覆蓋最多的區域。覆蓋率由(8)式計算。然後再除以該類的數目。
MABO(Mean Average Best Overlap)就是計算每一類的ABO值,再求均值。
之後的實驗都是基於這兩個評判標準的,詳細結果看論文。
本文提到的Reference:
[13] P. F. Felzenszwalb and D. P.Huttenlocher. Ef?cient Graph-Based Image Segmentation. IJCV, 59:167–181, 2004.
[18] S. Lazebnik, C. Schmid, and J. Ponce.Beyond bags of features: Spatial pyramid matching for recognizing natural scenecategories. In CVPR, 2006.
[32] K. E. A. van de Sande, T. Gevers, andC. G. M. Snoek. Evaluating color descriptors for object and scenerecognition.TPAMI, 32:1582–1596, 2010.
代碼下載地址:http://pan.baidu.com/s/1sjOLbat
Selective Search for Object Recognition