1. 程式人生 > >選擇性搜尋Selective Search for Object Recognition

選擇性搜尋Selective Search for Object Recognition

本文地址:https://link.springer.com/article/10.1007/s11263-013-0620-5

Abstract

Selective Search結合窮舉搜尋與分割進行物體識別,同時結合影象層次進行識別。

與窮舉搜尋不同的是,本論文提出能不能把大部分無用的區域刪掉,只留下可能存在物件的區域,這樣會大量的節省時間。

作者藉助層次聚類的方法,進行物件識別。

 

selective search 主要解決的是把影象中的物體框出來。

此方法結合了詳盡搜尋與分割兩種方法的優勢。結合分割中的優勢,我們採用影象結構來指導我們的樣本搜尋。結合詳盡搜尋的優勢,我們要把所有的物體全部標註出來。

Introduction

我們在識別物體之前,先將其進行劃分。分割的目的,是通過通用演算法對影象進行獨特的分割,其中有一個部分用於影象中的所有物件輪廓。

影象是存在分層的:在圖1a中,沙拉和勺子在沙拉碗裡,沙拉碗又放在桌子上,這是有層次關係的。

我們要用分層分割槽來解決的此類問題。

我們針對物體物件,有多種分類的原因。

例如對於上圖來說:大體來說,有顏色區分,紋理區分,結構區分。

在(b)中區分貓2是根據顏色,而不是紋理。

在(c)變色龍的識別,可以通過紋理而不是周圍的顏色,無法與周圍的葉子區別開來。

在(D)輪子可以是汽車的一部分,因為它們是封閉的,而不是因為它們在質地或顏色上是相似的。

 

最重要基礎的問題是,如果區域有很複雜的特徵,例如人臉在毛衣上面,這兩個事物按理來說是兩個物件,但是若兩者組成一個整體:就是一個物件。因此在沒有事先承認的前提下,很難確定它倆是否是同一個物體。

 

本文結合分段和窮舉搜尋的優點,提出一種資料驅動的選擇性搜尋。受自底向上分割的啟發,我們的目標是利用影象的結構來生成物件位置。

 

具體地說,我們使用基於資料驅動的分組策略,其中通過使用各種互補分組準則和具有不同不變性的各種互補顏色空間來增加多樣性。通過組合這些互補分割槽的位置來獲得所述位置集合。我們的目標是生成獨立於類的、資料驅動的、選擇性的搜尋策略。


選擇性搜尋的應用領域是目標識別。我們採用20個物件類組成的Pascal VOC什麼是Pascal VOC)資料集進行測試。


在本文中,我們提出選擇性搜尋物件識別。我們的主要研究問題是:

(1)什麼樣的多樣化策略適合作為選擇性搜尋策略的分割?

(2)選擇性搜尋在影象中建立一組高質量位置的效果如何?

(3)我們可以使用選擇性搜尋來使用更強大的分類器和外觀模型進行物體識別嗎?

 

Related Work

我們將相關工作關注於目標識別領域,並將其分為三類:窮舉搜尋、分割和其他不屬於任一類的取樣策略。

1.窮舉搜尋:

由於物件可以位於影象中的任何位置和尺度,所以到處搜尋是很自然的。然而,窮舉搜尋在計算上是十分耗時的。這對每個位置的評估成本和所考慮的位置的數量施加了約束。因此,這些滑動視窗技術大多使用粗搜尋網格和固定的縱橫比,使用弱分類器和經濟影象特徵,這種方法經常被用作分類器級聯中的預選步驟。與滑動視窗技術相關的是FelZeZnZWalb等人的基於部件的目標定位方法。他們的方法也執行窮舉搜尋使用線性SVM和HOG特徵。之後有人提出了利用外觀模型來指導搜尋。這既減輕了使用規則網格、固定比例和固定縱橫比的限制,同時減少了訪問位置的數量。這是通過使用分支定界技術直接搜尋影象內的最佳視窗來完成的。雖然他們獲得了令人印象深刻的結果線性分類器。

2.分段

3.樣本策略:

3 Selective Search

捕捉所有規模物件

物件可以在影象內的任何尺度下發生。此外,一些物件有較清晰的邊界,有些沒有清晰邊界。因此,在選擇性搜尋中,必須考慮所有物件,如下圖所示。這是最自然地通過使用分層演算法來實現的。

多元化處理

沒有單一的最優策略將區域分組在一起來識別物體。正如前面在第一張圖中所觀察到的,區域可能由於顏色、紋理或部分被封閉而形成物件。此外,諸如陰影和光的顏色之類的照明條件可能影響區域。因此,我們希望有各種各樣的策略來處理所有情況,而不是在大多數情況下工作良好的單一策略。

快速計算

選擇性搜尋的目標是產生一組可能的物件位置,以便在實際的目標識別框架中使用。這個集合的建立不應該成為計算瓶頸,因此我們的演算法應該是相當快的。

3.1分層分組選擇搜尋

我們採用分層分組演算法來形成選擇性搜尋的基礎。自底向上分組是一種流行的分割方法,因此我們把它用於選擇性搜尋。由於分組的過程本身是分級的,因此通過繼續分組過程直到整個影象變成單個區域,我們可以自然地在所有尺度上生成位置資訊。這滿足捕獲所有尺度的條件。

由於區域可以產生比畫素更豐富的資訊,因此我們希望儘可能使用基於區域的特徵。為了得到一組理想情況下不跨越多個物件的小起始區域,我們使用Felzenszwalb, P. F., & Huttenlocher, D. P. (2004). Efficient graph-based image segmentation. International Journal of Computer Vision, 59, 167–181.的快速方法。

我們的分組過程現在工作如下。我們首先使用(Felzenszwalb和HuttnoCurter 2004)來建立初始區域。然後利用貪婪演算法對區域進行迭代分組:首先計算所有相鄰區域之間的相似度。將兩個最相似的區域分組在一起,並計算所得區域與其相鄰區域之間的新相似度。重複對最相似的區域進行分組的過程,直到整個影象變成單個區域。演算法1中詳細說明了一般方法。

對於區域ri和rj之間的相似度s(ri,rj),我們希望在快速計算的約束下得到各種互補測度。實際上,這意味著相似性應該基於可以通過層次結構傳播的特徵,即,當將區域ri和rj合併為rt時,需要根據ri和rj的特徵來計算區域rt的特徵而不訪問影象畫素。

3.2多元化策略方案

選擇性搜尋的第二個設計準則是使取樣多樣化,並建立一組互補策略,其位置隨後被組合。我們來使選擇性搜尋多樣化

(1)通過使用具有不同不變性的各種顏色空間

(2)通過使用不同的相似性度量sij

(3)通過改變我們的起始區域

互補色空間

我們要考慮到不同的場景和照明條件。因此,我們在具有各種不變性的顏色空間中執行分層分組演算法。特別地,我們用增加的不變性來處理以下顏色空間:

(1)RGB(2)強度(灰度影象)I,(3)實驗室,(4)歸一化RGB的rg通道加上用rgI表示的強度,(5)HSV,(6)歸一化RGB用rgb表示,(7)C Geusebroek等。(2001)是對手的顏色空間,其中強度被劃分,(8)來自HSV的色調通道H。表1中列出了具體的不變性。