1. 程式人生 > >只檢視一次:統一、實時的物件檢測

只檢視一次:統一、實時的物件檢測

原文名稱:You Only Look Once:Unified, Real-Time Object Detection

原文位置:http://pjreddie.com/darknet/yolo/

http://pjreddie.com/yolo/
摘要
本文提出了一種新的目標檢測方法——YOLO。在物件檢測之前的工作重新使用分類器來執行檢測。相反,我們將物件檢測作為空間上分離的邊界框和相關類概率的迴歸問題。在一個評估中,單個神經網路直接從完整影象預測邊界框和類概率。由於整個檢測流水線為單個網路,因此可以直接對檢測效能進行端到端優化。
我們的統一架構非常快。我們的基本YOLO模型以每秒45幀的速度實時處理影象。網路的較小版本Fast YOLO每秒處理驚人的155幀,同時仍能達到其他實時檢測器的兩倍mAP。與最先進的檢測系統相比,YOLO定位誤差更大,但預測背景假陽性的可能性更小。最後,YOLO學習物件的非常一般的表示。它優於其他檢測方法,包括DPM和R-CNN,當從自然影象推廣到其他領域,如藝術品。
1。介紹


人類瞥了一眼影象,立刻就知道影象中的物件是什麼,它們在哪裡,以及它們如何互動。人類的視覺系統是快速和準確的,允許我們執行復雜的任務,如駕駛很少有意識的想法。快速、準確的目標檢測演算法將允許計算機在沒有專用感測器的情況下駕駛汽車,使輔助裝置能夠向人類使用者傳送實時場景資訊,並開啟通用、響應性機器人系統的潛力。當前的檢測系統重新使用分類器來執行檢測。為了檢測一個物件,這些系統為該物件獲取一個分類器,並在測試影象中的不同位置和尺度對其進行評估。像可變形部件模型(DPM)這樣的系統使用滑動視窗方法,其中分類器在整個影象上均勻間隔的位置執行[10]。

像R-CNN這樣的最新方法使用區域建議方法首先在影象中生成潛在的邊界框,然後在這些建議的框上執行分類器。在分類之後,使用後處理來細化邊界框,消除重複檢測,並基於場景中的其他物件對框進行重新核[13]。這些複雜的流水線很慢,而且很難優化,因為每個單獨的元件都必須單獨訓練。
我們將目標檢測重新定義為單個迴歸問題,從影象畫素直接到邊界框座標和類概率。使用我們的系統,您只需要看一次(YOLO)影象,就可以預測存在哪些物件以及它們在哪裡。
YOLO非常簡單:參見圖1。單個卷積網路同時預測多個邊界框以及這些框的類概率。YOLO訓練全影象,並直接優化檢測效能。與傳統的目標檢測方法相比,該統一模型具有若干優點。
首先,YOLO的速度非常快。由於我們將檢測框架化為迴歸問題,因此不需要複雜的流水線。我們只需在測試時對新的影象執行我們的神經網路來預測檢測。我們的基本網路以每秒45幀的速度執行,沒有在Titan X GPU上進行批處理,快速版本以超過150fps的速度執行。這意味著我們可以在不到25毫秒的延遲下實時處理流視訊。此外,YOLO實現的平均精度是其他實時系統的兩倍以上。有關在攝像頭上實時執行的系統的演示,請參閱我們的專案網頁:http://pjred..com/yolo/。

其次,YOLO在進行預測時從全球範圍對影象進行推理。與基於滑動視窗和區域建議的技術不同,YOLO在訓練和測試期間看到整個影象,因此它隱式地編碼關於類的上下文資訊以及它們的外觀。快速R-CNN,一種頂級檢測方法[14],因為無法看到更大的上下文,所以在影象中將背景補丁錯誤地用於物件。與快速R-CNN相比,YOLO產生的背景錯誤少於一半。
第三,YOLO學習物件的通用表示。當在自然影象上訓練並在藝術品上測試時,YOLO的效能遠遠優於DPM和R-CNN等頂級檢測方法。由於YOLO具有高度通用性,所以當應用到新域或意外輸入時,它就不太可能崩潰。
YOLO的精度仍然落後於最先進的檢測系統。雖然它能夠快速地識別影象中的物件,但它很難精確地定位一些物件,尤其是小物件。我們在實驗中進一步研究這些折衷。
我們所有的培訓和測試程式碼都是開源的。還可以下載各種預測模型。

2。統一檢測
我們將目標檢測的各個部分統一為一個單一的神經網路。我們的網路使用來自整個影象的特徵來預測每個邊界框。它還可以同時預測影象的所有類的所有邊界框。這意味著我們的網路原因關於整個影象和影象中的所有物件。
YOLO設計支援端到端的訓練和實時速度,同時保持高的平均精度。
該系統將輸入影象分割成S×S網格。如果物件的中心落入網格單元中,則該網格單元負責檢測該物件。
每個網格單元預測B邊界框和這些框的置信分數。這些置信度分數反映了模型是如何確信盒子包含一個物件,以及它認為盒子預測的準確度。形式上,我們定義置信度為Pr(Object)IOUtruth pred.如果該單元格中沒有物件,則置信度分數應該為零。否則,我們希望置信度得分等於預測框和地面真值之間的聯合交叉(IOU)。
每個邊界框由5個預測組成:x、y、w、h和置信度。(x;y)座標表示框相對於網格單元格邊界的中心。預測寬度和高度相對於整個影象。最後,置信度預測表示預測框和任何地面真值框之間的IOU。
每個網格單元還預測C條件類概率Pr(ClassijObject)。這些概率取決於包含物件的網格單元。我們只預測每個網格單元格的一組類概率,而不管框B的數量。
在測試時,我們將條件類概率和單個框置信度預測相乘,

為每個框提供特定於類的信心評分。這些分數既編碼了類出現在框中的概率,也編碼了預測框是否適合物件。

為了評價PASCAL VOC上的YOLO,我們使用S=7,B=2。PASCAL VOC有20個標記類,所以C=20。我們的最終預測是7×7×30張量。
2.1。網路設計
我們將該模型實現為卷積神經網路,並在PASCAL VOC檢測資料集[9]上進行評估。網路的初始卷積層從影象中提取特徵,而全連線層預測輸出概率和座標。
我們的網路架構的靈感來自用於影象分類的GoogLeNet模型[34]。我們的網路有24層卷積層,然後是2個完全連線的層。
代替GoogLeNet使用的初始模組,我們簡單地使用1×1縮減層,然後使用3×3卷積層,類似於Lin等人[22]。完整的網路如圖3所示。
我們還訓練了一個快速版本的YOLO,用於推動快速物件檢測的邊界。快速YOLO使用具有較少卷積層(9層而不是24層)和那些層中較少濾波器的神經網路。除了網路的規模之外,YOLO和Fast YOLO之間的所有訓練和測試引數都是相同的。

網路的最終輸出是7×7×30張量的預測。
2.2。訓練
我們在ImageNet 1000級比賽資料集[30]上預演我們的卷積層。對於預雨,我們使用圖3中的前20個卷積層,然後是平均彙集層和全連線層。我們在ImageNet 2012驗證集上對這個網路進行了大約一週的訓練,並獲得了88%的頂級單作物精度,與Caffe的模型動物園中的GoogLeNet模型相當[24]。我們使用Dar.t框架進行所有訓練和推理[26]。
然後,我們將模型轉換為執行檢測。任等人表明在預訓練網路中同時加入卷積層和連線層可以提高效能[29]。根據他們的例子,我們添加了四個卷積層和兩個具有隨機初始化權重的完全連線的層。檢測往往需要細粒度的視覺資訊,因此我們把網路的輸入解析度從224×224提高到448×448。
我們的最後一層預測類概率和邊界框座標。我們用影象的寬度和高度來標準化邊界框的寬度和高度,使它們落在0和1之間。我們將邊界框x和y座標引數化為特定網格單元位置的偏移,因此它們也在0和1之間有邊界。
我們對最終層使用線性啟用函式,所有其他層使用以下洩漏整流線性啟用:

我們對模型的輸出中的平方和誤差進行了優化。我們使用平方和誤差,因為它很容易優化,但它與我們最大化平均精度的目標不完全一致。該方法將定位誤差與分類誤差等同地加權,這可能不是理想的。
而且,在每幅影象中,許多網格單元不包含任何物件。這將那些單元的“置信度”分數推向零,常常會壓倒包含物件的單元的梯度。這會導致模型不穩定,導致早期的培訓出現分歧。
為了解決這個問題,我們增加了邊界框座標預測的損失,並且減少了不包含物件的框的置信度預測的損失。我們使用兩個引數,λcoord和λnoobj來實現這一點。我們設定λcoord=5和λnoobj=:5。
平方和誤差也同樣加權在大盒和小盒中的誤差。我們的誤差度量應該反映大盒子裡的小偏差比小盒子裡的小偏差要小。為了部分地解決這個問題,我們預測了邊框寬度和高度的平方根,而不是直接預測寬度和高度。
YOLO預測每個網格單元有多個邊界框。在訓練時,我們只需要一個邊界框預測器來負責每個物件。我們指定一個預測器“負責”預測基於哪個預測具有最高的當前IOU與地面真相的物件。這導致邊界框預測器之間的專門化。每個預測器在預測特定大小、長寬比或物件類別方面都做得更好,從而提高了整體回憶能力。

在訓練期間,我們優化了以下多部分損失函式:

其中1obj i表示物件是否出現在單元i中,1obj ij表示單元i中的第j個邊界框預測器“負責”該預測。
注意,如果網格單元中存在物件(因此前面討論的條件類概率),則損失函式僅懲罰分類錯誤。如果該預測器“負責”地面真值框(即,在該網格單元中具有任何預測器中的最高IOU),則它還僅懲罰邊界框座標誤差。
我們在PASCAL VOC 2007和2012年的培訓和驗證資料集上培訓網路大約135個世紀。在2012年測試時,我們還包括VOC 2007測試資料用於培訓。在整個訓練過程中,我們使用的批量大小是64,動量是0:9,衰減是0:0005。
我們的學習速率安排如下:在第一個階段,我們慢慢地把學習速率從10_3提高到10_2。如果我們以高學習速率開始,我們的模型經常由於不穩定的梯度而發散。我們繼續以10_2訓練75個階段,然後10_3訓練30個階段,最後10_4訓練30個階段。
為了避免過擬合,我們使用輟學和廣泛的資料擴充。在第一連線層防止層[18]之間的共適應之後,具有速率=.5的漏失層。對於資料放大,我們引入了高達原始影象大小的20%的隨機縮放和平移。我們還隨機調整曝光和影象飽和度高達1:5的因素在HSV顏色空間。
2.3。推論
就像在訓練中一樣,預測測試影象的檢測只需要一個網路評估。在PASCAL VOC上,網路預測每幅影象的98個邊界框,以及每個框的類概率。與基於分類器的方法不同,YOLO在測試時非常快,因為它只需要單個網路評估。
網格設計加強了邊界框預測中的空間分集。通常很清楚一個物件屬於哪個網格單元,並且網路只預測每個物件的一個框。然而,多個單元格邊界附近的一些大型物件或物件可以被多個單元格很好地定位。非最大抑制可用於固定這些多重檢測。雖然不像R-CNN或DPM那樣對效能至關重要,但非最大抑制增加了2-3%的mAP。

2.4。YOLO的侷限性
YOLO對邊界框預測施加了強大的空間約束,因為每個網格單元只能預測兩個框並且只能有一個類。這種空間約束限制了我們的模型可以預測的附近物體的數量。我們的模型與成群出現的小物體,如成群的鳥搏鬥。由於我們的模型學會了從資料中預測邊界框,所以它很難推廣到新的或不尋常的長寬比或配置的物件。我們的模型還使用相對粗糙的特徵來預測邊界框,因為我們的體系結構具有來自輸入影象的多個下采樣層。
最後,當我們訓練近似檢測效能的損失函式時,我們的損失函式處理小邊界框和大邊界框中的誤差是一樣的。大盒中的小錯誤通常是良性的,但是小盒中的小錯誤對IOU的影響要大得多。我們主要的錯誤來源是不正確的定位。
3。與其他檢測系統的比較
目標檢測是計算機視覺中的一個核心問題。檢測流水線通常通過從輸入影象中提取一組魯棒特徵開始(Haar[25]、SIFT[23]、HOG[4]、卷積特徵[6])。然後,使用分類器[36、21、13、10]或定位器[1、32]來識別特徵空間中的物件。這些分類器或定位器要麼以滑動視窗方式在整個影象上執行,要麼在影象[35,15,39]中的某些區域子集上執行。我們將YOLO檢測系統與幾個頂級檢測框架進行比較,突出關鍵相似點和不同點。
可變形零件模型。可變形零件模型(DPM)使用滑動視窗方法來檢測物體[10]。DPM使用不相交的管道來提取靜態特徵、分類區域、預測高得分割槽域的邊界框等。我們的系統用一個卷積神經網路代替所有這些不相干的部分。該網路同時進行特徵提取、邊界盒預測、非極大值抑制和上下文推理。網路不是靜態特徵,而是對特徵進行線上訓練,併為檢測任務優化它們。我們的統一架構導致比DPM更快、更精確的模型。

R-CNN R-CNN及其變體使用區域建議而不是滑動視窗在影象中查詢物件。選擇性搜尋[35]生成潛在的邊界框,卷積網路提取特徵,SVM對框進行評分,線性模型調整邊界框,非最大抑制消除重複檢測。這個複雜的流水線的每個階段必須被精確地獨立地調諧,並且所得到的系統非常慢,在測試時每幅影象花費超過40秒[14]。
YOLO與R-CNN有一些相似之處。每個網格單元提出潛在的邊界框,並使用卷積特徵對這些框進行評分。然而,我們的系統對網格單元提議施加空間約束,這有助於減輕對同一物體的多次檢測。我們的系統還建議更少的邊框,每張影象只有98個,相比之下,選擇性搜尋大約有2000個。最後,我們的系統將這些單獨的元件組合成一個單一的、聯合優化的模型。
其他快速檢測器快速和快速R-CNN專注於通過共享計算以及使用神經網路來提出區域來加速R-CNN框架,而不是選擇性搜尋[14][28]。雖然與R-CNN相比,它們提供了速度和精確度的改進,但是它們仍然缺乏實時效能。
許多研究工作集中在加速DPM流水線[31][38][5]。它們加速HOG計算,使用級聯,並將計算推送到GPU。然而,實際上只有30Hz的DPM[31]實時執行。YOLO沒有試圖優化大型檢測流水線的各個元件,而是完全拋棄了流水線,並且設計速度很快。
對於像面部或人的單個類的檢測器可以高度優化,因為它們必須處理更少的變化[37]。YOLO是一種通用檢測器,它學習同時檢測各種物件。
深層多盒。與R-CNN不同,Szegedy等人。訓練一個卷積神經網路來預測感興趣的區域[8],而不是使用選擇性搜尋。MultiBox還可以通過將置信度預測替換為單個類預測來執行單個物件檢測。然而,MultiBox不能執行一般的物件檢測,並且仍然只是更大檢測流水線中的一部分,需要進一步的影象補丁分類。YOLO和MultiBox都使用卷積網路來預測影象中的邊界框,但是YOLO是一個完整的檢測系統。
過度訓練 Sermanet等。訓練一個卷積神經網路來執行定位,並使該定位器適應於執行檢測[32]。OverFeat有效地執行了滑動視窗檢測,但它仍然是一個不相交的系統。OverFeat優化了定位,而不是檢測效能。與DPM一樣,定位器在進行預測時只看到本地資訊。OverFeat不能推理出全域性上下文,因此需要大量的後處理來產生相干檢測。
MultiGrasp.我們的工作在設計上與Redmon等人的抓取檢測工作類似[27]。我們的邊界框預測的網格方法是基於MultiGrasp系統的迴歸抓取。然而,抓取檢測比目標檢測簡單得多。MultiGrasp只需要預測包含一個物件的影象的單個可抓取區域。它不需要估計物體的大小、位置或邊界,也不需要預測它的類別,只需要找到一個適合抓取的區域。YOLO預測影象中多個類的多個物件的邊界框和類概率。

4。實驗
首先在PASCAL VOC 2007上對YOLO與其他實時檢測系統進行了比較。為了理解YOLO和R-CNN變體之間的差異,我們探索了由YOLO和快速R-CNN(R-CNN的最高效能版本之一)在VOC 2007上造成的錯誤[14]。基於不同的誤差分佈,我們證明了YOLO可以用於快速R-CNN檢測的重新核,並減少背景假陽性的誤差,從而顯著地提高了效能。我們還介紹了VOC 2012的結果,並將mAP與當前最先進的方法進行比較。最後,我們在兩個藝術品資料集上證明了YOLO比其他檢測器更好地推廣到新的領域。
4.1。與其他實時系統的比較
目標檢測的研究主要集中在使標準檢測流水線快速。[5][38][31][14][17][28]然而,只有Sadeghi等人。實際產生一個實時執行的檢測系統(每秒30幀或更好)[31]。我們比較YOLO和它們的GPU實現的DPM執行在30Hz或100Hz。雖然其他的努力沒有達到實時的里程碑,我們還比較了它們的相對mAP和速度,以檢查在物件檢測系統中可用的精度-效能折衷。
快速YOLO是PASCAL上速度最快的目標檢測方法,據我們所知,它是現存速度最快的目標檢測器。使用52:7%的mAP,它比先前的實時檢測工作精確兩倍多。YOLO將mAP推到63:4%,同時仍然保持實時效能。
我們還使用VGG-16訓練YOLO。這個模型比YOLO更精確,但是也明顯慢於YOLO。與依賴VGG-16的其他檢測系統相比,這是非常有用的,但是由於它比實時慢,所以本文的其餘部分將重點放在更快的模型上。
快速DPM在不犧牲大量mAP的情況下有效地加速了DPM,但是它仍然遺漏了2[38]倍的實時效能。與神經網路方法相比,DPM的檢測精度相對較低。
R-CNN減R用靜態邊界框建議代替選擇性搜尋[20]。雖然它比R-CNN快得多,但是它仍然缺乏實時性,並且由於沒有好的建議而受到顯著的準確性打擊。

快速R-CNN加速了R-CNN的分類階段,但它仍然依賴於每幅影象需要大約2秒的選擇性搜尋來生成包圍盒建議。因此,它的mAP很高,但在0:5fps,它仍然遠遠沒有達到實時性。
最近的快速R-CNN用神經網路代替了選擇性搜尋,從而提出了邊界框,類似於Szegedy等人。_8_在我們的測試中,他們最精確的模型達到7fps,而較小的、不太精確的模型在18fps下執行。VGG-16版本的R-CNN比YOLO快10mAP,但是也慢6倍。ZeilerFergus更快的R-CNN比YOLO慢2.5倍,但是精度也較低。
4.2。VOC 2007誤差分析
為了進一步研究YOLO與最先進的探測器之間的差異,我們查看了VOC 2007的詳細結果。我們比較YOLO和快速RCNN,因為快速R-CNN是PASCAL上效能最好的檢測器之一,它的檢測是公開的。
我們使用Hoiem等人的方法和工具。[19]對於測試時的每個類別,我們檢視該類別的頂部N個預測。每個預測要麼是正確的,要麼根據誤差型別對其進行分類:
•正確:正確的班級和欠條>:5
•本地化:正確類:1<IOU<:5
•類似:類相似,IOU>:1
•其他:班級錯誤,借條>:1
背景:任何物體的IOU<:1
圖4顯示了所有20個類中平均的每個錯誤型別的分類。
YOLO努力正確地定位物件。本地化錯誤佔YOLO錯誤總和的比例高於所有其他來源。快速R-CNN使定位誤差小得多,但背景誤差大得多。13.6%的最高檢測是不包含任何物件的假陽性。快速R-CNN比YOLO更有可能預測背景檢測。

4.3。快速R-CNN與YOLO的結合
YOLO的背景錯誤比快速R-CNN少得多。通過使用YOLO來消除快速R-CNN中的背景檢測,我們的效能得到了顯著的提高。對於R-CNN預測的每個邊界框,我們檢查YOLO是否預測類似的框。如果是,我們將基於YOLO預測的概率和兩個框之間的重疊來提高預測。
最好的快速R-CNN模型在VOC 2007測試集上達到了71.8%的mAP。與YOLO聯合使用時,其mAP增加3.2%至75.0%。我們還嘗試將頂級的快速R-CNN模型與其他版本的快速R-CNN相結合。這些組合產生的mAP小幅增長在.3%到.6%之間,詳情見表2。
YOLO的推廣不僅僅是模型整合的副產品,因為結合不同版本的快速R-CNN幾乎沒有什麼好處。確切地說,正是因為YOLO在測試時犯了不同的錯誤,所以它在提高快速R-CNN的效能方面非常有效。
不幸的是,這種組合並不受益於YOLO的速度,因為我們分別執行每個模型,然後組合結果。然而,由於YOLO的速度非常快,所以與快速R-CNN相比,它不會增加任何顯著的計算時間。

4.4。VOC 2012結果
在VOC 2012測試中,YOLO的得分為57.9%mAP。這低於目前的技術水平,更接近使用VGG-16的原始R-CNN,見表3。與最接近的競爭對手相比,我們的系統對小物件進行鬥爭。在瓶子、綿羊和電視/監視器等類別上,YOLO比R-CNN或Feature Edit低8-10%。然而,在其他類別,如貓和火車YOLO獲得更高的效能。
我們的組合快速R-CNN+YOLO模型是最高效能的檢測方法之一。快速R-CNN從與YOLO的結合中獲得了2.3%的改善,提高了它在公共排行榜上的5個位置。
4.5。概括性:藝術品中的人物檢測
用於物件檢測的學術資料集從相同的分佈提取訓練和測試資料。在現實世界的應用程式中,很難預測所有可能的用例,並且測試資料可能與系統之前看到的不同[3]。我們將YOLO與畢加索資料集[12]和人文藝術資料集[3]上的其他檢測系統進行比較,這兩個資料集用於測試藝術品上的人物檢測。
圖5顯示了YOLO和其他檢測方法之間的比較效能。作為參考,我們給出了VOC 2007檢測AP的人員,其中所有模型只訓練VOC 2007資料。畢加索的模特接受VOC 2012的訓練,而人物藝術則接受VOC 2010的訓練。
R-CNN在2007年VOC上有很高的點選率。然而,R-CNN在應用於藝術品時顯著下降。R-CNN使用選擇性搜尋來搜尋針對自然影象的邊界框建議。R-CNN中的分類器步驟只能看到小的區域,需要好的建議。
DPM在應用於藝術品時很好地保持了其AP。先前的工作認為DPM效能良好,因為它具有強大的物件形狀和佈局的空間模型。雖然DPM的降級不如R-CNN,但它從較低的AP開始。
YOLO在VOC 2007上具有良好的效能,在應用於藝術品時,其AP的降級小於其他方法。與DPM一樣,YOLO建模物件的大小和形狀,以及物件之間的關係和物件通常出現的位置。藝術品和自然影象在畫素級上是非常不同的,但是它們在物體的大小和形狀方面是相似的,因此YOLO仍然可以預測好的邊界框和檢測。
5。野外實時檢測
YOLO是一種快速、準確的物體檢測器,非常適合計算機視覺應用。我們將YOLO連線到一個網路攝像頭,並驗證它保持了實時效能,包括從攝像機獲取影象和顯示檢測的時間。
所得到的系統是互動式的,並且具有吸引力。當YOLO單獨處理影象時,當連線到網路攝像機上時,它像跟蹤系統一樣工作,在物體移動和外觀變化時檢測它們。該系統的演示和原始碼可以在我們的專案網站上找到:http://pjred..com/yolo/。

6。結論
我們介紹了用於物件檢測的統一模型YOLO。我們的模型構造簡單,可以直接對全影象進行訓練。與基於分類器的方法不同,YOLO基於與檢測效能直接對應的損失函式進行訓練,並且整個模型被聯合訓練。
快速YOLO是文獻中最快的通用物件檢測器,它推動了實時物件檢測的發展。YOLO還很好地推廣到新的領域,使其成為依賴於快速、健壯的物件檢測的應用程式的理想選擇。
感謝:這項工作部分得到ONR N00014-13-1-0720、NSF IIS-1338054和艾倫傑出調查者獎的支援。

References
[1] M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision– ECCV 2008, pages 2–15. Springer, 2008. 4
[2] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In international Conference on Computer Vision (ICCV), 2009. 8
[3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognising objects in artwork and in photographs. arXiv preprint arXiv:1505.00110, 2015. 7
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4, 8
[5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013. 5
[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint arXiv:1310.1531, 2013. 4
[7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014. 7
[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014. 5, 6
[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2
[10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010. 1, 4
[11] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015. 7
[12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014 Workshops, pages 101–116. Springer, 2014. 7
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1, 4, 7
[14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 2, 5, 6, 7
[15] S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009. 4
[16] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul- taneous detection and segmentation. In Computer Vision– ECCV 2014, pages 297–312. Springer, 2014. 7
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014. 5
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4
[19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012. 6
[20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint arXiv:1506.06981, 2015. 5, 6
[21] R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002. 4
[22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013. 2
[23] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 4
[24] D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/ Models-accuracy-on-ImageNet-2012-val. Accessed: 2015-10-2. 3 
[25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE, 1998. 4
[26] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 3
[27] J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014. 5
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. rXiv preprint arXiv:1506.01497, 2015. 5, 6, 7
[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015. 3, 7
[30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 3
[31] M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–69. Springer, 2014. 5, 6
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013. 4, 5
[33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911, 2014. 7 
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 2
[35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013. 4
[36] P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001. 4
[37] P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004. 5
[38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014. 5, 6
[39] C. L. Zitnick and P. Dollar. Edge boxes: Locating object pro- ´ posals from edges. In Computer Vision–ECCV 2014, pages 391–405. Springer, 2014. 4