1. 程式人生 > 實用技巧 >文獻翻譯——YOLO9000:Better,Faster,Stronger(YOLOv2)

文獻翻譯——YOLO9000:Better,Faster,Stronger(YOLOv2)

摘要

我們介紹了YOLO9000,這是一種先進的實時物件檢測系統,可以檢測9000多個物件類別。首先,我們提出了對YOLO檢測方法的各種改進,既有新穎性,也有前期的工作。改進後的模型YOLOv2在PASCAL VOC和COCO等標準檢測任務上是最先進的。使用一種新穎的,多尺度訓練方法,同樣的YOLOv2模型可以以不同的尺寸執行,從而在速度和準確性之間提供了一個簡單的折衷。在67FPS時,YOLOv2在VOC 2007上獲得了76.8 mAP。在40FPS時,YOLOv2獲得了78.6 mAP,比使用ResNet的Faster R-CNN和SSD等先進方法表現更出色,同時仍能以更快的速度執行。最後,我們提出了一種聯合訓練目標檢測和分類的方法。使用這種方法,我們在COCO檢測資料集和ImageNet分類資料集上同時訓練YOLO9000。我們的聯合訓練允許YOLO9000預測未標註的檢測資料的物體類別的檢測結果。我們在ImageNet檢測任務上驗證了我們的方法。YOLO9000在ImageNet檢測驗證集上獲得19.7 mAP,儘管200個類別中只有44個具有檢測資料。在COCO資料集不包含的156個類別上,YOLO9000獲得16.0 mAP。但YOLO可以檢測到200多個類別。YOLO9000可以實時預測9000多種不同物件類別的檢測結果。

1. 引言

通用目標檢測應該快速,準確並且能夠識別各種各樣的目標。自從引入神經網路以來,檢測框架已經變得越來越快和準確。但是,大多數檢測方法仍然侷限於少數目標。

與其他任務(如分類和標記)的資料集相比,當前的目標檢測資料集受到限制。最常見的檢測資料集包含成千上萬到數十萬張具有成百上千個標籤的影象。分類資料集包含數百萬個具有數萬或數十萬個類別的影象。

我們希望檢測能夠擴充套件到目標分類的級別。但是,為檢測標記影象比為分類或貼標籤標記影象要昂貴得多(標籤通常是使用者免費提供的)。因此,我們不太可能在近期內看到與分類資料集相同規模的檢測資料集。

我們提出了一種新方法來利用我們已經擁有的大量分類資料,並使用它來擴充套件當前檢測系統的範圍。我們的方法使用物件分類的分層檢視,使我們可以將不同的資料集組合在一起。

我們還提出了一種聯合訓練演算法,該演算法允許我們在檢測資料和分類資料上訓練目標檢測器。我們的方法利用標記的檢測影象來學習精確定位物件,同時使用分類影象來增加其詞彙量和魯棒性。使用這種方法,我們訓練了YOLO9000,這是一種實時物件檢測器,可以檢測9000多種不同的目標類別。首先,我們改進YOLO基礎檢測系統,產生最先進的實時檢測器YOLOv2。然後我們使用資料集組合方法和聯合訓練演算法來訓練來自ImageNet的9000多個類別的模型以及來自COCO的檢測資料。

我們的所有程式碼和預訓練模型都可線上獲得:http://pjreddie.com/yolo9000/

img

圖1:YOLO9000. YOLO9000可以實時檢測多種目標類別

2. 更好

與最先進的檢測系統相比,YOLO存在許多缺點。YOLO與Fast R-CNN的誤差分析對比表明,YOLO有大量的定位誤差。此外,與基於區域提出的方法相比,YOLO召回率相對較低。因此,我們主要側重於提高召回率和改進定位,同時保持分類準確性。

計算機視覺一般趨向於更大,更深的網路。更好的效能通常取決於訓練更大的網路或將多個模型組合在一起。但是,在YOLOv2中,我們需要一個更精確的檢測器,它仍然很快。我們不是擴大我們的網路,而是簡化網路,然後讓表示更容易學習。我們將過去的工作與我們自己的新概念彙集起來,以提高YOLO的效能。表2列出了結果總結。

img

**表2:從YOLO到YOLOv2的路徑。**列出的大部分設計決定都會導致mAP的顯著增加。有兩個例外是切換到具有Anchor Box的一個全卷積網路和使用新網路。切換到Anchor Box風格的方法增加了召回,而不改變mAP,而使用新網路會削減33%的計算量。

**批標準化。**批標準化導致收斂性的顯著改善,同時消除了對其他形式正則化的需求[7]。通過在YOLO的所有卷積層上新增批標準化,我們在mAP中獲得了超過2%的提升。批標準化也有助於模型正則化。通過批標準化,我們可以從模型中刪除dropout而不會過擬合。

高解析度分類器。所有最先進的檢測方法都使用在ImageNet[16]上預訓練的分類器。從AlexNet開始,大多數分類器對小於256×256[8]的輸入影象進行操作。原來的YOLO以224×224的解析度訓練分類器網路,並將解析度提高到448進行檢測。這意味著網路必須同時切換到學習目標檢測和調整到新的輸入解析度。

對於YOLOv2,我們首先ImageNet上以448×448的全解析度對分類網路進行10個迭代週期的微調。這給了網路時間來調整其濾波器以便更好地處理更高解析度的輸入。然後在檢測時對結果網路進行微調。這個高解析度分類網路使我們增加了近4%的mAP。

具有Anchor Box的卷積。YOLO使用卷積特徵提取器頂部的完全連線層直接預測邊界框的座標。Faster R-CNN使用手動選擇優先來預測邊界框而不是直接預測座標[15]。Faster R-CNN中的區域提議網路(RPN)僅使用卷積層來預測Anchor Box的偏移量和置信度。由於預測層是卷積的,因此RPN會在特徵圖中的每個位置預測這些偏移。預測偏移而不是座標簡化了問題,並且使網路更容易學習。

我們從YOLO中移除全連線層,並使用Anchor Box來預測邊界框。首先,消除一個池化層,以使網路卷積層的輸出具有更高的解析度。我們還縮小了網路,操作416×416的輸入影象而不是448×448。之所以這樣做,是因為我們希望特徵圖中的位置數為奇數,因此只有一箇中心單元。物件(尤其是大物件)往往會佔據影象的中心,因此最好在中心位置使用一個位置來預測這些物件,而不要使用附近的四個位置。YOLO的卷積層將影象下采樣32倍,因此使用416的輸入影象,我們得到了13×13的輸出特徵圖。

當我們轉向錨框時,我們還將類預測機制與空間位置分離,而不是為每個錨框預測類和客觀性。YOLO之後,目標預測仍然預測了實際值和提出的邊界框的IOU,並且類別預測預測了當存在目標時該類別的條件概率。

使用錨框,準確性會略有下降。YOLO只能預測每個影象98個框,但使用錨框,我們的模型可以預測一千多個框。沒有錨框,我們的中間模型將獲得69.5 mAP,81%的召回率。使用Anchor Box,我們的模型獲得69.2 mAP,召回率達到88%。儘管mAP下降,但召回率的上升意味著我們的模型有更大的提升空間。

維度聚類。當Anchor Box與YOLO一起使用時,我們遇到了兩個問題。首先是邊界框的尺寸是手工挑選的。網路可以學習適當調整邊界框,但如果我們為網路選擇更好的先驗,我們可以使網路更容易學習它以便預測好的檢測。

無需手動選擇先驗,我們在訓練集邊界框上執行k-means聚類以自動找到良好的先驗。如果我們使用具有歐幾里得距離的標準k-means,那麼較大的邊界框比較小的邊界框產生更多的誤差。然而,我們真正想要的是導致好的IOU分數的先驗,這是獨立於邊界框大小的。因此,對於我們的距離度量,我們使用:

image-20200717213653687

我們執行各種k值的k-means,並畫出平均IOU與最接近的幾何中心,見圖2。我們選擇k=5作為模型複雜性和高召回率之間的良好折衷。聚類中心與手工挑選的Anchor Box明顯不同。有更短更寬的邊界框和更高更細的邊界框。

image-20200717214016397

圖2:VOC和COCO的聚類邊界框尺寸。我們對邊界框的維度進行k-means聚類,以獲得我們模型的良好先驗。左圖顯示了我們通過對k的各種選擇得到的平均IOU。我們發現k = 5給出了一個很好的召回率與模型複雜度的權衡。右圖顯示了VOC和COCO的相對中心。這兩種先驗都贊成更薄更高的邊界框,而COCO比VOC在尺寸上有更大的變化。

image-20200717214508193

表1:VOC 2007上最接近先驗的邊界框平均IOU。VOC 2007上目標的平均IOU與其最接近的,使用不同生成方法之前未經修改的平均值。聚類結果比使用手工選擇的先驗結果要更好。

在表1中我們將平均IOU與我們聚類策略中最接近的先驗以及手工選取的Anchor Box進行了比較。僅有5個先驗中心的平均IOU為61.0,其效能類似於9個Anchor Box的60.9。如果我們使用9個聚類中心,我們會看到更高的平均IOU。這表明使用k-means來生成我們的邊界框會以更好的表示開始訓練模型,並使得任務更容易學習。

( YOLOv2採用的5種Anchor的Avg IOU是61,而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9,也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候,AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。)

直接位置預測。當YOLO使用Anchor Box時,我們會遇到第二個問題:模型不穩定,特別是在早期的迭代過程中。大部分的不穩定來自預測邊界框的(x,y)位置。在區域提出網路中,網路預測值t_x和t_y,以及(x,y)中心座標計算如下:

image-20200717215411895

例如,若預測為tx=1,則將框向右移動錨框的寬度,預測為tx=-1將使框向左移動相同的量

這個公式是不受限制的,所以任何Anchor Box都可以在影象任一點結束,而不管在哪個位置預測該邊界框。隨機初始化模型需要很長時間才能穩定以預測合理的偏移量。我們沒有預測偏移量,而是按照YOLO的方法預測相對於網格單元位置的位置座標。這將真實值限制落到0和1之間。我們使用邏輯啟用約束網路的預測落入此範圍。

網路在輸出特徵圖中對每個單元預測5個邊界框。網路為每個邊界框預測5個座標,t_x,t_y,t_w,t_h和t_o。如果單元從影象的左上角偏移了(c_x, c_y),並且邊界框先驗的寬度和高度為p_w,p_h,那麼預測對應:

image-20200717220752807

由於我們限制位置預測引數化更容易學習,使網路更穩定。使用維度聚類以及直接預測邊界框中心位置的方式比使用Anchor Box的版本將YOLO提高了近5%。

image-20200717221746076

圖3:具有維度先驗和位置預測的邊界框。我們預測邊界框的寬度和高度作為聚類中心的偏移量。我們使用sigmoid函式預測邊界框相對於濾波器應用位置的中心座標。

細粒度功能。這個修改後的YOLO在13×13特徵對映上預測檢測結果。雖然這對於大型目標來說已經足夠了,但它可以從用於定位較小目標的更細粒度的特徵中受益。Faster R-CNN和SSD都在網路的各種特徵對映上執行他們提出的網路,以獲得一系列的解析度。我們採用不同的方法,僅僅新增一個通道層,從26x26解析度的更早層中提取特徵。

與ResNet中的身份對映相似,直通層通過將相鄰要素堆疊到不同的通道中而不是空間位置,從而將高解析度特徵與低解析度特徵連線在一起。這會將26×26×512特徵圖轉換為13×13×2048的特徵圖,可與原始特徵級聯使用。我們的檢測器在此擴充套件的特徵圖上執行,因此可以訪問細粒度的特徵。

多尺度訓練。原來的YOLO使用448×448的輸入解析度。通過新增Anchor Box,我們將解析度更改為416×416。但是,由於我們的模型只使用卷積層和池化層,因此它可以實時調整大小。我們希望YOLOv2能夠魯棒的執行在不同大小的影象上,因此我們可以將其訓練到模型中。

我們不固定輸入影象的大小,而是每隔幾次迭代就更改網路。每隔10個批次我們的網路會隨機選擇一個新的影象尺寸大小。由於我們的模型下采樣了32倍,因此我們從以下32的倍數中提取:{320,352,…,608}。因此最小的選項是320×320,最大的是608×608。我們調整網路的尺寸並繼續訓練。

這種機制迫使網路學習如何在各種輸入維度上做好預測。這意味著相同的網路可以預測不同解析度下的檢測結果。在更小尺寸上網路執行速度更快,因此YOLOv2在速度和準確性之間提供了一個簡單的折中。

在低解析度YOLOv2作為一個便宜,相當準確的檢測器。在288×288的解析度下,其執行速度超過90FPS,mAP與Fast R-CNN差不多。這使其成為小型GPU,高幀率視訊或多視訊流的理想選擇。

在高解析度下,YOLOv2是VOC 2007上最先進的檢測器,達到了78.6 mAP,同時仍保持執行在實時速度之上。請參閱表3,瞭解YOLOv2與VOC 2007其他框架的比較。

image-20200717230840914

表3:PASCAL VOC 2007的檢測框架。YOLOv2比先前的檢測方法更快,更準確。它也可以以不同的解析度執行,以便在速度和準確性之間進行簡單折衷。每個YOLOv2條目實際上是具有相同權重的相同訓練模型,只是以不同的大小進行評估。所有的時間資訊都是在Geforce GTX Titan X(原始的,而不是Pascal模型)上測得的。圖4。

image-20200717231030953

進一步實驗。我們在VOC 2012上訓練YOLOv2進行檢測。表4顯示了YOLOv2與其他最先進的檢測系統的比較效能。YOLOv2取得了73.4 mAP同時執行速度比競爭方法快的多。我們在COCO上進行了訓練,並在表5中與其他方法進行比較。在VOC度量(IOU = 0.5)上,YOLOv2得到44.0 mAP,與SSD和Faster R-CNN相當。

image-20200717231409033

表4:PASCAL VOC2012 test上的檢測結果。YOLOv2與最先進的檢測器如具有ResNet的Faster R-CNN、SSD512在標準資料集上執行,YOLOv2比它們快2-10倍。

image-20200717231544822

表5:在COCO test-dev2015上的結果。表參考[11]

3. 更快

我們希望檢測是準確的,但我們也希望它是快速的。大多數檢測應用程式(例如機器人技術或自動駕駛汽車)都依賴於低延遲預測。為了最大化效能,我們將YOLOv2設計為從一開始就非常快。

大多數檢測框架依賴於VGG-16作為的基本特徵提取器[17]。VGG-16是一個強大的,準確的分類網路,但它是不必要的複雜。VGG-16的卷積層需要對224×224解析度的單幅影象進行306.9億次浮點運算。

YOLO框架使用基於Googlenet架構[19]的自定義網路。這個網路比VGG-16更快,一次前饋傳播只有85.2億次的操作。然而,它的準確性比VGG-16略差。在ImageNet上,對於224×224解析度下的單張裁剪影象,YOLO的自定義模型獲得了88.0%的top-5準確率,而VGG-16則為90.0%。

Darknet-19。我們提出了一個新的分類模型作為YOLOv2的基礎。我們的模型建立在網路設計的先期工作以及該領域的常識基礎之上。與VGG模型類似,我們主要使用3×3濾波器,並在每個池化步驟之後使通道數量加倍[17]。按照Network in Network(NIN)的工作,我們使用全域性平均池化做預測以及1×1濾波器來壓縮3×3卷積之間的特徵表示[9]。我們使用批標準化來穩定訓練,加速收斂,並正則化模型[7]。

我們的最終模型叫做Darknet-19,它有19個卷積層和5個最大池化層。完整描述請看錶6。Darknet-19只需要55.8億次運算來處理一張影象,但在ImageNet上卻達到了72.9$的top-1準確率和91.2%的top-5準確率。

image-20200717235147844

訓練分類我們使用Darknet神經網路框架,使用隨機梯度下降法在160個迭代的標準ImageNet 1000類分類資料集上訓練網路,其初始學習率為0.1,多項式率衰減為4的冪,權重衰減為0.0005,動量為0.9,使用Darknet神經網路框架[13]。在訓練過程中,我們使用標準的資料增強技巧,包括隨機裁剪,旋轉以及色調,飽和度和曝光偏移

如上所述,在我們對224×224的影象進行初始訓練之後,我們對網路在更大的448x448尺寸上進行了微調。對於這種微調,我們使用上述引數進行訓練,但是隻有10個迭代週期,並且以10-3的學習率開始。在這種更高的解析度下,我們的網路達到了76.5%的top-1準確率和93.3%的top-5準確率。

訓練檢測 我們修改這個網路進行檢測,刪除了最後一個卷積層,加上了三個具有1024個濾波器的3×3卷積層,其後是最後的1×1卷積層與我們檢測需要的輸出數量。對於VOC,我們預測5個邊界框,每個邊界框有5個座標和20個類別,所以有125個濾波器。我們還添加了從最後的3×3×512層到倒數第二層卷積層的直通層,以便我們的模型可以使用細粒度特徵。

我們訓練網路160個迭代週期,初始學習率為10-3,在60個和90個迭代週期時將學習率除以10。我們使用0.0005的權重衰減和0.9的動量。我們對YOLO和SSD進行類似的資料增強,隨機裁剪,色彩偏移等。我們對COCO和VOC使用相同的訓練策略。

4. 更強

我們提出了一個聯合訓練分類和檢測資料的機制。我們的方法使用標記過的影象進行檢測,以學習特定於檢測的資訊,例如邊界框座標預測和objectness,以及如何對常見物件進行分類。它使用僅帶有類別標籤的影象來擴充套件它可以檢測到的類別數量。

在訓練期間,我們混合來自檢測和分類資料集的影象。當我們的網路看到標記為檢測的影象時,我們可以基於完整的YOLOv2損失函式進行反向傳播。當它看到一個分類影象時,我們只能從該架構的分類特定部分反向傳播損失。

這種方法提出了一些挑戰。檢測資料集只有通用目標和通用標籤,如“狗”或“船”。分類資料集具有更廣更深的標籤範圍。ImageNet有超過一百種品種的狗,包括Norfolk terrierYorkshire terrierBedlington terrier。如果我們想在兩個資料集上訓練,我們需要一個連貫的方式來合併這些標籤。

大多數分類方法都在所有可能的類別中使用softmax層來計算最終概率分佈。使用softmax假定這些類是相互排斥的。這給資料集的組合帶來了問題,例如你不想用這個模型來組合ImageNet和COCO,因為類Norfolk terrierdog不是相互排斥的。

我們可以改為使用多標籤模型來組合不假定互斥的資料集。這種方法忽略了我們已知的關於資料的所有結構,例如,所有的COCO類是互斥的。

分層分類。ImageNet標籤是從WordNet中提取的,這是一個構建概念及其相互關係的語言資料庫[12]。在WordNet中,Norfolk terrierYorkshire terrier都是terrier的下義詞,terrier是一種hunting doghunting dogdogdogcanine等。分類的大多數方法為標籤假設一個扁平結構,但是對於組合資料集,結構正是我們所需要的。

WordNet的結構是有向圖,而不是樹,因為語言是複雜的。例如,dog既是一種canine犬,也是一種domestic animal家畜,它們都是WordNet中的同義詞。我們不是使用完整的圖結構,而是通過從ImageNet的概念中構建分層樹來簡化問題。

為了構建這棵樹,我們檢查了ImageNet中的視覺名詞,並檢視它們通過WordNet圖到根節點的路徑,在這種情況下是“物理物件”。許多同義詞集在圖中只有一條路徑,因此首先我們將所有這些路徑新增到樹中。然後我們迭代檢查剩下的概念,並新增使樹長得儘可能小的路徑。所以如果一個概念有兩條路徑到一個根,一條路徑會給我們的樹增加三條邊,另一條只增加一條邊,我們選擇更短的路徑。

最終的結果是WordTree,一個視覺概念的分層模型。為了使用WordTree進行分類,我們預測每個節點的條件概率,以得到同義詞集合中每個同義詞下義詞的概率。例如,在terrier節點我們預測:

image-20200718094929477

如果我們想要計算一個特定節點的絕對概率,我們只需沿著通過樹到達根節點的路徑,再乘以條件概率。所以如果我們想知道一張圖片是否是Norfolk terrier,我們計算:

image-20200718095528061

為了分類目的,我們假定影象包含一個目標:Pr(physical object) = 1.

為了驗證這種方法,我們在使用1000類ImageNet構建的WordTree上訓練Darknet-19模型。為了構建WordTree1k,我們在所有中間節點,將標籤空間從1000擴充套件到1369。在訓練過程中,我們將真實標籤向樹上面傳播,以便如果影象被標記為Norfolk terrier,則它也被標記為dogmammal等。為了計算條件概率,我們的模型預測了具有1369個值的向量,並且我們計算了相同概念的下義詞在所有同義詞集上的softmax,見圖5。

image-20200718100554426

圖5:在ImageNet與WordTree上的預測。大多數ImageNet模型使用一個較大的softmax來預測概率分佈。使用WordTree,我們可以在共同的下義詞上執行多次softmax操作。

使用與以前相同的訓練引數,我們的分級Darknet-19達到71.9%的top-1準確率和90.4%的top-5準確率。儘管添加了369個其他概念,並且讓我們的網路預測了樹形結構,但我們的準確性僅略有下降。以這種方式進行分類也有一些好處。在新的或未知的物件類別上,效能會明顯下降。例如,如果網路看到了一條狗的圖片,但不確定它是哪種型別的狗,它仍將以較高的置信度預測“狗”,但在下位詞中的置信度較低。

這個構想也適用於檢測。現在,我們不是假定每張影象都有一個目標,而是使用YOLOv2的目標預測器給我們Pr(physical object)的值。我們向下遍歷樹,在每次拆分時都採用最高置信度,直到達到某個閾值並預測該物件類別。

資料集與WordTree組合 我們可以使用WordTree以明智的方式將多個數據集組合在一起。我們僅將樹中的資料集中的類別對映到同義詞集中。圖6顯示了使用WordTree組合ImageNet和COCO的標籤的示例。WordNet非常多樣化,因此我們可以對大多數資料集使用此技術。

聯合分類和檢測。現在我們可以使用WordTree組合資料集,我們可以在分類和檢測上訓練聯合模型。我們想要訓練一個非常大規模的檢測器,所以我們使用COCO檢測資料集和完整的ImageNet版本中的前9000個類來建立我們的組合資料集。我們還需要評估我們的方法,以便我們新增ImageNet檢測挑戰中尚未包含的任何類。此資料集的相應WordTree具有9418個類。ImageNet是一個更大的資料集,因此我們通過對COCO進行過度取樣來平衡資料集,以使ImageNet僅以4:1的比例擴大。

使用此資料集,我們訓練YOLO9000。我們使用基於YOLOv2的體系結構,但是僅使用3個優先順序而不是5個優先順序來限制輸出大小。當我們的網路看到檢測影象時,我們會像往常一樣反向傳播損失。對於分類損失,僅反向傳播等於或高於標籤相應水平的損失。例如,如果標籤為“ dog”,我們會在樹中“ GermanShepherd”與“ Golden Retriever”之間的預測中分配任何誤差,因為我們沒有該資訊。

當看到分類影象時,我們僅反向傳播分類損失。為此,我們只需找到預測該類別最高概率的邊界框,我們僅在其預測樹上計算損失。我們還假設,預測框至少與真值標籤重疊0.3IOU。我們根據這個假設反向傳播目標損失。

使用這種聯合訓練,YOLO9000學習使用COCO中的檢測資料來查詢影象中的目標,並學習使用來自ImageNet的資料對各種目標進行分類。

我們在ImageNet檢測任務上評估YOLO9000。ImageNet的檢測任務與COCO共享44個物件類別,這意味著YOLO9000僅具有大多數測試類別的可見分類資料。YOLO9000在從未見過任何標記的檢測資料的情況下,整體上獲得了19.7 mAP,在不相交的156個目標類別中獲得了16.0 mAP。

該mAP高於DPM達到的結果,但是YOLO9000在不同的資料集上進行了僅部分監督的訓練[4]。它還可以同時實時檢測9000個其他類別。

YOLO9000很好地學習了新的動物種類,但是卻在學習服裝和裝置等學習類別時遇到了麻煩。新動物更容易學習,因為目標預測可以從COCO中的動物泛化的很好。相反,COCO沒有任何型別的衣服的邊界框標籤,只針對人,因此YOLO9000正在努力建模“墨鏡”或“泳褲”等類別。

5. 結論

我們介紹了YOLOv2和YOLO9000,兩個實時檢測系統。YOLOv2在各種檢測資料集上都是最先進的,也比其他檢測系統更快。此外,它可以執行在各種影象大小,以提供速度和準確性之間的平滑折衷。

YOLO9000是通過聯合優化檢測和分類來檢測9000多個物件類別的實時框架。我們使用WordTree合併來自各種來源的資料,並使用聯合優化技術在ImageNet和COCO上同時進行訓練。YOLO9000是朝著縮小檢測與分類之間的資料集大小差距邁出的重要一步。

我們的許多技術都可以泛化到目標檢測之外。我們提出的ImageNet的WordTree表示形式為影象分類提供了更豐富,更詳細的輸出空間。使用分層分類的資料集組合在分類和分割領域將是有用的。諸如多尺度訓練之類的訓練技術可以為各種視覺任務提供益處。

對於未來的工作,我們希望使用類似的技術來進行弱監督影象分割。我們還計劃使用更強大的匹配策略為訓練過程中將弱標籤分配給分類資料,以改善檢測結果。計算機視覺擁有大量的被標記資料。我們將繼續尋找方法,將不同的資料來源和不同的資料結構組合在一起,以構建更強大的視覺世界模型。

References

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. arXiv preprint arXiv:1512.04143, 2015. 6

[2] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 248–255. IEEE, 2009. 1

[3] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303– 338, 2010. 1

[4] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester. Discriminatively trained deformable part models, release 4. http://people.cs.uchicago.edu/pff/latent-release4/. 8

[5] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 4, 5, 6

[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 2, 4, 5

[7] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 2, 5

[8] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 2

[9] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013. 5

[10] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740–755. Springer, 2014. 1, 6

[11] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. SSD: single shot multibox detector. CoRR, abs/1512.02325, 2015. 4, 5, 6

[12] G. A. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. J. Miller. Introduction to wordnet: An on-line lexical database. International journal of lexicography, 3(4):235–244, 1990. 6

[13] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 5

[14] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint arXiv:1506.02640, 2015. 4, 5

[15] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal net- works. arXiv preprint arXiv:1506.01497, 2015. 2, 3, 4, 5, 6

[16] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 2

[17] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2, 5

[18] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. CoRR, abs/1602.07261, 2016. 2

[19] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 5

[20] B. Thomee, D. A. Shamma, G. Friedland, B. Elizalde, K. Ni, D. Poland, D. Borth, and L.-J. Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016. 1