1. 程式人生 > >論文閱讀筆記五十六:(ExtremeNet)Bottom-up Object Detection by Grouping Extreme and Center Points(CVPR2019)

論文閱讀筆記五十六:(ExtremeNet)Bottom-up Object Detection by Grouping Extreme and Center Points(CVPR2019)

原理 man 表示 邏輯回歸 飛機 nbsp gpu 網絡 區域

技術分享圖片

論文原址:https://arxiv.org/abs/1901.08043

github: https://github.com/xingyizhou/ExtremeNet

摘要

本文利用一個關鍵點檢測網絡來檢測目標物的最左邊,最右邊,頂部,底部及目標物中心五個點。如果這幾個點在幾何空間上對齊,則生成一個邊界框。目標檢測進而演變為基於外形的關鍵點檢測問題,不需要進行區域分類及復雜的特征學習。

介紹

Top-Down方法占據目標檢測中的主要地位,一些流行的目標檢測算法通過直接裁剪區域或者特征,或者設置一些固定尺寸的anchor得到一些方形區域,然後,基於這些方形區域進行分類。top-down的方式也是存在一定限制的,一個方形框並不能很好的表示目標物的外形。許多目標並不是軸對齊的,如果將目標放入框中,則會包含大量幹擾的背景像素。如下圖所示

技術分享圖片

Top-Down方法列舉了大量可能存在位置的邊框,而沒有真正理解目標物的視覺成分,這個過程十分占用計算量。用邊界框來定位目標不是一個好方法,因為他得到的目標的細節信息很少。比如目標物的形狀及位置等。

本文提出bottom-up的目標檢測框架-ExtremeNet,用於檢測目標物的四個極點。利用一個關鍵點檢測網絡,針對每個類別預測四個multi-peak heatmaps進而得到極點。對於每個類別又增加了一個heatmap用於預測目標的中心,其heatmap值為邊框x,y方向的均值。然後基於純幾何的方法對extreme點進行組合。從每個map中得到一個點,得到四個extreme points,如果由這四個點決定產生的中心點對應的center map中的位置的值大於一個預定義的閾值,則將這四個點進行組合。本文詳細羅列了O(n^4)個預測點的組合,並選擇其中有效的組合方式。其中,n的設置十分小,對於COCO在GPU上的設置,一般取n<40就足夠,下圖為方法的大致流程。

技術分享圖片

CornerNet預測一組相對的點,然後基於嵌入式特征對這些點進行組合。本文與CornerNet存在兩點不同:(1)關鍵點的定義(2)組合方式,角點是邊界框的另一種表現形式,在top-down檢測中會遇到很多問題,角點可能會經常落在沒有較強特征目標物的外界。而另一方面,極點位於視覺可分,並具備連續性局部外形特征的目標物上。如最頂部的點極有可能落在人類的頭部位置,車或者飛機的底部的點大概率會在輪子處。這使得極點的檢測更加簡單。另一點不同的是,CornerNet基於幾何的方式進行組合,檢測框架完全依賴於外形特征,並不進行復雜的特征學習,實驗發現,基於外形特征的組合方式效果更好。

Extreme Points相比邊界框,可以提供更豐富的信息,同時,extreme points也與目標物的mask有著緊密的聯系。相比邊界框,extreme points更好的預測目標物的mask。

Preliminaries

Extreme and center points:技術分享圖片代表邊界框的四條邊,為了標記一個框,點擊左上角的點技術分享圖片及右下角的點技術分享圖片,通常這些點會位於目標物的外接,不太準確,進行調整也需要花費時間,平均下來需要花費34.5s。有人提出只標記四個極點,技術分享圖片構成的邊界框為技術分享圖片,極點(x(a),y(a))是指在a(top,left,right,bottom)方向上沒有其他點位於目標物上,這種方式產生的annotation的時間平均為7.2s。本文額外利用目標物的中心點技術分享圖片

關鍵點檢測利用一組全卷積的編碼-解碼結構針對不同類型的關鍵點進行預測得到一個多通道的heatmap,基於L2 損失或者Gaussian map進行一個全監督的訓練。state of the art 的關鍵點檢測模型為Hourglass 網絡。對於每個通道回歸得到一個大小為H,W的heatmap,訓練由一個多峰值的heatmap驅動,每個關鍵點定義高斯核的均值,其標準差設置為固定值或者根據目標大小進行調整。在L2損失情形下,高斯heatmap可以被看作為一個回歸目標,在邏輯回歸中,可以看作是在positive 位置附近減少懲罰的weight map。

CornerNet:基於Hourglass Network作為backbone用於目標檢測。其預測兩個heatmap用於獲得邊界框的對角點。為了平衡正負樣本的比例,設置如下訓練損失。

技術分享圖片

為了提高極點子像素的精度,CornerNet對於每個角點增加了一個類別無關的偏移回歸技術分享圖片,用於恢復在hourglass下采樣過程中損失的信息。此offset map基於smooth L1損失進行訓練,然後基於embeding對角點進行組合。ExtremeNet采用了CornerNet的損失及結構的思想。

技術分享圖片

ExtremeNet for Object detection:ExtremeNet基於HourglassNetwork針對每個類別預測五個heatmaps。本文參考CornerNet的訓練初始化,損失及偏移預測,offset的預測是於與類別無關的,而四個極點的heatmap是類別明確的。center heatmap中不存在offset prediction.本文輸出5XC的heatmaps及4x2的heatmaps用於預測offset。整體流程如下圖所示,在得到四個極點後,完全基於幾何原理對其進行組合。

技術分享圖片

Center Grouping:極點位於目標物的不同邊上,這增加了組合的復雜度,associative embeding無法基於全局對關鍵點進行組合。

組合算法的輸入為每個類別的5個heatmaps。一個center map及4個heatmaps。對於每個heatmap通過檢測每個峰點得到其相應的關鍵點。峰點是像素點位置大於tp,同時是3x3像素中的局部最大點的像素,這個過程稱為extractPeak。

分別從四個heatmaps中得到對應的極點,t,b,r,l,計算其中心點的位置為技術分享圖片,若該點所對應centermap中具有一個較高的相應(大於一定閾值tc),則將此四個極點定義為一個有效檢測。本文以粗魯的方式將所有關鍵點組合進行羅列(復雜讀為O(n^4,n為每個坐標方向上提取的極點個數))。算法流程如下,

技術分享圖片

Ghost box suppression:對於共線的同樣大小的目標物,Extremenet可能會得到一個confidence較高的假陽性檢測結果。對於中間的目標存在兩種情形:要麽產生一個小的邊界框,要麽得到一個相對較大的邊框將相鄰目標的極點也包含在內。將這戲額fasle-positive檢測框成為ghost box。這種框不多,但是在組合過程中固定存在。

本文增加了一個後處理的方法,提出了一個類似於soft NMS的方法進行處理。“ghost box”中包含許多其他的小的檢測,如果包含的框的分的和超過其自身的3倍,則將概況的分數除以2。該方法只是對潛在的"Ghost"box進行的懲罰。

Edge aggregation: 極點的定義不是固定的,如果目標物邊界邊緣構成極點,則該邊的任意一個點都可以看作是極點。因此,本文對目標物的對齊邊界產生一個較弱的相應,而不是強峰值響應。但這種弱相應存在兩個問題:第一:較弱的相應其值可能會低於峰值閾值,因此該極點可能會被忽略。第二:即使檢測到了一個極點,其分數仍可能會比具有強響應的旋轉對象的分數低。本文采用edge aggregation解決上述問題。

對於提取出局部最大點的極點,將其水平方向及垂直方向極點的分數進行聚合。將所有分數單調遞減的極點進行聚合。當在聚合方向達到局部最小值的時候停止聚合。令m代表一個極點,技術分享圖片代表該點水平或者垂直方向上的兩個分段分數。i0<0,i1>0代表兩個局部最小技術分享圖片技術分享圖片的位置。邊緣聚合根據下式對關鍵點分數進行更新。技術分享圖片結果如下

技術分享圖片

實驗

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

Reference

[1] N. Bodla, B. Singh, R. Chellappa, and L. S. Davis. Softnmsimproving object detection with one line of code. In ICCV, 2017. 5, 6

[2] Z. Cai and N. Vasconcelos. Cascade r-cnn: Delving into high quality object detection. CVPR, 2018. 7
[3] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR,2017. 1, 3
[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. PAMI, 2018. 4

論文閱讀筆記五十六:(ExtremeNet)Bottom-up Object Detection by Grouping Extreme and Center Points(CVPR2019)