論文閱讀筆記五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）

阿新 • • 發佈：2019-05-01

原理 man 表示邏輯回歸飛機 nbsp gpu 網絡區域

技術分享圖片

論文原址：https://arxiv.org/abs/1901.08043

github: https://github.com/xingyizhou/ExtremeNet

摘要

本文利用一個關鍵點檢測網絡來檢測目標物的最左邊，最右邊，頂部，底部及目標物中心五個點。如果這幾個點在幾何空間上對齊，則生成一個邊界框。目標檢測進而演變為基於外形的關鍵點檢測問題，不需要進行區域分類及復雜的特征學習。

介紹

Top-Down方法占據目標檢測中的主要地位，一些流行的目標檢測算法通過直接裁剪區域或者特征，或者設置一些固定尺寸的anchor得到一些方形區域，然後，基於這些方形區域進行分類。top-down的方式也是存在一定限制的，一個方形框並不能很好的表示目標物的外形。許多目標並不是軸對齊的，如果將目標放入框中，則會包含大量幹擾的背景像素。如下圖所示

技術分享圖片

Top-Down方法列舉了大量可能存在位置的邊框，而沒有真正理解目標物的視覺成分，這個過程十分占用計算量。用邊界框來定位目標不是一個好方法，因為他得到的目標的細節信息很少。比如目標物的形狀及位置等。

本文提出bottom-up的目標檢測框架-ExtremeNet，用於檢測目標物的四個極點。利用一個關鍵點檢測網絡，針對每個類別預測四個multi-peak heatmaps進而得到極點。對於每個類別又增加了一個heatmap用於預測目標的中心，其heatmap值為邊框x,y方向的均值。然後基於純幾何的方法對extreme點進行組合。從每個map中得到一個點，得到四個extreme points，如果由這四個點決定產生的中心點對應的center map中的位置的值大於一個預定義的閾值，則將這四個點進行組合。本文詳細羅列了O(n^4)個預測點的組合，並選擇其中有效的組合方式。其中，n的設置十分小，對於COCO在GPU上的設置，一般取n<40就足夠，下圖為方法的大致流程。

技術分享圖片

CornerNet預測一組相對的點，然後基於嵌入式特征對這些點進行組合。本文與CornerNet存在兩點不同：(1)關鍵點的定義(2)組合方式，角點是邊界框的另一種表現形式，在top-down檢測中會遇到很多問題，角點可能會經常落在沒有較強特征目標物的外界。而另一方面，極點位於視覺可分，並具備連續性局部外形特征的目標物上。如最頂部的點極有可能落在人類的頭部位置，車或者飛機的底部的點大概率會在輪子處。這使得極點的檢測更加簡單。另一點不同的是，CornerNet基於幾何的方式進行組合，檢測框架完全依賴於外形特征，並不進行復雜的特征學習，實驗發現，基於外形特征的組合方式效果更好。

Extreme Points相比邊界框，可以提供更豐富的信息，同時，extreme points也與目標物的mask有著緊密的聯系。相比邊界框，extreme points更好的預測目標物的mask。

Preliminaries

Extreme and center points:代表邊界框的四條邊，為了標記一個框，點擊左上角的點及右下角的點，通常這些點會位於目標物的外接，不太準確，進行調整也需要花費時間，平均下來需要花費34.5s。有人提出只標記四個極點，構成的邊界框為，極點(x(a),y(a))是指在a（top,left,right,bottom）方向上沒有其他點位於目標物上，這種方式產生的annotation的時間平均為7.2s。本文額外利用目標物的中心點。

關鍵點檢測利用一組全卷積的編碼-解碼結構針對不同類型的關鍵點進行預測得到一個多通道的heatmap，基於L2 損失或者Gaussian map進行一個全監督的訓練。state of the art 的關鍵點檢測模型為Hourglass 網絡。對於每個通道回歸得到一個大小為H,W的heatmap，訓練由一個多峰值的heatmap驅動，每個關鍵點定義高斯核的均值，其標準差設置為固定值或者根據目標大小進行調整。在L2損失情形下，高斯heatmap可以被看作為一個回歸目標，在邏輯回歸中，可以看作是在positive 位置附近減少懲罰的weight map。

CornerNet：基於Hourglass Network作為backbone用於目標檢測。其預測兩個heatmap用於獲得邊界框的對角點。為了平衡正負樣本的比例，設置如下訓練損失。

技術分享圖片

為了提高極點子像素的精度，CornerNet對於每個角點增加了一個類別無關的偏移回歸，用於恢復在hourglass下采樣過程中損失的信息。此offset map基於smooth L1損失進行訓練，然後基於embeding對角點進行組合。ExtremeNet采用了CornerNet的損失及結構的思想。

技術分享圖片

ExtremeNet for Object detection：ExtremeNet基於HourglassNetwork針對每個類別預測五個heatmaps。本文參考CornerNet的訓練初始化，損失及偏移預測，offset的預測是於與類別無關的，而四個極點的heatmap是類別明確的。center heatmap中不存在offset prediction.本文輸出5XC的heatmaps及4x2的heatmaps用於預測offset。整體流程如下圖所示，在得到四個極點後，完全基於幾何原理對其進行組合。

技術分享圖片

Center Grouping：極點位於目標物的不同邊上，這增加了組合的復雜度，associative embeding無法基於全局對關鍵點進行組合。

組合算法的輸入為每個類別的5個heatmaps。一個center map及4個heatmaps。對於每個heatmap通過檢測每個峰點得到其相應的關鍵點。峰點是像素點位置大於tp，同時是3x3像素中的局部最大點的像素，這個過程稱為extractPeak。

分別從四個heatmaps中得到對應的極點，t,b,r,l，計算其中心點的位置為，若該點所對應centermap中具有一個較高的相應（大於一定閾值tc），則將此四個極點定義為一個有效檢測。本文以粗魯的方式將所有關鍵點組合進行羅列（復雜讀為O(n^4，n為每個坐標方向上提取的極點個數)）。算法流程如下，

技術分享圖片

Ghost box suppression：對於共線的同樣大小的目標物，Extremenet可能會得到一個confidence較高的假陽性檢測結果。對於中間的目標存在兩種情形:要麽產生一個小的邊界框，要麽得到一個相對較大的邊框將相鄰目標的極點也包含在內。將這戲額fasle-positive檢測框成為ghost box。這種框不多，但是在組合過程中固定存在。

本文增加了一個後處理的方法，提出了一個類似於soft NMS的方法進行處理。“ghost box”中包含許多其他的小的檢測，如果包含的框的分的和超過其自身的3倍，則將概況的分數除以2。該方法只是對潛在的"Ghost"box進行的懲罰。

Edge aggregation：極點的定義不是固定的，如果目標物邊界邊緣構成極點，則該邊的任意一個點都可以看作是極點。因此，本文對目標物的對齊邊界產生一個較弱的相應，而不是強峰值響應。但這種弱相應存在兩個問題：第一：較弱的相應其值可能會低於峰值閾值，因此該極點可能會被忽略。第二：即使檢測到了一個極點，其分數仍可能會比具有強響應的旋轉對象的分數低。本文采用edge aggregation解決上述問題。

對於提取出局部最大點的極點，將其水平方向及垂直方向極點的分數進行聚合。將所有分數單調遞減的極點進行聚合。當在聚合方向達到局部最小值的時候停止聚合。令m代表一個極點，代表該點水平或者垂直方向上的兩個分段分數。i0<0,i1>0代表兩個局部最小，的位置。邊緣聚合根據下式對關鍵點分數進行更新。技術分享圖片結果如下

技術分享圖片

實驗

技術分享圖片

Reference

[1] N. Bodla, B. Singh, R. Chellappa, and L. S. Davis. Softnmsimproving object detection with one line of code. In ICCV, 2017. 5, 6

[2] Z. Cai and N. Vasconcelos. Cascade r-cnn: Delving into high quality object detection. CVPR, 2018. 7
[3] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR,2017. 1, 3
[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. PAMI, 2018. 4

論文閱讀筆記五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）

原理 man 表示邏輯回歸飛機 nbsp gpu 網絡區域論文原址：https://arxiv.org/abs/1901.08043 github: https://github.com/xingyizhou/ExtremeNet 摘要

論文閱讀筆記五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）

論文閱讀筆記五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）

論文閱讀 | ExtremeNet：Bottom-up Object Detection by Grouping Extreme and Center Points

論文閱讀筆記四十四：RetinaNet:Focal Loss for Dense Object Detection(CVPR2019)

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

論文閱讀筆記五十四：Gradient Harmonized Single-stage Detector（CVPR2019）

論文閱讀筆記二十二：Learning to Segment Instances in Videos with Spatial Propagation Network（CVPR-20017）

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

論文閱讀筆記二十九：One pixel attack for fooling deep neural networks（CVPR2017）

論文閱讀筆記四十一：Very Deep Convolutional Networks For Large-Scale Image Recongnition（VGG ICLR2015）

opencv學習筆記五十六：分水嶺分割演算法

論文閱讀筆記三十一：YOLOv3: An Incremental Improvement

論文閱讀筆記四十二：Going deeper with convolutions (Inception V1 CVPR2014 )

論文閱讀筆記四十五：Region Proposal by Guided Anchoring（CVPR2019）

論文閱讀筆記二十：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）

論文閱讀筆記二十五：Fast R-CNN (ICCV2015)

論文閱讀筆記二十：LinkNet: Exploiting Encoder Representations for Efﬁcient Semantic Segmentation(CVPR2017)

轉：【Java並發編程】之十六：深入Java內存模型——happen-before規則及其對DCL的分析（含代碼）

opencv學習筆記三十六：AKAZE特徵點檢測與匹配

opencv學習筆記五十二：基於Haar或LBP級聯分類器的實時人臉人眼檢測

opencv學習筆記五十七：基於分水嶺的影象分割

論文閱讀筆記五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）

相關推薦