ECCV2018目標檢測(object detection)演算法總覽
這篇部落格記錄我個人比較感興趣的ECCV2018關於目標檢測(object detection)的一些文章。
1、IOU-Net
論文:Acquisition of Localization Confidence for Accurate Object Detection
論文連結:https://arxiv.org/abs/1807.11590
詳細部落格介紹:IOU-Net 演算法筆記
這篇文章個人非常喜歡,我們知道在目標檢測演算法中最後一般都會通過NMS演算法移除重複預測框,移除的依據是預測框的分類得分(classification confidence,也就是softmax層的概率輸出),但是這種依據並不能很好地表徵預測框的準確性,換句話說對於同一個ground truth而言,分類得分高的預測框並不一定比分類得分低的預測框好,這樣就容易導致那些分類得分低,但是座標和ground truth更接近,也就是座標迴歸更準確的預測框在NMS階段被過濾掉,導致最終指標的下降。因此這篇文章就提出IOU-Net,通過預測檢測框和ground truth的IOU來解決這2個問題:1、提出IOU-guided NMS,也就是在NMS階段引入迴歸得分(localization confidence)作為排序指標而不是採用傳統的分類得分。2、提出optimization-based bbox refinement替換傳統的regression-based方法,提高了迴歸部分的可解釋性。另外這篇文章還提出了Precise ROI Pooling(PrROI Pooling),通過積分方式計算ROI特徵使得前向計算的誤差進一步降低,同時反向傳播時基於連續輸入值計算梯度使得反向傳播連續可導,相比之下ROI Pooling和ROI Align由於採用量化或幾個點插值方式求ROI特徵,不可避免地帶來一些噪聲,而且在反向求導時只對特定輸入回傳梯度。
Figure1是關於這篇文章出發點的介紹。
這篇關於目標檢測的文章,主要是對檢測演算法的特徵提取網路(backbone)做優化。我們知道目前大部分的目標檢測演算法在訓練時都會用預訓練的分類模型來提取特徵,這些預訓練模型是在ImageNet資料集上訓練得到的,眾多的實驗也證明了這種做法的有效性。而DetNet這篇文章相當於研究更加有效的特徵提取網路,出發點也非常直接,主要包含兩點:1、分類任務和檢測任務還是有一定差別的,因此用分類資料上訓練的分類模型來提取特徵用於檢測任務不一定合適,比如檢測任務比較關注目標的尺度特徵,但是分類任務就不一定了。2、檢測任務不僅僅要做目標的分類,而且要做目標的定位,這樣的差異容易導致一些問題,比如在分類網路中常用的降取樣操作可能對分類有效,因為增大了感受野,但是對於需要定位目標的檢測任務而言就不一定有利,因為丟失了目標的位置資訊
Figure1是第1個改進點。
Figure2是關於第2、3個改進點。
這篇關於目標檢測的文章,提出了RFB Net網路用於目標檢測,可以在兼顧速度的同時達到良好的效果。該網路主要在SSD網路中引入Receptive Field Block (RFB) ,引入RFB的出發點通過模擬人類視覺的感受野加強網路的特徵提取能力,在結構上RFB借鑑了Inception的思想,主要是在Inception的基礎上加入了dilated卷積層(dilated convolution),從而有效增大了感受野(receptive field)。整體上因為是基於SSD網路進行改進,所以檢測速度還是比較快,同時精度也有一定的保證。
RFB結構如Figure4所示。
RFB Net結構如Figure5所示。
這篇文章借鑑了SPP的思想並通過MSCA(multi-scale context aggregation)模組進行特徵融合從而提出PFPNet(Parallel Feature Pyramid Network)演算法來提升目標檢測的效果。PFPNet整體上還是one stage型別的目標檢測演算法,思想借鑑了SSD,速度上有保證,效果上因為引入SPP思想構造特徵金字塔,相當於加寬了網路,同時MSCA模組做類似FPN的特徵融合操作,最後基於多層融合特徵進行預測,因此效果也是很不錯的,和CVPR2018的RefineDet效果基本上差不多。
PFPNet的網路結構如Figure3所示。
這篇目標檢測文章給人一種眼前一亮的感覺,簡單說一下幾個比較吸引我的點:1、將目標檢測問題當作關鍵點檢測問題來解決,也就是通過檢測目標框的左上角和右下角兩個關鍵點得到預測框,因此CornerNet演算法中沒有anchor的概念,這種做法在目標檢測領域是比較創新的而且能夠取得不錯效果是很難的。2、整個檢測網路的訓練是從頭開始的,並不基於預訓練的分類模型,這使得使用者能夠自由設計特徵提取網路,不用受預訓練模型的限制。
CornerNet演算法整體結構如Figure4所示。