ECCV 2018 目標檢測亮點演算法概覽
轉載自:AI之路
原文:https://blog.csdn.net/u014380165/article/details/82025720
這篇部落格記錄我個人比較感興趣的 ECCV2018 關於目標檢測(object detection)的一些文章。
1、IOU-Net
論文:《 Acquisition of Localization Confidence for Accurate Object Detection 》
論文連結:https://arxiv.org/abs/1807.11590
詳細部落格介紹:IOU-Net 演算法筆記
這篇文章個人非常喜歡,我們知道在目標檢測演算法中最後一般都會通過 NMS 演算法移除重複預測框,移除的依據是預測框的分類得分(classification confidence,也就是 softmax 層的概率輸出),但是這種依據並不能很好地表徵預測框的準確性,換句話說對於同一個 ground truth 而言,分類得分高的預測框並不一定比分類得分低的預測框好,這樣就容易導致那些分類得分低,但是座標和 ground truth 更接近,也就是座標迴歸更準確的預測框在 NMS 階段被過濾掉,導致最終指標的下降。因此這篇文章就提出 IOU-Net,通過預測檢測框和 ground truth 的 IOU 來解決這 2 個問題:1、提出 IOU-guided NMS,也就是在 NMS 階段引入迴歸得分(localization confidence)作為排序指標而不是採用傳統的分類得分。2、提出 optimization-based bbox refinement 替換傳統的 regression-based 方法,提高了迴歸部分的可解釋性。另外這篇文章還提出了 Precise ROI Pooling(PrROI Pooling),通過積分方式計算 ROI 特徵使得前向計算的誤差進一步降低,同時反向傳播時基於連續輸入值計算梯度使得反向傳播連續可導,相比之下 ROI Pooling 和 ROI Align 由於採用量化或幾個點插值方式求 ROI 特徵,不可避免地帶來一些噪聲,而且在反向求導時只對特定輸入回傳梯度。
Figure1 是關於這篇文章出發點的介紹。
2、DetNet
論文:《 DetNet: A Backbone network for Object 》
連結:https://arxiv.org/abs/1804.06215
詳細部落格介紹:DetNet 演算法筆記
這篇關於目標檢測的文章,主要是對檢測演算法的特徵提取網路(backbone)做優化。我們知道目前大部分的目標檢測演算法在訓練時都會用預訓練的分類模型來提取特徵,這些預訓練模型是在 ImageNet 資料集上訓練得到的,眾多的實驗也證明了這種做法的有效性。而 DetNet 這篇文章相當於研究更加有效的特徵提取網路,出發點也非常直接,主要包含兩點:1、分類任務和檢測任務還是有一定差別的,因此用分類資料上訓練的分類模型來提取特徵用於檢測任務不一定合適,比如檢測任務比較關注目標的尺度特徵,但是分類任務就不一定了。2、檢測任務不僅僅要做目標的分類,而且要做目標的定位,這樣的差異容易導致一些問題,比如在分類網路中常用的降取樣操作可能對分類有效,因為增大了感受野,但是對於需要定位目標的檢測任務而言就不一定有利,因為丟失了目標的位置資訊。因此 DetNet 的提出主要也是針對這兩個出發點,換句話說是設計了一個專門用於目標檢測演算法的特徵提取網路,主要改進點包括:1、增加網路高層輸出特徵的解析度,換句話說就是高層不對特徵圖做尺寸縮減。2、引入 dilated 卷積層增加網路高層的感受野,這是因為第一個改進點引起的感受野減小。3、減小網路高層的寬度,減少因增大解析度帶來的計算量。
Figure1 是第 1 個改進點。
Figure2 是關於第 2、3 個改進點。
3、RFB Net
論文:《 Receptive Field Block Net for Accurate and Fast Object Detection 》
論文連結:https://arxiv.org/abs/1711.07767
程式碼連結:https://github.com/ruinmessi/RFBNet
詳細部落格介紹:RFB Net 演算法筆記
這篇關於目標檢測的文章,提出了 RFB Net 網路用於目標檢測,可以在兼顧速度的同時達到良好的效果。該網路主要在 SSD 網路中引入 Receptive Field Block (RFB) ,引入 RFB 的出發點通過模擬人類視覺的感受野加強網路的特徵提取能力,在結構上 RFB 借鑑了 Inception 的思想,主要是在 Inception 的基礎上加入了 dilated 卷積層(dilated convolution),從而有效增大了感受野(receptive field)。整體上因為是基於 SSD 網路進行改進,所以檢測速度還是比較快,同時精度也有一定的保證。
RFB 結構如 Figure4 所示。
RFB Net 結構如 Figure5 所示。
4、PFPNet
論文:《 Parallel Feature Pyramid Network for Object Detection 》
論文連結:http://openaccess.thecvf.com/content_ECCV_2018/html/Seung-Wook_Kim_Parallel_Feature_Pyramid_ECCV_2018_paper.html
詳細部落格介紹:PFPNet 演算法筆記
這篇文章借鑑了 SPP 的思想並通過 MSCA(multi-scale context aggregation)模組進行特徵融合從而提出 PFPNet(Parallel Feature Pyramid Network)演算法來提升目標檢測的效果。PFPNet 整體上還是 one stage 型別的目標檢測演算法,思想借鑑了 SSD,速度上有保證,效果上因為引入 SPP 思想構造特徵金字塔,相當於加寬了網路,同時 MSCA 模組做類似 FPN 的特徵融合操作,最後基於多層融合特徵進行預測,因此效果也是很不錯的,和 CVPR2018 的 RefineDet 效果基本上差不多。
PFPNet 的網路結構如 Figure3 所示。
5、CornerNet
論文:《 CornerNet: Detecting Objects as Paired Keypoints 》
論文連結:https://arxiv.org/abs/1808.01244
程式碼連結:https://github.com/umich-vl/CornerNet
詳細部落格介紹:CornerNet 演算法筆記
這篇目標檢測文章給人一種眼前一亮的感覺,簡單說一下幾個比較吸引我的點:1、將目標檢測問題當作關鍵點檢測問題來解決,也就是通過檢測目標框的左上角和右下角兩個關鍵點得到預測框,因此 CornerNet 演算法中沒有 anchor 的概念,這種做法在目標檢測領域是比較創新的而且能夠取得不錯效果是很難的。2、整個檢測網路的訓練是從頭開始的,並不基於預訓練的分類模型,這使得使用者能夠自由設計特徵提取網路,不用受預訓練模型的限制。
CornerNet 演算法整體結構如 Figure4 所示。