1. 程式人生 > >Receptive Field Block Net for Accurate and Fast Object Detection

Receptive Field Block Net for Accurate and Fast Object Detection

高效 splay 兩個 spp 位置 ont 由於 通用 性能

Receptive Field Block Net for Accurate and Fast Object Detection

作者:Songtao Liu, Di Huang*, and Yunhong Wang

Beijing Advanced Innovation Center for Big Data and Brain Computing

Beihang University, Beijing 100191, China

fliusongtao, dhuang, [email protected]

論文鏈接:https://arxiv.org/abs/1711.07767

代碼鏈接:https://github.com/ruinmessi/RFBNet

  1. 方法概述

這篇文章收錄於ECCV2018,提出了一種準確且快速的目標檢測算法RFB-NET,強調通過人為設計機制,使用輕量級網絡來實現其高準確性和高速率。

1.1 主要思路

文章提出RFB模塊進行人類視覺系統的大小和離心率的模擬,旨在增強輕量級CNN網絡的深層特征。將RFB模塊集成到SSD網絡結構的頂端卷積層,在控制計算損失的情況下準確度有一定提升。通過將其連接到MobileNet證明其通用能力。

1.2 方法框架

RFB模塊其內部結構如圖1所示可以分為兩個部分:具有不同內核的多分支卷積層和空洞卷積層。不同內核的多分支卷積層模擬多種尺寸的pRF,後一部分的空洞卷積層再現了人類視覺系統中

pRF尺寸與心率之間的關系

  技術分享圖片

1 RFB模塊結構

1.3 文章亮點

文章設計RFB模塊進行人類視覺系統的大小和離心率的模擬,在輕量級網絡上保持速度優勢的同時提高了準確率,並且具有很強的通用能力。

2.方法細節

2.1研究背景

近年來,基於區域卷積神經網絡的two-stage目標檢測算法,如Fast R-CNN Faster R-CNN算法都在Pascal VOC, MS COCO, ILSVRC等數據集上持續提升了物體檢測的性能。但是此類算法都是基於高計算成本的深度神經網絡,所以相對而言速度就慢得多。因此,one-stage類目標算法應運而生,如YOLO

SSD算法,他們大多基於簡單的網絡架構,以犧牲計算精度為代價,獲得了較快的速度。綜上所述,設計一個使用輕量級網絡能快速準確檢測目標的算法是一個很有意義的研究方向。而作者實現的RFB-NET就是強調不要一味地加深模型,而是通過人為設計機制增強輕量級網絡的特征表示來設計這個算法。

2.2 設計思想

設計思想來源於群感受野模型的提出。在神經科學中的一些發現揭示,在人類視覺皮層中,population Receptive Field(pRF)群感受野模型用於精確分析視覺皮層對視覺刺激的反應。如圖2群感受野的規律及表示圖所示,A圖群感受野(pRF)的大小是其視網膜圖中心率的函數,表現為隨著偏心而增加,距離中心點越近的區域對未來輸出特征圖的貢獻越大B圖是參考A圖的函數關系畫出的人眼視覺感受野,它有助於突出更靠近中心的區域的重要性,並提高對小空間變化的不敏感性。

技術分享圖片

2 群感受野的規律及表示

2.3同類感受野算法對比

目前也有一些算法提出了感受野的做法。從圖3所示的幾個也用到感受野特征的算法中可以做進一步的比較。Inception考慮到多種尺寸的感受野,因而采用具有不同內核大小的多個分支來捕獲多尺度信息。但是,Inception中的所有內核都在同一中心進行采樣,這需要更大的內核才能達到相同的采樣覆蓋率,從而丟失了一些關鍵細節。ASPP在頂部特征圖上應用了幾個具有不同膨脹率的並行卷積,以改變與中心的采樣距離,這證明了語義分割中的有效性。但是這些特征僅具有來自相同內核大小的先前卷積層的均勻分辨率,並且與菊花形狀的卷積層相比,所得特征往往不那麽獨特。Deformable CNN試圖根據物體的尺度和形狀自適應地調整RF的空間分布。盡管其采樣網格是靈活的,但不考慮RF的心率的影響,其中RF中的所有像素對輸出響應貢獻相同並且不強調最重要的信息。RFB確實與它們不同,它突出了菊花形狀配置中感受野尺寸和心率之間的關系,其中較大的重量分配給較小的內核靠近中心的位置,聲稱它們比更遠的更重要。另一方面,尚未成功采用Inception和ASPP來改進one-stage目標檢測算法,而RFB則展示了在這個問題上利用其優勢的有效方法。

技術分享圖片

3 典型感受野算法對比

2.4 RFB結構細節

RFB模塊是多分支卷積塊。如圖4所示其內部結構可以分為兩個部分:具有不同內核的多分支卷積層和空洞卷積層。前一部分與Inception完全相同,使用具有不同內核的多分支池化層模擬多種尺寸的pRF,後一部分的空洞卷積層再現了人類視覺系統中pRF尺寸與心率之間的關系。在RFB結構中最後會將不同尺寸和rate的卷積層輸出進行concat,達到融合不同特征的目的。在4的最後一列中將融合後的特征與人類視覺感受野做對比,從圖可以看出是非常接近的,這也是這篇文章的出發點,換句話說就是模擬人類視覺的感受野進行RFB結構的設計。

技術分享圖片

4 RFB模塊結構

2.5 RFBRFB-s的實現

5中(a)與(b)顯示了RFBRFB-s實現細節上的一些差異。分支卷積層采用最新版本Inception系列中的Inception V4和Inception-ResNet V2。RFB-s通過調整RFB的參數模擬人類視網膜圖中的較小pRF,使用更多具有較小核的分支。具體來說,首先,我們在每個分支中使用瓶頸結構,由1*1卷積層組成,以減少特征映射中的通道數量。其次,我們用兩個堆疊的3*3卷積層替換5*5卷積層,以減少參數和更深的非線性層。出於同樣的原因,我們使用1*n加上n*1卷積層來代替原始的n*n卷積層。最後,我們應用ResNet 和Inception-ResNet V2的shortcut最終,所有分支的特征映射被連接,合並成如圖5所示卷積層

技術分享圖片

5 RFBRFB-s實現細節

2.6 RFB-NET網絡結構

RFB-NET網絡結構如圖6所示,重用了SSD的多尺度和單級框架。將RFB模塊嵌入SSD結構中用以改善從輕量級主幹提取的特征,使得探測器更準確且仍然足夠快。由於RFB的特性可以輕松集成到CNN中,我們可以盡可能地保留SSD架構。使用與SSD完全相同的骨幹網絡。具體來說,它是ILSVRC CLS-LOC數據集上預先訓練的VGG16架構,其中fc6和fc7層被轉換為具有子采樣參數的卷積層,並且其pool5層從2* 2-s2變為3 * 3-s1。空洞卷積層用於填充空穴,並且去除所有的丟失層和fc8層。

技術分享圖片

6 RFB-NET網絡結構

3. 實驗結果

在PASCAL VOC 2007數據集上的測試結果如表1所示。結果顯示RFB Net512獲得了最好的效果,並且保持了一定的速度。

技術分享圖片

1 PASCAL VOC 2007數據集測試結果

在與同類使用感受野思想的算法比較中,為了公平地表示,改變Inception的參數使之與RFB-NET具有相同的感受野大小,重命名為Inception-L,同樣地,把ASPP改成ASPP-S。然後,將這些模塊也集成到SSD網絡中進行測試。測試結果如表2所示,RFB-NET性能最優。

技術分享圖片

2 同類感受野思想的算法比較結果

在COCO test-dev 2015數據集上的測試結果如表3所示。在結果中,測試結果最高的是RetinaNet800,為了最求最高效率,將原有的RFB Net以下兩個有效的改進:(1)對conv7_fc的輸出特征做了上up-sample,然後和conv4_3的輸出特征做融合,基於融合後的特征做預測。這種做法其實是借鑒了FPN算法的思想。(2)在RFB結構中增加了7*7大小的卷積分支。這兩點改進對效果的提升有一定幫助,而且帶來的計算量也少。將這個網絡命名為RFN Net512-E。

技術分享圖片

3 COCO test-dev 2015數據集測試結果

RFB模塊具有很強的通用性,對網絡架構的限制小,所以很容易集成到網絡中。為了進一步測試RFB模塊的泛化能力,我們將RFB連接MobileNet-SSD。在數據集MS COCO上的測試結果如表4所示。

技術分享圖片

4 RFB模塊通用性

4.總結與收獲

1.模擬人眼視覺感受野大小與離心率進行RFB模塊設計

2.模塊通用性強,可集成到其他網絡中

Receptive Field Block Net for Accurate and Fast Object Detection