Receptive Field Block Net for Accurate and Fast Object Detection
Receptive Field Block Net for Accurate and Fast Object Detection
作者:Songtao Liu, Di Huang*, and Yunhong Wang
Beijing Advanced Innovation Center for Big Data and Brain Computing
Beihang University, Beijing 100191, China
fliusongtao, dhuang, [email protected]
論文鏈接:https://arxiv.org/abs/1711.07767
代碼鏈接:https://github.com/ruinmessi/RFBNet
- 方法概述
這篇文章收錄於ECCV2018,提出了一種準確且快速的目標檢測算法RFB-NET,強調通過人為設計機制,使用輕量級網絡來實現其高準確性和高速率。
1.1 主要思路
文章提出RFB模塊進行人類視覺系統的大小和離心率的模擬,旨在增強輕量級CNN網絡的深層特征。將RFB模塊集成到SSD網絡結構的頂端卷積層,在控制計算損失的情況下準確度有一定提升。通過將其連接到MobileNet證明其通用能力。
1.2 方法框架
RFB模塊其內部結構如圖1所示可以分為兩個部分:具有不同內核的多分支卷積層和空洞卷積層。不同內核的多分支卷積層模擬多種尺寸的pRF,後一部分的空洞卷積層再現了人類視覺系統中
圖1 RFB模塊結構
1.3 文章亮點
文章設計RFB模塊進行人類視覺系統的大小和離心率的模擬,在輕量級網絡上保持速度優勢的同時提高了準確率,並且具有很強的通用能力。
2.方法細節
2.1研究背景
近年來,基於區域卷積神經網絡的two-stage目標檢測算法,如Fast R-CNN 、Faster R-CNN算法都在Pascal VOC, MS COCO, ILSVRC等數據集上持續提升了物體檢測的性能。但是此類算法都是基於高計算成本的深度神經網絡,所以相對而言速度就慢得多。因此,one-stage類目標算法應運而生,如YOLO,
2.2 設計思想
設計思想來源於群感受野模型的提出。在神經科學中的一些發現揭示,在人類視覺皮層中,population Receptive Field(pRF)群感受野模型用於精確分析視覺皮層對視覺刺激的反應。如圖2群感受野的規律及表示圖所示,A圖群感受野(pRF)的大小是其視網膜圖中離心率的函數,表現為隨著偏心率而增加,距離中心點越近的區域對未來輸出特征圖的貢獻越大。B圖是參考A圖的函數關系畫出的人眼視覺感受野,它有助於突出更靠近中心的區域的重要性,並提高對小空間變化的不敏感性。
圖2 群感受野的規律及表示
2.3同類感受野算法對比
目前也有一些算法提出了感受野的做法。從圖3所示的幾個也用到感受野特征的算法中可以做進一步的比較。Inception考慮到多種尺寸的感受野,因而采用具有不同內核大小的多個分支來捕獲多尺度信息。但是,Inception中的所有內核都在同一中心進行采樣,這需要更大的內核才能達到相同的采樣覆蓋率,從而丟失了一些關鍵細節。ASPP在頂部特征圖上應用了幾個具有不同膨脹率的並行卷積,以改變與中心的采樣距離,這證明了語義分割中的有效性。但是這些特征僅具有來自相同內核大小的先前卷積層的均勻分辨率,並且與菊花形狀的卷積層相比,所得特征往往不那麽獨特。Deformable CNN試圖根據物體的尺度和形狀自適應地調整RF的空間分布。盡管其采樣網格是靈活的,但不考慮RF的離心率的影響,其中RF中的所有像素對輸出響應貢獻相同並且不強調最重要的信息。RFB確實與它們不同,它突出了菊花形狀配置中感受野尺寸和離心率之間的關系,其中較大的重量分配給較小的內核靠近中心的位置,聲稱它們比更遠的更重要。另一方面,尚未成功采用Inception和ASPP來改進one-stage目標檢測算法,而RFB則展示了在這個問題上利用其優勢的有效方法。
圖3 典型感受野算法對比
2.4 RFB結構細節
RFB模塊是多分支卷積塊。如圖4所示其內部結構可以分為兩個部分:具有不同內核的多分支卷積層和空洞卷積層。前一部分與Inception完全相同,使用具有不同內核的多分支池化層模擬多種尺寸的pRF,後一部分的空洞卷積層再現了人類視覺系統中pRF尺寸與離心率之間的關系。在RFB結構中最後會將不同尺寸和rate的卷積層輸出進行concat,達到融合不同特征的目的。在圖4的最後一列中將融合後的特征與人類視覺感受野做對比,從圖可以看出是非常接近的,這也是這篇文章的出發點,換句話說就是模擬人類視覺的感受野進行RFB結構的設計。
圖4 RFB模塊結構
2.5 RFB與RFB-s的實現
圖5中(a)與(b)顯示了RFB與RFB-s實現細節上的一些差異。分支卷積層采用最新版本Inception系列中的Inception V4和Inception-ResNet V2。RFB-s通過調整RFB的參數模擬人類視網膜圖中的較小pRF,使用更多具有較小核的分支。具體來說,首先,我們在每個分支中使用瓶頸結構,由1*1卷積層組成,以減少特征映射中的通道數量。其次,我們用兩個堆疊的3*3卷積層替換5*5卷積層,以減少參數和更深的非線性層。出於同樣的原因,我們使用1*n加上n*1卷積層來代替原始的n*n卷積層。最後,我們應用ResNet 和Inception-ResNet V2的shortcut。最終,所有分支的特征映射被連接,合並成如圖5所示卷積層。
圖5 RFB與RFB-s實現細節
2.6 RFB-NET網絡結構
RFB-NET網絡結構如圖6所示,重用了SSD的多尺度和單級框架。將RFB模塊嵌入SSD結構中用以改善從輕量級主幹提取的特征,使得探測器更準確且仍然足夠快。由於RFB的特性可以輕松集成到CNN中,我們可以盡可能地保留SSD架構。使用與SSD完全相同的骨幹網絡。具體來說,它是在ILSVRC CLS-LOC數據集上預先訓練的VGG16架構,其中fc6和fc7層被轉換為具有子采樣參數的卷積層,並且其pool5層從2* 2-s2變為3 * 3-s1。空洞卷積層用於填充空穴,並且去除所有的丟失層和fc8層。
圖6 RFB-NET網絡結構
3. 實驗結果
在PASCAL VOC 2007數據集上的測試結果如表1所示。結果顯示RFB Net512獲得了最好的效果,並且保持了一定的速度。
表1 PASCAL VOC 2007數據集測試結果
在與同類使用感受野思想的算法比較中,為了公平地表示,改變Inception的參數使之與RFB-NET具有相同的感受野大小,重命名為Inception-L,同樣地,把ASPP改成ASPP-S。然後,將這些模塊也集成到SSD網絡中進行測試。測試結果如表2所示,RFB-NET性能最優。
表2 同類感受野思想的算法比較結果
在COCO test-dev 2015數據集上的測試結果如表3所示。在結果中,測試結果最高的是RetinaNet800,為了最求最高效率,將原有的RFB Net以下兩個有效的改進:(1)對conv7_fc的輸出特征做了上up-sample,然後和conv4_3的輸出特征做融合,基於融合後的特征做預測。這種做法其實是借鑒了FPN算法的思想。(2)在RFB結構中增加了7*7大小的卷積分支。這兩點改進對效果的提升有一定幫助,而且帶來的計算量也少。將這個網絡命名為RFN Net512-E。
表3 COCO test-dev 2015數據集測試結果
RFB模塊具有很強的通用性,對網絡架構的限制小,所以很容易集成到網絡中。為了進一步測試RFB模塊的泛化能力,我們將RFB連接到MobileNet-SSD。在數據集MS COCO上的測試結果如表4所示。
表4 RFB模塊通用性
4.總結與收獲
1.模擬人眼視覺感受野大小與離心率進行RFB模塊設計
2.模塊通用性強,可集成到其他網絡中
Receptive Field Block Net for Accurate and Fast Object Detection