1. 程式人生 > 實用技巧 >R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

本文針對旋轉目標的檢測提出了R3det。論文地址:https://arxiv.org/abs/1908.05612

1.Introduciton

目前,旋轉目標檢測面臨三個主要挑戰:

  • 待檢測目標縱橫比較大
  • 待檢測目標的排列較為密集
  • 類別不平衡

本文討論瞭如何設計一個準確和快速的旋轉目標檢測器。文章提出了一個refined one-stage 旋轉檢測器,其設計策略結合了水平anchor的高召回率和旋轉anchor對密集場景的適應性兩方面的優點,在第一個階段使用水平anchor,從而獲得更快的速度和更多的proposals,在refinement stage使用了refined 旋轉anchors以適應密集場景;此外,設計了特徵精細化模組(FRM),利用特徵插值獲得refined anchor的位置資訊,然後對特徵圖進行重建以實現特徵對齊。

2. Proposed Method

該例項基於RetinaNet,網路後增加了refinement stage來對bounding box進行refine,FRM用於重建特徵圖。

2.1 Rotation RetinaNet

該網路為一個先進的one-stage檢測器,包括兩個部分:backbone網路和分類迴歸子網路。Backbone網路為FPN,FPN通過自上而下的路徑和橫向連線來增強了卷積網路,從而有效地從單個解析度的輸入影象構建豐富的多尺度特徵金字塔,每層金字塔均可以用於不同尺度的目標檢測;FPN的每一層均與一個分類迴歸子網路相連。RetinaNet設計了focal loss來解決類別不平衡問題。

本文使用(x,y,w,h,theta)五個引數表述旋轉矩形,theta表示與x軸的銳角,變化範圍為[-90,0),另一側為w。因此,需要預測子網路中的附加角度偏移:

上式中,x,y,w,h,theta表示box的重心座標,寬、高和角度;x.x_a.x'分別為ground-truth,anchor box和預測box。多類別的損失函式定義如下:

上式中,N表示anchor的個數,t'_n取值為0或1(foreground為1,background為0,background無迴歸);v'_*j表示預測的偏移向量,v_*j表示ground-tryth的目標向量。tn為目標類別,pn為sigmoid計算的各類別概率分佈。L_cls為focal loss和L_reg為smooth L1 loss。

2.2 Refined Rotation RetinaNet

在不同的refinement stage中使用了不同的IoU閾值;在first stage前景(foreground)和背景(background)的閾值分別為0.5和0.4,first refinement stage二者分別使用了0.5和0.4,如果refinement stage重複了多次,剩餘的分別為0.7和0.6。Refine detector的總體損失為:

Li為第i個refinement階段的損失,ai為權衡係數,預設為1.

2.3 Feature Refinment Module

許多refined 檢測器使用相同的特徵對映進行多個分類和迴歸,沒有考慮邊界框位置變化引起的特徵偏移,對長寬比較大或者樣本量小的類別不利。本文提出將refined邊界框的位置資訊重新編碼到響應的特徵點,從而重建整個特徵對映,實現特徵對齊。

特徵插值公式為:

FRM的結構和虛擬碼如下:

具體操作位:利用雙向卷積將特徵對映相加來得到新的特徵,細化階段只保留每個特徵點得分最高的bounding box,以提高速度,並同時保證一個特徵點只對應一個細化的邊界框。對於特徵對映的每個特徵點,根據refined bbox的五個座標在特徵圖上獲得對應的特徵向量,通過雙線性插值得到更精確地特徵向量,然後新增五個特徵向量並替換當前的特徵向量,遍歷特徵點之後,重建了整個特徵地圖,最後將重構後的特徵圖加入原始特徵圖完成整個過程。

FRM可以儲存完整的卷積結構,具有更高的效率和更少的引數。

3.在DOTA資料集上的測試

DOTA資料集包含15個類別。本文作者在實驗過程中將影象分為600x600的子圖並將其縮放至800*800。訓練時,backbones選擇了Resnet-FPN和MobileNetv2-FPN,所有的backbones在ImageNet上訓練,anchor在金字塔P3-P7等級上的面積為32x32-512x512,每個金字塔層次使用了7個縱橫比(1,1/2,2,1/3,3,5,1/5)和3個尺度(2^0,2^(1/3),2^(2/3)),對旋轉anhor添加了6個角度(-90,-75,-60,-45,-30,-15)