R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

阿新 • • 發佈：2020-10-16

本文針對旋轉目標的檢測提出了R3det。論文地址：https://arxiv.org/abs/1908.05612

1.Introduciton

目前，旋轉目標檢測面臨三個主要挑戰：

待檢測目標縱橫比較大
待檢測目標的排列較為密集
類別不平衡

本文討論瞭如何設計一個準確和快速的旋轉目標檢測器。文章提出了一個refined one-stage 旋轉檢測器，其設計策略結合了水平anchor的高召回率和旋轉anchor對密集場景的適應性兩方面的優點，在第一個階段使用水平anchor，從而獲得更快的速度和更多的proposals，在refinement stage使用了refined 旋轉anchors以適應密集場景；此外，設計了特徵精細化模組(FRM),利用特徵插值獲得refined anchor的位置資訊，然後對特徵圖進行重建以實現特徵對齊。

2. Proposed Method

該例項基於RetinaNet，網路後增加了refinement stage來對bounding box進行refine，FRM用於重建特徵圖。

2.1 Rotation RetinaNet

該網路為一個先進的one-stage檢測器，包括兩個部分：backbone網路和分類迴歸子網路。Backbone網路為FPN，FPN通過自上而下的路徑和橫向連線來增強了卷積網路，從而有效地從單個解析度的輸入影象構建豐富的多尺度特徵金字塔，每層金字塔均可以用於不同尺度的目標檢測；FPN的每一層均與一個分類迴歸子網路相連。RetinaNet設計了focal loss來解決類別不平衡問題。

本文使用(x,y,w,h,theta)五個引數表述旋轉矩形，theta表示與x軸的銳角，變化範圍為[-90,0)，另一側為w。因此，需要預測子網路中的附加角度偏移：

上式中，x,y,w,h,theta表示box的重心座標，寬、高和角度；x.x_a.x'分別為ground-truth，anchor box和預測box。多類別的損失函式定義如下：

上式中，N表示anchor的個數，t'_n取值為0或1(foreground為1，background為0，background無迴歸)；v'_*j表示預測的偏移向量，v_*j表示ground-tryth的目標向量。tn為目標類別，pn為sigmoid計算的各類別概率分佈。L_cls為focal loss和L_reg為smooth L1 loss。

2.2 Refined Rotation RetinaNet

在不同的refinement stage中使用了不同的IoU閾值；在first stage前景(foreground)和背景(background)的閾值分別為0.5和0.4，first refinement stage二者分別使用了0.5和0.4，如果refinement stage重複了多次，剩餘的分別為0.7和0.6。Refine detector的總體損失為：

Li為第i個refinement階段的損失，ai為權衡係數，預設為1.

2.3 Feature Refinment Module

許多refined 檢測器使用相同的特徵對映進行多個分類和迴歸，沒有考慮邊界框位置變化引起的特徵偏移，對長寬比較大或者樣本量小的類別不利。本文提出將refined邊界框的位置資訊重新編碼到響應的特徵點，從而重建整個特徵對映，實現特徵對齊。

特徵插值公式為：

FRM的結構和虛擬碼如下：

具體操作位：利用雙向卷積將特徵對映相加來得到新的特徵，細化階段只保留每個特徵點得分最高的bounding box，以提高速度，並同時保證一個特徵點只對應一個細化的邊界框。對於特徵對映的每個特徵點，根據refined bbox的五個座標在特徵圖上獲得對應的特徵向量，通過雙線性插值得到更精確地特徵向量，然後新增五個特徵向量並替換當前的特徵向量，遍歷特徵點之後，重建了整個特徵地圖，最後將重構後的特徵圖加入原始特徵圖完成整個過程。

FRM可以儲存完整的卷積結構，具有更高的效率和更少的引數。

3.在DOTA資料集上的測試

DOTA資料集包含15個類別。本文作者在實驗過程中將影象分為600x600的子圖並將其縮放至800*800。訓練時，backbones選擇了Resnet-FPN和MobileNetv2-FPN,所有的backbones在ImageNet上訓練，anchor在金字塔P3-P7等級上的面積為32x32-512x512,每個金字塔層次使用了7個縱橫比（1,1/2,2,1/3,3,5,1/5）和3個尺度（2^0,2^(1/3),2^(2/3))，對旋轉anhor添加了6個角度（-90，-75，-60，-45，-30，-15）

R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

本文針對旋轉目標的檢測提出了R3det。論文地址：https://arxiv.org/abs/1908.05612 1.Introduciton

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation 　　標題翻譯：豐富的特徵層次結構，可實現準確的目標檢測和語義分割

[R-CNN]Rich feature hierarchies for accurate object detection and semantic segmentation

論文周閱讀（14周）論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

【閱讀記錄】3DSSD:Point-based 3D Single Stage Object Detector

前情提要在目前的三維目標檢測任務中，大致分為單階段和雙階段的網路。雙階段網路可以依靠pointnet++這樣的網路得到的語義資訊提供更加精確的結果。單階段網路雖然具備了快速的優點，但是由於在道路環境下點的數量龐

總結Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

Code ** Introduction ** 以Faster R-CNN為代表的兩階段通用目標檢測器經過改進後在行人檢測上雖精度較高但速度不給力，主要原因是它需要兩階段的處理：RPN與ROI pooling特徵的分類。使用一階段的SSD做行

筆記：TPLinker Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

TPLinker Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 作者：Wang et al., COLING 2020.

《HybridSN: Exploring 3-D–2-DCNN Feature Hierarchy for Hyperspectral Image Classification》論文閱讀

What is Wrong with Linear Regression for Classification?What is Wrong with Linear Regression for Classification?

1. A linear model does not output probabilities, but it treats the classes as numbers (0 and 1) and fits the best hyperplane (for a single feature, it is a line) that minimizes the distances between

Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation

摘要：儘管在例項分割方面已經付出了巨大的努力，但分割結果的質量仍然不令人滿意。由於特徵對映的空間解析度較低和邊界畫素的比例極低所導致的不平衡問題，預測結果的邊界往往不精確。瞭解決這些問題，我們提出了

筆記：Enriching Pre-trained Language Model with Entity Information for Relation Classification

Enriching Pre-trained Language Model with Entity Information for Relation Classification 作者：Shanchan Wu、Yifan He

The balance sheet of KriBank starts with an allowance for loan losses of $2.66 million. During the year, KriBank writes-off worthless loans amounting to $1.68 million, reco

The balance sheet of KriBank starts with an allowance for loan losses of $2.66 million. During the year, KriBank writes-off worthless loans amounting to $1.68 million, recovers $0.44 million on loans

R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

1.Introduciton