摘要

Faster R-CNN是object detection的里程碑之作。它提出了RPN，即一種用CNN來提取proposal的網路。

為了更好地理解RPN的程式碼實現細節，充分理解它用到的SmoothL1Loss是很必要的。

本文簡述了RPN的作用，討論了RPN的loss以及SmoothL1Loss的語義及其作用，最後分析了RPN的程式碼實現。

RPN的原理

RPN簡介

RPN是一個輸入global feature map，輸出許多可能RoI的網路。 RoI就是所謂的感興趣區域，相當於是物體bbox的candidate。RPN輸出的RoI也被稱為proposal。

RPN的anchor

RPN的基本原理就是利用有一定stride(比如16畫素)的滑動視窗在原圖上列舉proposal中心，對每個中心產生多個不同長寬比(例如0.5,1,2三種)，不同大小(比如大中小三種)的bbox。這些產生的bbox被叫做anchor。

如果對每個中心有三種長寬比、三種大小，我們就能得到9個anchor。

RPN的minibatch

下文中你會見到minibatch這種說法。 minibatch就是RPN每次輸出的proposal的數量。如果RPN對每一張圖片輸出了256個proposal，那麼我們就說minibatch=256。

RPN的loss及其分析

RPN的loss如下。 $L(\{p_i\},\{t_i\}) = {1\over N_{cls}}\sum_i{L_{cls} (p_i,p_i^*)} + \lambda{1\over N_{reg}}\sum_i{p_i^*L_{reg}(t_i,t_i^*)}$

L ({p_{i}}, {t_{i}}) = N _{c l s} 1 i \sum L_{c l s} (p_{i}, p_{i}^{*}) + λ N _{r e g} 1 i \sum p_{i}^{*} L_{r e g} (t_{i}, t_{i}^{*})

loss的結構。這個loss是一種multi-task loss。所謂多工loss。這裡，它是cls（proposal的分類）和reg（proposal的bbox的位置迴歸、微調）兩個任務各自的loss之加權和。之所以說是加權和，主要表現在reg項乘了一個 $\lambda$ ，它一個靈活的超引數，需要人為設定。原文提到 $\lambda=10$ 。
loss的符號。 $i$ 是一個minibatch中所有anchor的索引。 $p_i$

i是對anchor $i$ 的預測結果。 $p_i^*$ 是anchor $i$ 的ground truth。 $p_i^*=1$ 則是正樣本（物體，也就是前景），0則是負樣本(背景)。 $t_i$ 是一個長度為4的向量，存的是anchor的四個引數。 $t_i^*$ 是 $t_i$ 對應的bbox的ground truth，也是存的四個引數。注意：這裡的四個引數不是 $(x,y,w,h)$ 。是 $(t_x,t_y,t_w,t_h)$ 。這四個引數在下文介紹。
分類項的分析。 $N_{cls}$ 的值是一個minibatch所產生的所有proposal的數量。乘上 $1\over N_{cls}$ 相當是對各個proposal產生的loss取了個平均值。 $L_{cls}$ 是一個物體/背景二分類的log loss。通常使用softmax。本項語義：對所有的anchor計算loss並求和，再依照proposal數目取平均值以標準化。
迴歸項的分析。 $N_{reg}$ 是anchor的數量。與 $N_{cls}$ 的作用相同：取平均值以標準化。 $L_{reg}(t_i,t_i^*)=R(t_i-t_i^*)$ 。其中 $R$ 是一個魯棒的loss函式。一般使用SmoothL1Loss，在下文詳述。乘了一項 $p_i^*$ 意味著去掉背景bbox對迴歸loss的貢獻——畢竟背景bbox沒有必要回歸、也沒有ground truth可以計算loss。本項語義：對所有含有物體的anchor計算魯棒loss並求和，再依照anchor數目取平均值以標準化。

這種multi-task loss的設計手法非常常見，實際上背後的思想和數學都非常簡單。

SmoothL1Loss的分析

迴歸中的引數化

$t_i=(t_x,t_y,t_w,t_h)$ 。存的四個引數非常特殊，是為了更好地迴歸而設計的。

$t_x = (x-x_a)/w_a,\\ t_y = (y-t_a)/h_a,\\ t_w = log(w/w_a),\\ t_h = log(h/h_a).$ 而 $t_i$ 對應的bbox的ground truth記作 $t_i^*=(t_x^*,t_y^*,t_w^*,t_h^*)$ 。

類似地， $t_x^* = (x^*-x_a)/w_a,\\ t_y^* = (y^*-t_a)/h_a,\\ t_w^* = log(w^*/w_a),\\ t_h^* = log(h^*/h_a).$ 其中， $x,y,w,h$ 表示bbox的橫縱座標和寬高。帶*的則表示對應的ground truth.

SmoothL1Loss

下式就是SmoothL1Loss。 $\text{smooth}_{L1}(x) = \begin{cases} 0.5x^2& \text{if |x|<1}\\ |x|-0.5& \text{otherwise} \end{cases}$ 本質上來說，它基於L1 loss。L1 loss，是指用真實值和預測值之差的絕對值——也就是差值（或者差向量）的L1範數作為loss值。 L1 loss有一個問題，它在零點處不可微。而SmoothL1Loss改善了這個問題：在 $|x|<1$ 的時候，用具有相同導數的 $0.5x^2$ 代替L1範數，這讓loss更加smooth。

現在再看reg loss的式子： $L_{reg}(t_i,t_i^*)=\text{smooth}_{L_1}(t_i-t_i^*)$

Faster R-CNN中RPN的分析

摘要

RPN的原理

RPN簡介

RPN的anchor

RPN的minibatch

RPN的loss及其分析

SmoothL1Loss的分析

迴歸中的引數化

SmoothL1Loss

Faster R-CNN中RPN的分析

Faster R-cnn中的RPN網路詳細解釋

Faster R-CNN中的RPN和anchor機制理解

tensorflow object detection faster r-cnn 中keep_aspect_ratio_resizer是什麽意思

faster r-cnn中評價檢測演算法中的指標

關於RPN中proposal的座標迴歸引數的一點理解及Faster R-CNN的學習資料

C++版Faster R-CNN（caffe自定義RPN層實現）個人見解問題分析記錄

純C++版500VIP源碼下載的Faster R-CNN（通過caffe自定義RPN層實現）

Faster R-CNN 目標檢測演算法詳細總結分析（two-stage)(深度學習)(NIPS 2015)

純C++版的Faster R-CNN（通過caffe自定義RPN層實現）

Faster R-CNN程式碼之 anchors 分析

TensorFlow Object Detection API中的Faster R-CNN /SSD模型引數調整

Domain Adaptive Faster R-CNN：經典域自適應目標檢測演算法，解決現實中痛點，程式碼開源 | CVPR2018

Faster R-CNN技巧

Faster R-CNN：詳解目標檢測的實現過程

論文閱讀筆記（六）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

【Faster RCNN】《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

R-CNN、Fast R-CNN、Faster R-CNN

Faster R-CNN 英文論文翻譯筆記

Faster R-CNN改進篇（二）： RFCN ● RON

Faster R-CNN中RPN的分析

摘要

RPN的原理

RPN簡介

RPN的anchor

RPN的minibatch

RPN的loss及其分析

SmoothL1Loss的分析

迴歸中的引數化

SmoothL1Loss

相關推薦