Faster R-CNN論文詳解

廢話不多說，上車吧，少年

&創新點

設計Region Proposal Networks【RPN】，利用CNN卷積操作後的特徵圖生成region proposals，代替了Selective Search、EdgeBoxes等方法，速度上提升明顯；
訓練Region Proposal Networks與檢測網路【Fast R-CNN】共享卷積層，大幅提高網路的檢測速度。

&問題是什麼

繼Fast R-CNN後，在CPU上實現的區域建議演算法Selective Search【2s/image】、EdgeBoxes【0.2s/image】等成了物體檢測速度提升上的最大瓶頸。

&如何解決問題

。測試過程

Faster R-CNN統一的網路結構如下圖所示，可以簡單看作RPN網路+Fast R-CNN網路。

這裡寫圖片描述

注意：上圖Fast R-CNN中含特有卷積層，博主認為不是所有卷積層都參與共享。

首先向CNN網路【ZF或VGG-16】輸入任意大小圖片；
經過CNN網路前向傳播至最後共享的卷積層，一方面得到供RPN網路輸入的特徵圖，另一方面繼續前向傳播至特有卷積層，產生更高維特徵圖；
供RPN網路輸入的特徵圖經過RPN網路得到區域建議和區域得分，並對區域得分採用非極大值抑制【閾值為0.7】，輸出其Top-N【文中為300

】得分的區域建議給RoI池化層；
第2步得到的高維特徵圖和第3步輸出的區域建議同時輸入RoI池化層，提取對應區域建議的特徵；
第4步得到的區域建議特徵通過全連線層後，輸出該區域的分類得分以及迴歸後的bounding-box。

。解釋分析

RPN網路結構是什麼？實現什麼功能？具體如何實現？
單個RPN網路結構如下圖：

注意：上圖中卷積層/全連線層表示卷積層或者全連線層，作者在論文中表示這兩層實際上是全連線層，但是網路在所有滑窗位置共享全連線層，可以很自然地用n×n卷積核【論文中設計為3×3】跟隨兩個並行的1×1卷積核實現，文中這麼解釋的，博主並不是很懂，尷尬。

功能：實現attention

機制，如圖所示，RPN在CNN卷積層後增加滑動視窗操作以及兩個卷積層完成區域建議功能，第一個卷積層將特徵圖每個滑窗位置編碼成一個特徵向量，第二個卷積層對應每個滑窗位置輸出k個區域得分和k個迴歸後的區域建議，並對得分割槽域進行非極大值抑制後輸出得分Top-N【文中為300】區域，告訴檢測網路應該注意哪些區域，本質上實現了Selective Search、EdgeBoxes等方法的功能。

具體實現：
①首先套用ImageNet上常用的影象分類網路，本文中試驗了兩種網路：ZF或VGG-16，利用這兩種網路的部分卷積層產生原始影象的特徵圖；

② 對於①中特徵圖，用n×n【論文中設計為3×3，n=3看起來很小，但是要考慮到這是非常高層的feature map，其size本身也沒有多大，因此9個矩形中，每個矩形窗框都是可以感知到很大範圍的】的滑動視窗在特徵圖上滑動掃描【代替了從原始圖滑窗獲取特徵】，每個滑窗位置通過卷積層1對映到一個低維的特徵向量【ZF網路：256維；VGG-16網路：512維，低維是相對於特徵圖大小W×H，typically~60×40=2400】後採用ReLU，併為每個滑窗位置考慮k種【論文中k=9】可能的參考視窗【論文中稱為anchors，見下解釋】，這就意味著每個滑窗位置會同時預測最多9個區域建議【超出邊界的不考慮】，對於一個W×H的特徵圖，就會產生W×H×k個區域建議；

③步驟②中的低維特徵向量輸入兩個並行連線的卷積層2：reg視窗迴歸層【位置精修】和cls視窗分類層，分別用於迴歸區域建議產生bounding-box【超出影象邊界的裁剪到影象邊緣位置】和對區域建議是否為前景或背景打分，這裡由於每個滑窗位置產生k個區域建議，所以reg層有4k個輸出來編碼【平移縮放參數】k個區域建議的座標，cls層有2k個得分估計k個區域建議為前景或者背景的概率
Anchors是什麼？有什麼用？
Anchors是一組大小固定的參考視窗：三種尺度{128^2，256^2，512^2}×三種長寬比{1:1，1:2，2:1}，如下圖所示，表示RPN網路中對特徵圖滑窗時每個滑窗位置所對應的原圖區域中9種可能的大小，相當於模板，對任意影象任意滑窗位置都是這9中模板。繼而根據影象大小計算滑窗中心點對應原圖區域的中心點，通過中心點和size就可以得到滑窗位置和原圖位置的對映關係，由此原圖位置並根據與Ground Truth重複率貼上正負標籤，讓RPN學習該Anchors是否有物體即可。

作者在文中表示採用Anchors這種方法具有平移不變性，就是說在影象中平移了物體，視窗建議也會跟著平移。同時這種方式也減少了整個模型的size，輸出層512×(4+2)×9=2.8×10^4個引數【512是前一層特徵維度，(4+2)×9是9個Anchors的前景背景得分和平移縮放參數】，而MultiBox有1536×（4+1）×800=6.1×10^6個引數，而較小的引數可以在小資料集上減少過擬合風險。

當然，在RPN網路中我們只需要找到大致的地方，無論是位置還是尺寸，後面的工作都可以完成，這樣的話採用小網路進行簡單的學習【估計和猜差不多，反正有50%概率】，還不如用深度網路【還可以實現卷積共享】，固定尺度變化，固定長寬比變化，固定取樣方式來大致判斷是否是物體以及所對應的位置並降低任務複雜度。
Anchors為什麼考慮以上三種尺度和長寬比？
文中對Anchors的尺度以及長寬比選取進行了實驗，如下圖所示：

實驗實在VGG-16模型下，採用PASCAL VOC 2007訓練集和PASCAL VOC 2007測試集得到。相比於只採用單一尺度和長寬比，單尺度多長寬比和多尺度單長寬比都能提升mAP，表明多size的anchors可以提高mAP，作者在這裡選取了最高mAP的3種尺度和3種長寬比。
如何處理多尺度多長寬比問題？即如何使24×24和1080×720的車輛同時在一個訓練好的網路中都能正確識別？
文中展示了兩種解決多尺度多長寬比問題：一種是使用影象金字塔，對伸縮到不同size的輸入影象進行特徵提取，雖然有效但是費時；
另一種是使用濾波器金字塔或者滑動視窗金字塔，對輸入影象採用不同size的濾波器分別進行卷積操作，這兩種方式都需要列舉影象或者濾波器size；
作者提出了一種叫Anchors金字塔的方法來解決多尺度多長寬比的問題，在RPN網路中對特徵圖滑窗時，對滑窗位置中心進行多尺度多長寬比的取樣，並對多尺度多長寬比的anchor boxes區域進行迴歸和分類，利用Anchors金字塔就僅僅依賴於單一尺度的影象和特徵圖和單一大小的卷積核，就可以解決多尺度多長寬比問題，這種對推薦區域取樣的模型不管是速度還是準確率都能取得很好的效能。
同傳統滑窗方法提取區域建議方法相比，RPN網路有什麼優勢？
傳統方法是訓練一個能檢測物體的網路，然後對整張圖片進行滑窗判斷，由於無法判斷區域建議的尺度和長寬比，所以需要多次縮放，這樣找出一張圖片有物體的區域就會很慢；
雖然RPN網路也是用滑動視窗策略，但是滑動視窗實在卷積層特徵圖上進行的，維度較原始影象降低了很多倍【中間進行了多次max pooling 操作】,RPN採取了9種不同尺度不同長寬比的anchors，同時最後進行了bounding-box迴歸，即使是這9種anchors外的區域也能得到一個跟目標比較接近的區域建議。

。訓練過程

RPN網路預訓練

樣本來源

正樣本 ILSVRC20XX

負樣本 ILSVRC20XX

樣本中只有類別標籤；
文中一帶而過RPN網路被ImageNet網路【ZF或VGG-16】進行了有監督預訓練，利用其訓練好的網路引數初始化；
用標準差0.01均值為0的高斯分佈對新增的層隨機初始化。
Fast R-CNN網路預訓練

樣本來源

正樣本 ILSVRC20XX

負樣本 ILSVRC20XX

樣本中只有類別標籤；
文中一帶而過Fast R-CNN網路被ImageNet網路【ZF或VGG-16】進行了有監督預訓練，利用其訓練好的網路引數初始化。

樣本	來源
正樣本	ILSVRC20XX
負樣本	ILSVRC20XX

樣本	來源
正樣本	ILSVRC20XX
負樣本	ILSVRC20XX

RPN網路微調訓練

RPN網路樣本	來源
正樣本	與Ground Truth相交IoU最大的anchors【以防後一種方式下沒有正樣本】+與Ground Truth相交IoU>0.7的anchors
負樣本	與Ground Truth相交IoU<0.3的anchors

PASCAL VOC 資料集中既有物體類別標籤，也有物體位置標籤；
正樣本僅表示前景，負樣本僅表示背景；
迴歸操作僅針對正樣本進行；
訓練時棄用所有超出影象邊界的anchors，否則在訓練過程中會產生較大難以處理的修正誤差項，導致訓練過程無法收斂；
對去掉超出邊界後的anchors集採用非極大值抑制，最終一張圖有2000個anchors用於訓練【詳細見下】；
對於ZF網路微調所有層，對VGG-16網路僅微調conv3_1及conv3_1以上的層，以便節省記憶體。

SGD mini-batch取樣方式：同Fast R-CNN網路，採取”image-centric”方式取樣，即採用層次取樣，先對影象取樣，再對anchors取樣，同一影象的anchors共享計算和記憶體。每個mini-batch包含從一張圖中隨機提取的256個anchors，正負樣本比例為1:1【當然可以對一張圖所有anchors進行優化，但由於負樣本過多最終模型會對正樣本預測準確率很低】來計算一個mini-batch的損失函式，如果一張圖中不夠128個正樣本，拿負樣本補湊齊。

訓練超引數選擇：在PASCAL VOC資料集上前60k次迭代學習率為0.001，後20k次迭代學習率為0.0001；動量設定為0.9，權重衰減設定為0.0005。

一張圖片多工目標函式【分類損失+迴歸損失】具體如下：

L({pi},{ti})=1Ncls∑iLcls(pi,p∗i)+λ1Nreg∑ip∗iLreg(ti,t∗i)
解釋說明：

其中，i表示一個mini-batch中某個anchor的下標，pi表示anchor i預測為物體的概率；當anchor為正樣本時，p∗i=1，當anchor為負樣本時p∗i=0，由此可以看出迴歸損失項僅在anchor為正樣本情況下才被啟用；

ti表示正樣本anchor到預測區域的4個平移縮放參數【以anchor為基準的變換】；t∗i表示正樣本anchor到Ground Truth的4個平移縮放參數【以anchor為基準的變換】；

分類損失函式Lcls是一個二值【是物體或者不是物體】分類器，Lcls(pi，p∗i)=−log[p∗ipi+(1−p∗i)(1−pi)]；

歸回損失函式Lreg(ti,t∗i)=R(ti−t∗i)【兩種變換之差越小越好】，R函式定義如下：

smoothL1(x)={0.5x2,|x|−0.5if |x|<1otherwise

λ引數用來權衡分類損失Lcls和迴歸損失Lreg，預設值λ=10【文中實驗表明 λ從1變化到100對mAP影響不超過1%】；

Ncls和Nreg分別用來標準化分類損失項Lcls和迴歸損失項Lreg，預設用mini-batch size=256設定Ncls，用anchor位置數目~2400初始化

Faster R-CNN論文詳解

Faster R-CNN論文詳解

Faster R-CNN：詳解目標檢測的實現過程

R-CNN論文詳解（學習筆記）

R-CNN論文詳解

Fast R-CNN論文詳解

Faster R-CNN網路的另一種優化思路：cascade R-CNN網路詳解

Faster R-CNN論文及原始碼解讀

Faster R-CNN 論文學習

王權富貴論文篇：Faster R-CNN論文翻譯——中英文對照

R-CNN演算法詳解

Face Paper: R-FCN論文詳解

cascade R-CNN演算法詳解

Faster R-CNN論文翻譯——中文版

faster R-CNN 論文閱讀

深度學習 + 論文詳解： Fast R-CNN 原理與優勢

例項分割模型Mask R-CNN詳解：從R-CNN，Fast R-CNN，Faster R-CNN再到Mask R-CNN

論文閱讀筆記（六）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Faster R-CNN 英文論文翻譯筆記

Faster R-CNN：利用區域提案網路實現實時目標檢測論文翻譯

深度學習論文翻譯解析（四）：Faster R-CNN: Down the rabbit hole of modern object detection

Faster R-CNN論文詳解

相關推薦