Faster-RCNN論文詳解

阿新 • • 發佈：2018-12-24

Faster-RCNN

提出了Region Proposal Network（RPN）一個全連線的卷積層可以同時預測目標邊界和目標分數（物體）

把RPN和Fast-RCNN合併為一個網路通過共享他們的卷積特徵——使用帶有"attention"機制的神經網路

聯合網路unified networks

1、introduction

Region porposal mathod：

Selective Search：基於人工特徵的貪婪進行超級畫素合併

EdgeBoxes在速度和質量方面都權衡得很好

上面的方法都是在CPU計算的，當重新實現為GPU計算的時候，就忽略了下游的檢測網路，錯失共享計算的機會

改進：使用了深度卷積網路來計算proposals——基本零花費

——即使用convolutional feature maps來計算proposals

RPN可以有效預測大範圍的尺度和長寬比

——不同於影象金字塔和影象特徵金字塔（過濾器），使用的是（ We use pyramids of reference boxes in the regression functions）

——pyramid of regression reference，避免了列舉（enumerate）所有尺度和長寬比的影象和過濾器

訓練：在region proposal task 和object detection 之間交替fine-tune——共享卷積特徵

2 相關工作

別人的工作：

OverFeat方法：一個全連線網路用來預測盒子box的座標（只針對一個物體），之後全連線層被換成卷積層用來檢測多個類別的物體。

MultiBox方法：從一個網路（最後一層同時可以預測box）產生proposal

但是，MultiBox的方法沒有共享在proposal和detection network 之間的features。

DeepMask method：用於學習segmentation proposals

3 Faster RCNN

整體架構：

由兩部分組成：

1> deep convolutional network:產生region————————RPN候選區域提取模組，是全卷積神經網路

2> fast RCNN detector:使用proposed regions————————fast RCNN檢測模組，基於RPN提取的proposal檢測並識別proposal中的目標

3.1 Region proposal networks(介紹它的設計和屬性)

RPN：輸入一張任意尺度的圖片，輸出一系列矩形proposals（with objectness score）

RPN的具體流程：

在convolutional feature map上slide a small network，這個small network選擇feature map上的nxn的空間視窗作為輸入（全連線），每個視窗對映到（map）一個低維（256d）的feature。之後feed給兩個姐妹全連線層（reg 和 cls）

論文中，作者使用n=3，實際上有效的感受野很大（171或228畫素）

部落格： RPN的具體流程如下：使用一個小網路在最後卷積得到的特徵圖上進行滑動掃描，這個滑動網路每次與特徵圖上n*n（論文中n=3）的視窗全連線（影象的有效感受野很大，ZF是171畫素，VGG是228畫素），然後對映到一個低維向量（256d for ZF / 512d for VGG），最後將這個低維向量送入到兩個全連線層，即bbox迴歸層（reg）和box分類層（cls）。sliding window的處理方式保證reg-layer和cls-layer關聯了conv5-3的全部特徵空間。

3.1.1 anchors

每個位置最大有k個可能的proposal，reg層有4k個輸出（位置），cls層有2k輸出（是目標的概率或者不是目標的概率）。即k個anchors，與尺度和長寬比有關。

anchor:

位於滑動視窗的中心，與尺度和長寬比有關，預設：3個scales和3個aspect ratios，每個sliding position 產生了k=9個anchors

三種尺度（面積）{128*128,256*256,512*512}，三種比例{1:1,1:2,2:1}所以每一個位置有3*3=9個anchor

對於一個WxH大小的feature map，共有WHk個anchors

translation-invariant anchors

論文的方法一個重要的特徵就是擁有translation-invariant（旋轉不變性）

旋轉不變性—— both in terms of the anchors and the functions that compute proposals relative to the anchors.

即：如果一張圖片中的一個目標發生了旋轉，proposal也會發生旋轉，同樣的function也能預測出proposal

使用我們的方法這是能夠得到保證的

旋轉不變性減少了model size，k=9時，只有（4+2）x9的卷積輸出層

Multi-Scale anchors as regression references

傳統有兩種方法：

1> 基於影象/特徵金字塔(pyramid of anchors)——影象被resized成多個尺度，每個尺度計算出feature maps——有用但是耗時（對影象或者feature map層進行尺度/寬高的取樣）

2> 在feature map上使用多尺度的滑動視窗——使用不同的過濾器大小單獨訓練不同的aspect ratio模型，可以理解為一個過濾金字塔pyramid of filters（對濾波器進行尺度/寬高的取樣）

faster RCNN的解決方法：（multi-scale anchors）通過卷積核中心（用來生成推薦視窗的anchor）進行尺度、寬高的取樣，使用3種尺度和3種比例來產生9種anchor（more cost-efficient），只依賴於一個尺度的影象和feature map

3.1.2 損失函式loss function

訓練RPN,我們需要給每個anchor貼上二分類標籤——目標和非目標（positive label 和）

positive label定義：（兩種情況之一即可）

(i) the anchor/anchors with the highest Intersection-over Union(IoU) overlap with a ground-truth box,or

(ii) an anchor that has an IoU overlap higher than 0.7 with any ground-truth box.

注意，一個GT包圍盒可以對應多個anchor，這樣一個GT包圍盒就可以有多個正標籤

採用第二個規則基本上可以找到足夠的正樣本，但是對於一些極端情況，所有的anchor對應的anchor box與ground truth的IOU小於0.7，就可以不存在正樣本，所以需要採取第一種規則。

negative label定義：

與所有的GT包圍盒的IOU都小於0.3的anchor

既不是正標籤又不是負標籤的不參與訓練

損失函式為：

i是mini-batch中anchor的索引

pi是anchor i 成為一個目標的預測概率

The ground-truth label p∗i is 1 if the anchor is positive, and is 0 if the anchor is negative

ti是預測的bounding box 的四個位置引數向量

t*i是正標籤的ground-truth box

Lcls是兩個類別的分類損失函式——log函式

Lreg是fast-RCNN裡定義的smooth函式

pi*表明只有在正樣本的情況下才會啟用，負樣本pi*=0不啟用

兩部分通過Ncls 和Nreg歸一化，通過 λ控制權重來平衡

Ncls=256——mini-batch size

Nreg~2400——number ofanchor locations

為了cls和reg項大體上權重相等，我們令 λ=10

bounding box regression位置迴歸：

x是預測盒子即proposal（通過RPN網路預測出的proposal），

xa是anchor box（40*60*9個），

x*是ground-truth box

可以理解為從anchor box到nearby ground-truth box的bounding-box regression

3.1.3訓練RPN

後饋傳播（BP，back-propagation）+隨機梯度下降法（SGD，stochastic gradient descent）

依照fast RCNN中的“image-centric”取樣策略訓練這個網路

取樣：在一張圖片中隨機選擇256個anchors去計算損失函式（正負樣本1:1）（若沒有128個正樣本，用負樣本代替）

初始化：新增的2層引數用均值為0，標準差為0.01的高斯分佈來進行初始化，其餘層（都是共享的卷積層，與VGG共有的層）引數用ImageNet分類預測訓練模型初始化。

引數化設定：

60k mini-batches使用0.001學習率

next 20k mini-batches on the PASCAL VOCdataset使用0.0001學習率

設定動量momentum=0.9，權重衰減weighted decay=0.0005

3.2 sharing features for RPN and Fast RCNN

faster RCNN由兩大模組組成——RPN候選框模組，fast RCNN檢測模組

上面是如何為生成區域建議框訓練網路，而沒有考慮基於區域的目標檢測CNN如何利用這些建議框。對於檢測網路，我們採用fast RCNN，下面描述演算法——如何學習一個統一的網路（由RPN和Fast RCNN共享卷積層組成）/學習由RPN和Fast-RCNN之間共享的卷積層。

RPN和Fast RCNN都是獨立訓練的，要用不同的方式修改他們的卷積層，因此需要一種允許兩個網路間共享卷積層的技術，而非分別學習

兩個網路。注意到這不是僅僅定義一個包含RPN和Fast RCNN的單獨網路，然後用反向傳播優化它那麼簡單，原因是Fast RCNN訓練依賴於固定的目標建議框，而且並不清楚當同時改變建議機制時，學習Fast RCNN會不會收斂。

論文中討論了三種方法來訓練有共享特徵的網路：

第一種，作者用的方法：

RPN和FAST RCNN公用了13個VGG的卷積層，孤立的進行訓練是一個不明智的選擇，作者採用交替訓練Alternating training方法 (RPN提取得到proposals，再使用Fast RCNN實現最終目標的檢測和識別)

1> 首先依上述訓練RPN，該網路用ImageNet預訓練的模型初始化，並端到端微調用於區域建議任務。

2> 我們利用第一步的RPN生成的建議框，由Fast RCNN訓練一個獨立的檢測網路，這個檢測網路同樣是ImageNet預訓練的模型初始化的，這時候兩個網路還沒有共享卷積層

3> 我們用檢測網路（detector network）初始化RPN訓練，但我們固定共享的卷積層，並且只微調RPN獨有的層，現在兩個網路共享卷積層了。

4> 保持共享的卷積層固定，微調Fast RCNN的fc層，這樣兩個網路共享相同的卷積層，構成一個統一的網路。

3.3 implementation details實現細節 / 核心思想

https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，

可以看出VGG16用於特徵提取的部分是13個卷積層（conv1_1---->conv5_3），不包括pool5以及其後的網路層次結構

因為我們的最終目標是和Fast RCNN目標檢測網路共享計算，所以假設這兩個網路共享一系列卷積層，在論文的實驗中，ZF有5個共享的卷積層，VGG有13個共享的卷積層。

具體流程：前面有解釋

部落格：（重述）

使用一個小網路在最後卷積得到的特徵圖上進行滑動掃描，這個滑動網路每次與特徵圖上n*n（論文中n=3）的視窗全連線（影象的有效感受野很大，ZF是171畫素，VGG是228畫素），然後對映到一個低維向量（256d for ZF / 512d for VGG），最後將這個低維向量送入到兩個全連線層，即bbox迴歸層（reg）和box分類層（cls）。sliding window的處理方式保證reg-layer和cls-layer關聯了conv5-3的全部特徵空間。

3*3卷積核的中心點對應原圖（re-scale為600*1000）上的位置（點），將該點作為anchor的中心點，在原圖中框出多尺度、多種長寬比的anchors。所以，anchor不在conv特徵圖上，而在原圖上，對於一個大小為H*W的特徵層，它上面的每一個畫素點對應9個anchor，這裡有一個重要的引數feat_stride=16，它表示特徵層上移動一個點，對應原圖移動16個畫素點。把這9個anchor的座標進行平移操作，獲得在原圖上的座標。之後根據ground truth label和這些anchor之間的關係生成RPN_labels（根據overlap計算）。生成的RPN_labels中，positive的位置被設定為1，negative的位置被設定為0，其他的位置被設定為-1。

faster RCNN卷積流程圖：

conv5得到的是40*60大小的特徵圖，對應論文中的2400。anchor的個數為40*60*9~2k個

Faster-RCNN論文詳解

Faster-RCNN論文詳解

Faster RCNN原理詳解

【目標檢測】Faster RCNN演算法詳解

Faster RCNN程式碼詳解（三）：資料處理的整體結構

Faster RCNN程式碼詳解（四）：關於anchor的前世今生

Ubuntu下跑通py-faster-rcnn、詳解demo運作流程

Faster RCNN 原理詳解

Faster R-CNN論文詳解

CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

支援向量機—SMO論文詳解（序列最小最優化演算法）

《Dilated Residual Networks》論文詳解

R-CNN論文詳解（學習筆記）

KCF(High-Speed Tracking with Kernelized Correlation Filters)論文詳解

Attention is all you need 論文詳解（轉）

【論文詳解】DPED：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks

MobileNet論文詳解

ssd論文詳解

人臉識別：《Arcface》論文詳解，對損失層的改進有較為詳細的講解人臉識別：《Arcface》論文詳解

人臉識別sphereface,損失函式，論文詳解 SphereFace論文學習

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 論文詳解

Faster-RCNN論文詳解

相關推薦