1. 程式人生 > >faster R-CNN 論文閱讀

faster R-CNN 論文閱讀

Faster R-CNN 論文閱讀

1. Introduction

目標檢測在region proposal 方法的推動下獲得了很大成功,SPP-Net和fast R-CNN使用共享卷積層加速了計算速度,目前在test階段的瓶頸在於region proposal。
目前的region proposal都太耗時了,這篇論文提出了RPN(Region Proposal Networks),使得面對檢測任務,基本是cost-free的。

沒什麼要說的

3. Faster R-CNN

Faster R-CNN包含了兩個部分,一個是RPN,一個是fast R-CNN. 整個系統是單一、統一的網路。用最近比較時髦的術語“attention”來說,RPN就是告訴fast R-CNN往哪看的。
Faster R-CNN網路框架

3.1 Region Proposal Networks

這裡使用了兩種卷積網路,一種是ZF的,一種是VGG-16。論文配圖以ZF為例。RPN網路在最後一個卷積層之後開始,以ZF為例,最後一個卷積層的輸出為13×13×256。首先RPN接了一個n×n×256的卷積層,這裡的n = 3. 這是相當於採用滑動視窗的形式來提出proposal,每一個滑動的視窗對應回原圖的region都是所提出的region.隨後接了兩個1×1的全卷積層,分別為分類層(cls)和迴歸層(reg)。

RPN

3.1.1 Anchors

對於feature map 當中的每一個點,都可以對應回原圖,使用不同的尺寸和長寬比,可以得到多個原圖的boxes, 叫做anchors. 論文用了3個尺度,3個長寬比,得到k = 9.
所以對於一個W×H的feature map,可以得到 WHk個anchors.

平移不變
anchor具有平移特性。當在圖片當中平移一個object後,proposal 也能平移,function也會預測到正確位置。

3.1.2 Loss Function

對於anchors, 正樣本:

  • 與ground truth有著最高的IOU的anchors
  • 與任意一個ground truth有著大於0.7的IOU的anchors

所以一個ground truth box可以對應多個正的anchors,而且至少對應一個。通常第二個條件就足以生成充足的正樣本了,但是在某些稀少的情況下第二個情況或許沒有正樣本,只能使用第一個條件來產生一些正樣本。

負樣本的定義是對於所有的ground truth 的IoU都小於0.3.

Loss 函式的定義:
這裡寫圖片描述

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

3.1.3 Training RPNs

每次的mini-batch都從一張圖上產生256個anchors,正負比例基本1:1。
前60K學習率為0.001 ,接下來20k學習率為0.0001.
momentum為0.9, weight decay為0.0005

3.2 RPN與fast R-CNN之間共享卷積層特徵

4步輪流訓練
1. 從pre-trained ImageNet網路初始化RPN網路,訓練RPN網路。
2. 從pre-trained ImageNet網路初始化fast R-CNN網路,並用1當中的RPN網路得到region proposals, 訓練自己的網路,此時兩個網路的卷積層是不一樣的,不共享的。
3. 使用fast R-CNN的卷積層初始化RPN網路的卷積層, fine-tune RPN網路的後面的特有的層。
4. 然後用3中的RPN網路生成region proposals,fine-tune fast R-CNN網路後面特有的層。

3.3 實現細節

訓練時為了便於收斂去掉越過邊界的那些anchors,但是測試時還是保留了,不過會裁剪到邊界。這樣對於1000×600的圖片,原本有60×40×9個anchors,去掉之後大約還有6000個anchors.
RPN的proposals有很大的重疊度,採用NMS來去掉重疊,採用的IOU閾值為0.7

4 實驗

4.1 在Pascal VOC上的實驗

本Markdown編輯器使用StackEdit修改而來,用它寫部落格,將會帶來全新的體驗哦:

  • Markdown和擴充套件Markdown簡潔的語法
  • 程式碼塊高亮
  • 圖片連結和圖片上傳
  • LaTex數學公式
  • UML序列圖和流程圖
  • 離線寫部落格
  • 匯入匯出Markdown檔案
  • 豐富的快捷鍵

快捷鍵

  • 加粗 Ctrl + B
  • 斜體 Ctrl + I
  • 引用 Ctrl + Q
  • 插入連結 Ctrl + L
  • 插入程式碼 Ctrl + K
  • 插入圖片 Ctrl + G
  • 提升標題 Ctrl + H
  • 有序列表 Ctrl + O
  • 無序列表 Ctrl + U
  • 橫線 Ctrl + R
  • 撤銷 Ctrl + Z
  • 重做 Ctrl + Y

Markdown及擴充套件

Markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的HTML頁面。 —— [ 維基百科 ]

使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立一個連結等,詳細語法參考幫助?。

本編輯器支援 Markdown Extra ,  擴充套件了很多好用的功能。具體請參考Github.

表格

Markdown Extra 表格語法:

專案 價格
Computer $1600
Phone $12
Pipe $1

可以使用冒號來定義對齊方式:

專案 價格 數量
Computer 1600 元 5
Phone 12 元 12
Pipe 1 元 234

定義列表

Markdown Extra 定義列表語法:
專案1
專案2
定義 A
定義 B
專案3
定義 C

定義 D

定義D內容

程式碼塊

程式碼塊語法遵循標準markdown程式碼,例如:

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

腳註

生成一個腳註1.

目錄

[TOC]來生成目錄:

數學公式

  • 行內公式,數學公式為:Γ(n)=(n1)!nN
  • 塊級公式:
x=b±b24ac2a

更多LaTex語法請參考 這兒.

UML 圖:

可以渲染序列圖:

Created with Raphaël 2.1.0張三張三李四李四嘿,小四兒, 寫部落格了沒?李四愣了一下,說:忙得吐血,哪有時間寫。

或者流程圖:

Created with Raphaël 2.1.0開始我的操作確認?結束yesno
  • 關於 序列圖 語法,參考 這兒,
  • 關於 流程圖 語法,參考 這兒.

離線寫部落格

即使使用者在沒有網路的情況下,也可以通過本編輯器離線寫部落格(直接在曾經使用過的瀏覽器中輸入write.blog.csdn.net/mdeditor即可。Markdown編輯器使用瀏覽器離線儲存將內容儲存在本地。

使用者寫部落格的過程中,內容實時儲存在瀏覽器快取中,在使用者關閉瀏覽器或者其它異常情況下,內容不會丟失。使用者再次開啟瀏覽器時,會顯示上次使用者正在編輯的沒有發表的內容。

部落格發表後,本地快取將被刪除。 

使用者可以選擇 把正在寫的部落格儲存到伺服器草稿箱,即使換瀏覽器或者清除快取,內容也不會丟失。

注意:雖然瀏覽器儲存大部分時候都比較可靠,但為了您的資料安全,在聯網後,請務必及時發表或者儲存到伺服器草稿箱

瀏覽器相容

  1. 目前,本編輯器對Chrome瀏覽器支援最為完整。建議大家使用較新版本的Chrome。
  2. IE9以下不支援
  3. IE9,10,11存在以下問題
    1. 不支援離線功能
    2. IE9不支援檔案匯入匯出
    3. IE10不支援拖拽檔案匯入

參考文獻

  1. 這裡是 腳註內容.