FasterRCNN程式碼解讀1

阿新 • • 發佈：2019-01-01

之前的文章簡要介紹了Faster-RCNN等物體檢測的演算法，本文將從程式碼角度詳細分析介紹Faster-RCNN的實現。本文使用的程式碼參考了chenyuntc的實現，程式碼的位置看這裡。需要注意的是，本文使用的框架是Pytorch。

圖片名稱

資料載入

資料載入部分的程式碼主要見./data/dataset.py中的類Dataset與TestDataset。

資料載入部分的邏輯如下：

從VOC資料集中獲得img, bbox, label
將img, bbox進行放縮（放縮的目的是讓圖片處於合適的大小，這樣預先指定錨框才有意義）

將img進行標準化正則處理
如果是訓練階段，將img翻轉以增加訓練資料

網路結構

FasterRCNN的網路結構如下圖所示：

這裡寫圖片描述

FasterRCNN結構的程式碼主要見./model.faster_rcnn.py，其結構包含三大部分：

預訓練的CNN模型 decom_vgg16
rpn網路RegionProposalNetwork
roi及以上網路VGG16RoIHead

下面，將以放縮後大小為[1, 3, 600, 800]的圖片為例針對每個部分分別介紹。影象類別共計21類（包含背景）。

預訓練的CNN模型

該部分程式碼見./model/vgg16.py

。

輸入：圖片，大小[1, 3, 600, 800]
輸出：特徵圖features，大小[1, 512, 37, 50]

其邏輯如下：

載入預先訓練好的CNN模型VGG16。
將模型拆分為兩部分extractor, classifier。其中，extractor的引數固定。
圖片通過extractor可以得到特徵圖features。根據extractor中池化引數可知影象通過extractor縮小了16倍。

rpn網路

該部分程式碼見./model/rpn.py。

輸入：特徵圖features，大小[1, 512, 37, 50]
輸出：

rpn_locs

：rpn對位置的修正，大小[1, 16650, 4]
rpn_scores ：rpn判斷區域前景背景，大小[1, 16650, 2]
rois：rpn篩選出的roi的位置，大小[300， 4]
roi_indices：rpn篩選出的roi對應的圖片索引，大小[300]
anchor：原影象的錨點，大小[16650, 4]

其中，16650是放縮後的影象所產生的所有錨點（37*50*9），每個錨點都對應了一個rp。通過 rpn_scores以及nms可以得到篩選後的大小為300的roi。

其邏輯如下：

對特徵圖features以基準長度為16、選擇合適的ratios和scales取基準錨點anchor_base。（選擇長度為16的原因是圖片大小為600*800左右，基準長度16對應的原圖區域是256*256，考慮放縮後的大小有128*128，512*512比較合適）
根據anchor_base在原圖上獲得anchors。
對特徵圖features採用卷積得到rpn_locs和rpn_scores
根據anchors和rpn_locs獲得修正後的rp
對rp進一步修正獲得rois和roi_indices，修正包括超出邊界的部分截斷、移除太小的、nms。

roi及以上網路

該部分程式碼見./model/roi_module.py。

輸入：

features：特徵圖，大小[1, 512, 37, 50]
rois：rpn篩選出的roi的位置，大小[300， 4]
roi_indices：rpn篩選出的roi對應的圖片索引，大小[300]

輸出：

roi_cls_locs：roi位置的修正，大小[300， 84]
roi_scores：roi各類的分數，大小[300， 21]

其邏輯如下：

通過RoIPooling2D將大小不同的roi變成大小一致，得到pooling後的特徵，大小為[300, 512, 7, 7]
接入預訓練的CNN模型引入的classifier
分別接入全連線得到roi_cls_locs、roi_scores

訓練

訓練部分的程式碼主要見./trainer/trainer.py中的FasterRCNNTrainer中的train_step函式。

訓練部分的核心是loss如何求取。

loss求取前網路的步驟如下：

預訓練CNN特徵提取：輸入img到extractor獲得features
rpn網路得到roi：輸入features到rpn獲得rpn_locs, rpn_scores, rois, roi_indices, anchor
抽樣roi：輸入rois，bbox，label到ProposalTargetCreator獲得sample_roi, gt_roi_loc, gt_roi_label。該步驟的含義是得到正負例比例和位置合適的roi。
head網路得到roi的位置修正與分數：輸入features,sample_roi,sample_roi_index得到roi_cls_loc, roi_score

各個loss求取的方式如下：

rpn_loc_loss：已知rpn_loc，需要先根據anchor和bbox得到真實的gt_rpn_loc和gt_rpn_label。該處loss的計算只考慮前景，所以根據rpn_loc,gt_rpn_loc,gt_rpn_label計算L1-LOSS即可。
rpn_cls_loss：根據rpn_score和gt_rpn_label計算二分類的交叉熵即可。
roi_loc_loss：已知roi_loc，在sample roi的過程中已獲得gt_roi_loc, gt_roi_label。根據roi_loc,gt_roi_loc,gt_roi_label計算L1-LOSS即可。
roi_cls_loss：根據roi_score和gt_roi_label計算多分類的交叉熵即可。

整體的loss為以上各loss相加求和。

測試

訓練部分的程式碼主要見./model/faster_rcnn.py中的FasterRCNNTrainer中的predict函式。

其步驟如下：

圖片預處理
預訓練CNN特徵提取：輸入img到extractor獲得features
rpn網路得到roi：輸入features到rpn獲得rpn_locs, rpn_scores, rois, roi_indices, anchor
head網路得到roi的位置修正與分數：輸入features,rois,roi_indices得到roi_cls_loc, roi_score
得到圖片預測的bbox：輸入roi_cls_loc、roi_score、rois，採用nms等方法得到預測的bbox。

FasterRCNN程式碼解讀1

微信跳一跳python自動程式碼解讀1.0

微信跳一跳那個跳一跳python“外掛”，有幾個python檔案，其中有一個是得到截圖，然後滑鼠在圖片上點選兩次，python視窗上會列印兩次滑鼠的位置，並且會跟上一行這兩個點之間的距離。這個功能我先給除去獲取截圖，就說怎麼在某張圖片上算出兩次點選的

weex官方demo weex-hackernews程式碼解讀(1)

一、介紹 weex 是阿里出品的一個類似RN的框架，可以使用前端技術來開發移動應用，實現一份程式碼支援H5，IOS和Android。最新版本的weex已預設將vue.js作為前端框架，而weex-hacknews則是weex官方出品的，首個使用 Weex 和 Vue 開發

[arduino]-1-Basics程式碼解讀

arduino IDE 自帶示例中的Basics系列，可以說是向一個擁有C系家族程式語言基礎的人解釋清楚了它自己的基本操作 BareMinimum（基本檔案結構）： void setup() { // put your setup code here, to run once:

kubernetes原始碼版本1.2 程式碼解讀

kubernetes原始碼版本1.2.0 （目前最新kubernetes版本1.4）程式碼閱讀方法先簡單講講整個程式碼的目錄結構 | 目錄 | 說明 | | ———– | —————————————- | | api | 輸出介面文件用 | | build | 構建指令碼 | | cmd

時間序列資料庫KDB 與Java結合使用介紹 -- 1 KDB Java程式碼解讀

KDB是Kx System開發的時間序列資料庫，通常用於處理交易行情相關資料。具體介紹可以參考：https://en.wikipedia.org/wiki/Kdb%2B。在我們的計價系統中使用kdb來儲存計價資料，由於KDB是基於Q語言的，我們的計價系統是Java寫的，所

r-cnn系列程式碼編譯及解讀(1)

本系列針對RBG在github上的fast r-cnn程式碼，做安裝配置及解讀工作本文解決由於CAFFE版本的更新導致的fast r-cnn編譯失敗的問題相關檔案下載假定機器已經安裝配置好caffe環境（最新的版本使用CUDA8 + cudn

擴增子圖表解讀1箱線圖：Alpha多樣性

nova 核心變化宏基 ova 中位數 ring sphere gen 箱線圖箱形圖（Box-plot）又稱為盒須圖、盒式圖或箱線圖，是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在宏基因組領域，常用於展示樣品組中各樣品Alpha多樣性的分布

Spring-IOC源碼解讀1-整體設計

關系 nfa 數據結構分享整體 ltr 對象 eve ica 1. SpringIOC提供了一個基本的javabean容器，通過IOC模式管理依賴關系，並通過依賴註入和AOP增強了為javabean這樣的pojo對象賦予事務管理，生命周期管理等基本功能。2. Sprin

mysql 第三十六篇文章~mysql慢日誌方案解讀1

日誌 iges add 代碼 bytes 周期缺省 port 同學一慢日誌的相關參數 long_query_time ：設定慢查詢的閥值，超出次設定值的SQL即被記錄到慢查詢日誌，缺省值為1s log_slow_queries ：1/0

第一個python小程式——即時動態時鐘(程式碼解讀)

程式碼資源來自： http://n.miaopai.com/media/K9Qlou7rdPc5TxpPaL1VDvwfv5hP~lHK (執行有錯誤，缺少date，week和結尾部分) https://blog.csdn.net/yangxing2/article/details

類載入聯想java程式碼塊1

今天想做spring的類載入的實驗，所以惡補下java類載入的知識，看了深入理解java虛擬機器211頁的示例中的靜態程式碼塊，突然想到瘋狂java裡面總結非靜態程式碼塊總結得很好，當時自己看了之後感覺豁然開朗，但是現在只有一點印象，只記得是好像和構造方法有關，編譯器處理的時候會優化。而這個非靜態程式碼塊的作

freeModbus程式碼解讀及移植筆記

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Java併發程式設計(6)-ThreadPoolExecutor解讀(1)

文章目錄一、什麼是ThreadPoolExecutor 二、ThreadPoolExecutor構造方法引數 2.1、corePoolSize 2.1、maximumPoolSize

colmap程式碼解讀

clomap是作者在ECCV2016年發表的基於兩個概率的深度值和法線估計的論文（開源），下面就開原始碼Patch_match_cuda.cu檔案做簡單的介紹產生隨機法向量和隨機深度值擾動法向量（產生隨機三個方位角度）和擾動深度值根據畫素座標計算三維空間

springmvc原始碼解讀1--關於原始碼解讀與部落格的書寫

一、為何要閱讀原始碼寫了太多了if|else，想要看看別人寫的程式碼如何，有一段時間看到一遍博文Java實現生命週期管理機制，當時就被這精妙的設計思想給蟄伏，同時也深深有感於它編碼風格，感覺這如同一件藝術品一般。講真的這是第一感覺編碼不知是隻有if|else以及curd。所以我開始想著

【PHP】靜態方法呼叫非靜態方法和靜態呼叫非靜態方法程式碼解讀

static 關鍵字用來修飾屬性、方法，稱這些屬性、方法為靜態屬性、靜態方法。在類的靜態方法中是不能直接以$this->test()的方式呼叫非靜態方法的。還有框架中靜態的呼叫非靜態方法是怎麼回事？？？。。。算了，不知道說啥具體為啥看程式碼註釋： <?ph

RPN網路程式碼解讀

1. 說在前面的話在目標檢測領域Faster RCNN可以說是無人不知無人不曉，它裡面有一個網路結構RPN（Region Proposal Network）用於在特徵圖上產生候選預測區域。但是呢，這個網路結構具體是怎麼工作的呢？網上有很多種解釋，但是都是雲裡霧裡的，還是直接擼程式碼

linux 核心程式碼分析1 TI am335x

1. TI AM335x 核心原始碼分析 1.1 Board-am335xevm.c Board-am335xevm.c(./arch/arm/mach-omap2)中開始執行入口： MACHINE_START(A

VS中生成時“sgen.exe”已退出,程式碼為 1解決辦法

visual studio 2010 選定web專案，右鍵選擇“屬性”—“生成”，將“生成序列化程式集”設成“關閉”。原理分析： sgen是XML序列化程式生成器工具。可能是這個專案裡面有xml序列化的程式碼吧，它自動開啟了sgen來優化你的xml序列化的效能，但是卻沒找到sgen.

FasterRCNN程式碼解讀1

資料載入

網路結構

預訓練的CNN模型

rpn網路

roi及以上網路

訓練

測試

相關推薦