1. 程式人生 > >R-CNN論文解讀

R-CNN論文解讀

論文題目: Rich feature hierarchies for accurate object detection and semantic segmentation

作者: Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
會議: 2014 CVPR

1. R-CNN是什麼

R-CNN就是Regions with CNN features, 意思是通過CNN來提取region Proposals的特徵;而region proposals其實就是我們常說的ROI(興趣點),在目標檢測中就是目標可能所在的區域。

2.問題引入

在著名的競賽PASCAL VOC中,近年來目標檢測的mAP(mean average precision)已經處於一個瓶頸期,如圖一所示


圖一

並且在視覺識別上大部分的方法還是基於SIFT和HOG特徵的,我們都知道 Feature matters,那有什麼辦法可以突破這個瓶頸嗎?答案是有!這就引出了R-CNN,將CNN引入到目標檢測的開山之作。

3. 論文框架


對於一張輸入圖片,首先抽取大約2k的region proposals,然後把這些region proposal輸入CNN中計算特徵,注意,這裡只是一張圖片,而一張圖片有2k的region proposals 要在CNN中計算,這個時間複雜度和空間複雜度就很大了,這也是後來Kaiming提出的SPP net主要解決的問題,好,言歸正傳,拿到CNN特徵之後,再通過線性 SVM進行分類就得到結果了。 所以 R-CNN把檢測問題直接轉換成了一個分類問題!

4. 論文具體工作及細節

region proposals的獲取

論文采用的是Selective Search的方法來獲取的,是2012IJCV的一個工作(Selective Search for Object Recognition),簡單來說就是一開始把一張圖片分成很多小區域,然後通過計算小區域的顏色相似度,紋理相似度,大小相似度和吻合相似度,最後綜合這四個相似度進行合併。


CNN網路結構

提取region proposals 特徵採用Alexnet,輸入的每個region proposals被scale到227*227(Alexnet的輸入),有一種是不管比例直接縮放,但是這種縮放會對目標進行扭曲,歲後續的特徵提取可能會有影響,另一種是通過背景顏色填充,經過作者的實驗,採用了直接縮放並用16padding的方式,最後輸出為4096維的特徵向量。


訓練過程(遷移學習)

(1)有監督的預訓練(Supervised pre-training)

直接在很大的資料集(ILSVRC 2012)上進行影象標註級別的預訓練。

(2)面向領域微調(Domain-specific fine-tuning)

為了讓CNN適用於目標檢測,通過SGD對引數進行更新,除了最後的輸出從1000變成了21(20個VOC+背景)類

,其他的網路結構都是不變的;


每個類都訓練一個SVM分類器,但是這邊涉及到的一個問題是,怎麼判斷一個region proposals是正樣本還是負樣本?考慮一個汽車的例子,包含整個汽車當然是正樣本,背景跟汽車無關屬於負樣本,但是部分車怎麼判斷,經過作者的validation,找到一個IoU閾值0.3,也就是檢測視窗和groung truth的交併比小於0.3標註為負樣本,大於0.3即為正樣本。

訓練集中正樣本一般比較少,而負樣本多很多,SVM訓練出來的效果並不是很好,通過Hard negative mining method來解決這個問題,hard negative mining意思是第一次訓練的時候會有很多負樣本分到正樣本中,我們把這些稱為hard negtive,把這些拿出來作為有代表性的負樣本重新進行訓練。

Bounding-box regression

使用迴歸來精修bounding-box的位置。在SVM預測出每個region proposal的score之後,對於每一類都有一個線性的迴歸器進行精修。

相關推薦

R-CNN論文解讀

論文題目: Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girs

Faster R-CNN論文及原始碼解讀

R-CNN是目標檢測領域中十分經典的方法,相比於傳統的手工特徵,R-CNN將卷積神經網路引入,用於提取深度特徵,後接一個分類器判決搜尋區域是否包含目標及其置信度,取得了較為準確的檢測結果。Fast R-CNN和Faster R-CNN是R-CNN的升級版本,在準確率和實時性方面都得到了較大提升。在F

【目標檢測】Cascade R-CNN 論文解析

都是 org 檢測 rpn 很多 .org 實驗 bubuko pro 目錄 0. 論文鏈接 1. 概述 @ 0. 論文鏈接 Cascade R-CNN 1. 概述 ??這是CVPR 2018的一篇文章,這篇文章也為我之前讀R-CNN系列困擾的一個問題提供了一個解決方案

Fast R-CNN論文學習

R-CNN論文學習 Abstract 1. Introduction 1.1 R-CNN 和 SPPnet R-CNN的問題 SPPnet的改進和問題 1.2 本論文的貢獻

Faster R-CNN 論文學習

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 演算法簡介 Abstract 1. Introduction 2. Relat

Fast R-CNN論文筆記

本文分兩個部分,第一個部分是論文的筆記,第二個部分是結合程式碼來看fast-RCNN。 論文部分: 主要是為了對RCNN,SPPnet的效果上的改進,下面簡述了一些RCNN的缺點: Training is a multi-stage pipeline Training

[Network Architecture]Mask R-CNN論文解析(轉)

前言 最近有一個idea需要去驗證,比較忙,看完Mask R-CNN論文了,最近會去研究Mask R-CNN的程式碼,論文解析轉載網上的兩篇部落格 技術挖掘者 remanented 文章1 論文題目:Mask R-CNN 論文連結:論文連結 論文程式碼:Facebook程式

R-CNN論文翻譯:豐富的功能層次結構,用於精確的物件檢測和語義分割

R-CNN論文地址:R-CNN R-CNN專案地址:  http://www.rossgirshick.info/ 摘要 在典型的PASCAL VOC資料集上測量的物件檢測效能在過去幾年中已經穩定下來。最好的方法是複雜的系統,通常將多個低階影象特徵與高階語境相結合。在本文中,我們

R-CNN論文詳解(學習筆記)

R-CNN:基於候選區域的目標檢測 Region proposals 基本概念(看論文前需要掌握的): 1.cnn(卷積神經網路):CNN從入門到精通(初學者) 2.Selective search:選擇性搜素 3.warp:圖形region變換 4.Supervised pre-t

王權富貴論文篇:Faster R-CNN論文翻譯——中英文對照

文章作者:Tyan  感謝Tyan作者大大,相見恨晚,大家可以看原汁原味的Tyan部落格哦。 部落格:noahsnail.com  |  CSDN  |  簡書 宣告:作者翻譯論文僅為學習,如有侵權請聯

Mask R-CNN論文筆記

背景及大致思路 a. 何凱明基於Faster R-CNN提出的用於例項分割的結構框架。該框架在原本的結構上增加了用於預測mask的新支路,速度仍達到了5fps。同時,這個結構也能用於其他的視覺任務如檢測,人物關鍵點檢測。 b. 例項分割:是物體檢測和語義分割的結合,也就是要對每

Mask R-CNN 論文筆記

論文題目:Mask R-CNN 論文連結:論文連結 論文程式碼:Facebook程式碼連結;Tensorflow版本程式碼連結; Keras and TensorFlow版本程式碼連結;MxNet版本程式碼連結 一、Mask R-CNN

R-CNN論文詳解

廢話不多說,上車吧,少年 &創新點 採用CNN網路提取影象特徵,從經驗驅動的人造特徵正規化HOG、SIFT到資料驅動的表示學習正規化,提高特徵對樣本的表示能力; 採用大樣本下有監督

Faster R-CNN論文詳解

廢話不多說,上車吧,少年 &創新點 設計Region Proposal Networks【RPN】,利用CNN卷積操作後的特徵圖生成region proposals,代替了Selective Search、EdgeBoxes等方法,速度上提

Mask R-CNN論文導讀

看到文章出來的第一個感覺就是,哇塞,大神們不光甩大招,還在一起甩~~~讓我們這些小蝦米們怎麼玩呢~廢話不多說,介紹重點。 一、文章思想 文章的主要思路就是把原有的Faster-RCNN進行擴充套件,新增一個分支使用現有的檢測對目標進行並行預測。同時,這個

Fast R-CNN論文詳解

廢話不多說,上車吧,少年 &創新點 規避R-CNN中冗餘的特徵提取操作,只對整張影象全區域進行一次特徵提取; 用RoI pooling層取代最後一層max pooling層,同時引入建議框資訊,提取相應建議框特徵; Fast R-CNN網路

Cascade R-CNN論文講解(轉載)

轉載連結:https://blog.csdn.net/qq_21949357/article/details/80046867 論文思想:為了解決IOU設定帶來的最終的AP值,作者引入了cascade結構的迴歸器,採用cascade R-CNN stages,用一個stage的輸出去訓練下一個stage,

Cascade R-CNN 論文理解

paper:Cascade R-CNN: Delving into High Quality Object Detection link:Cascade R-CNN paper code:https://github.com/zhaoweicai/cascade-rcnn 摘要

Faster R-CNN論文翻譯——中文版

文章作者:Tyan 部落格:noahsnail.com  |  CSDN  |  簡書 宣告:作者翻譯論文僅為學習,如有侵權請聯絡作者刪除博文,謝謝! Faster R-CNN: Towards Real-Time Object Detection w

faster R-CNN 論文閱讀

Faster R-CNN 論文閱讀 1. Introduction 目標檢測在region proposal 方法的推動下獲得了很大成功,SPP-Net和fast R-CNN使用共享卷積層加速了計算速度,目前在test階段的瓶頸在於region prop