人臉檢測中的bounding box regression詳解

阿新 • • 發佈：2018-12-30

0. 引言

在人臉檢測演算法如R-CNN、Fast RCNN中都用到了bounding box迴歸，迴歸的目標是使得預測的物體視窗向groundtruth視窗相接近。我一開始沒理解如何能迴歸出一個框來，看完下文就理解了^^

1. 為什麼要做Bounding-box regression？

圖10 示例

如圖10所示，綠色的框為飛機的Ground Truth，紅色的框是提取的Region Proposal。那麼即便紅色的框被分類器識別為飛機，但是由於紅色的框定位不準(IoU<0.5)，那麼這張圖相當於沒有正確的檢測出飛機。如果我們能對紅色的框進行微調，使得經過微調後的視窗跟Ground Truth更接近，這樣豈不是定位會更準確。確實，Bounding-box regression 就是用來微調這個視窗的。

2. 迴歸/微調的物件是什麼？

3. Bounding-box regression（邊框迴歸）

那麼經過何種變換才能從圖11中的視窗P變為視窗呢？比較簡單的思路就是：

注意：只有當Proposal和Ground Truth比較接近時（線性問題），我們才能將其作為訓練樣本訓練我們的線性迴歸模型，否則會導致訓練的迴歸模型不work（當Proposal跟GT離得較遠，就是複雜的非線性問題了，此時用線性迴歸建模顯然不合理）。這個也是G-CNN: an Iterative Grid Based Object Detector多次迭代實現目標準確定位的關鍵。

線性迴歸就是給定輸入的特徵向量X，學習一組引數W，使得經過線性迴歸後的值跟真實值Y(Ground Truth)非常接近。即

。那麼Bounding-box中我們的輸入以及輸出分別是什麼呢？

輸入：

這個是什麼？輸入就是這四個數值嗎？其實真正的輸入是這個視窗對應的CNN特徵，也就是R-CNN中的Pool5feature（特徵向量）。(注：訓練階段輸入還包括 Ground Truth，也就是下邊提到的)

輸出：

需要進行的平移變換和尺度縮放，或者說是。我們的最終輸出不應該是Ground Truth嗎？是的，但是有了這四個變換我們就可以直接得到Ground Truth，這裡還有個問題，根據上面4個公式我們可以知道，P經過，得到的並不是真實值G，而是預測值。

的確，這四個值應該是經過 Ground Truth 和Proposal計算得到的真正需要的平移量

和尺度縮放

。

這也就是R-CNN中的：

那麼目標函式可以表示為是輸入Proposal的特徵向量，是要學習的引數（*表示，也就是每一個變換對應一個目標函式），是得到的預測值。我們要讓預測值跟真實值差距最小，得到損失函式為：

函式優化目標為：

利用梯度下降法或者最小二乘法就可以得到。

人臉檢測中的bounding box regression詳解

0. 引言在人臉檢測演算法如R-CNN、Fast RCNN中都用到了bounding box迴歸，迴歸的目標是使得預測的物體視窗向groundtruth視窗相接近。我一開始沒理解如何能迴歸出一個框來，看完下文就理解了^^ 1. 為什麼要做Bounding-bo

RCNN中的bounding box regression詳解

總結下上面大神所陳述的內容： 1.關於公式1~4是怎麼來的，從原paper來看，作者是引入了scale-invariant translation 分別對於x和y，即對於xy座標引入同一個scale，加上作者在他的另一篇論文Rich feature hi

邊框迴歸(Bounding Box Regression)詳解

Bounding-Box regression 最近一直看檢測有關的Paper, 從rcnn， fast rcnn, faster rcnn, yolo, r-fcn, ssd，到今年cvpr最新的yolo9000。這些paper中損失函式都包含了邊框迴歸，除

【Faster RCNN 】bounding box regression詳解

引言在人臉檢測演算法如R-CNN、Fast RCNN中都用到了bounding box迴歸，迴歸的目標是使得預測的物體視窗向groundtruth視窗相接近。我一開始沒理解如何能迴歸出一個框來，看完下文就理解了 1. 為什麼要做Bounding-box regres

JavaScript中return的用法詳解

style 返回 www log tle blog 意思 charset fun 1、定義：return 從字面上的看就是返回，官方定義return語句將終止當前函數並返回當前函數的值，可以看下下面的示例代碼： <!DOCTYPE html><html l

Android中的windowSoftInputMode屬性詳解

stun -h oid 中文意思 ecif andro 標題進行模式如何實現軟鍵盤不自動彈出，使用的方法是設置android:windowSoftInputMode屬性。那麽，這個屬性到底是幹什麽的，他有什麽作用呢？今天這篇文章，就是探索android:win

人臉檢測中幾種框框大小的選擇~

gravity 經濟自己位置之間實現 track 之前訓練樣本人臉檢測應用極為廣泛，內部細節也偏多，尤其是涉及到幾種類型的框，這幾種框的大小之前有著千絲萬縷的聯系，對檢測性能的好壞影響程度大小不一。本篇文章基於自己在人臉檢測方面的經驗，說說對這些框之間關系的

java中的instanceof用法詳解

定義 xtend print 繼承 interface 參數保留如果 ack 　　instanceof是Java的一個二元操作符（運算符）,也是Java的保留關鍵字。它的作用是判斷其左邊對象是否為其右邊類的實例，返回的是boolean類型的數據。用它來判斷某個對象是否是

java中Collections.sort排序詳解

比較器元素 .net 字符 atp style pri com 實現接口 Comparator是個接口，可重寫compare()及equals()這兩個方法,用於比價功能；如果是null的話，就是使用元素的默認順序，如a,b,c,d,e,f,g，就是a,b,c,d,e,f

命令提示符（cmd）中的tracert命令詳解

跳轉路由操作系統時間經驗由器其中 cti 地址 tracert也被稱為Windows路由跟蹤實用程序，在命令提示符（cmd）中使用tracert命令可以用於確定IP數據包訪問目標時所選擇的路徑。本文主要探討了tracert命令的各個功能。工具

struts2中result參數詳解

-s 兩種共享不能返回結果模式處理方法 jsp tac 1.result中name的參數： SUCCESS：Action正確的執行完成，返回相應的視圖，success是name屬性的默認值； NONE：表示Action正確的執行完成，但並不返回任何視圖； ERRO

BLAST+中makeblastdb參數詳解

last axon for req ask log 格式有意 config 以後打算工作中用到的相關BLAST操作全部用BLAST+來完成與以前的Blast相以，我們還是從格式化數據庫到比對開始一般我們是有一個fasta文件用來格式化數據庫，以前的命令是format

WPF中的Command命令詳解

cti system tle command location eric 自己的 pri edit 在WPF中使用命令的步驟很簡單 1.創建命令 2.綁定命令 3.設置命令源 4.設置命令目標 WPF中命令的核心是System.Windows.Input.ICommand接

Java中的main()方法詳解

普通什麽 javac 無限 reflect ase 理解 jvm cep 在Java中，main()方法是Java應用程序的入口方法，也就是說，程序在運行的時候，第一個執行的方法就是main()方法，這個方法和其他的方法有很大的不同，比如方法的名字必須是main，方法必須

eclipse項目中.classpath文件詳解

加載內容修改 repl blog launch 輸出 pat 發的 user 1 前言在使用eclipse或者myeclipse進行Java項目開發的時候，每個project（工程）下面都會有一個.classpath文件，那麽這個文件究竟有什麽作用？ 2 作用 .cla

Servlet中的過濾器Filter詳解

rep 釋放 ons smo text 執行c 總結 throws 程序啟動轉自： http://blog.csdn.net/sd0902/article/details/8395641 web.xml中元素執行的順序listener->filter->str

JavaScript中的閉包詳解

bsp 參考參數 med ica 如果 bar 描述 javascrip 閉包是JavaScript的重要特性，非常強大，可用於執行復雜的計算，可並不容易理解，尤其是對之前從事面向對象編程的人來說，對 JavaScript 認識和編程顯得更難。特別是在看一些開源的Java

struts2配置文件中的method={1}詳解

詳解 request user 代碼段 res 執行方法 splay let method struts.xml中的配置：  <action name="user_*" class="userActio

java 中Vector的使用詳解

缺點 rem 下標創建相同元素 num ger tin Vector 可實現自動增長的對象數組。 java.util.vector提供了向量類(vector)以實現類似動態數組的功能。在Java語言中沒有指針的概念，但如果正確靈活地使用指針又確實可以大大提高程序的質量

CGI編程中POST、GET詳解

cgi編程中post、get詳解什麽是 HTTP？超文本傳輸協議（HTTP）的設計目的是保證客戶機與服務器之間的通信。HTTP 的工作方式是客戶機與服務器之間的請求-應答協議。web 瀏覽器可能是客戶端，而計算機上的網絡應用程序也可能作為服務器端。舉例：客戶端（瀏覽器）向服務器提交 HTTP 請求；服務器向客