SPP-net文章詳細解讀

阿新 • • 發佈：2018-12-31

文章《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》是在RCNN之後，是對RCNN的改進(關於RCNN可以檢視R-CNN文章詳細解讀)，先給出SPP-net總的框架圖如下

該文章主要改進兩點：
1. CNN需要固定輸入影象的尺寸，導致不必要的精度損失
2. R-CNN對候選區域進行重複卷積計算，造成計算冗餘

1.為什麼CNNs要固定輸入影象的尺寸？

CNN主要有兩部分組成：卷積層和全連線層。卷積層以滑動視窗方式操作並輸出表示各個響應啟用空間分佈的特徵圖。實際上，卷積層不需要輸入的影象尺寸固定，並且可以產生任意尺寸的特徵圖。但另一方面，完全連線層需要具有固定大小/長度的輸入。因此，固定輸入大小的約束只是來自存在於網路更深層階段的全連線層。
解決辦法(對比R-CNN, SPP-net)：

R-CNN	SPP-net
固定輸入影象的尺寸，在將影象輸入CNN前，進行圖片的縮放(詳細情況檢視R-CNN文章詳細解讀)，這樣會導致裁剪區域可能不包含整個物件，或者縮放時候產生的扭曲可能會導致不必要的幾何失真	提出空間金字塔池化層簡稱SPP層，在最後一個卷積層的頂部新增一個SPP層。 SPP層對這些特徵進行池化並生成固定長度的輸出，然後將其輸入到完全連線層（或其他分類器）。

如下圖所示
第一行中的影象即為要求固定尺寸輸入的CNN對影象的處理方式

第二行為要求固定尺寸輸入的CNN (如R-CNN)的處理流程，先將圖片按照類似第一行中的方式進行處理，然後輸入卷積以及全連線層，最後輸出結果

第三行為SPP-net的處理方式，不固定影象的大小，直接輸入給卷積層處理，卷積出來的特徵並不是直接輸入給全連線層，而是先給SPP層處理，然後得到一個固定長度的輸出傳給全連線層，最後輸出結果。

2.R-CNN為什麼會有計算冗餘？
如下圖所示
R-CNN對於一張圖片，先使用segment seletive方法提取出約2000個候選區域，然後將這兩千個候選區域分別送入網路中，即一張圖片要經歷2000次前向傳播，這樣會造成大量冗餘。
SPP-net則提出了一種從候選區域到全圖的特徵(feature map)之間的對應對映關係，通過此種對映關係可以直接獲取到候選區域的特徵向量，不需要重複使用CNN提取特徵，從而大幅度縮短訓練時間。每張圖片只需進行一次前向傳播即可。

下面來詳細講解一下改進的方法：
1.SPP層(spatial pyramid pooling)
首先要明確的是這一層的位置，這一層加在最後一個卷積層與全連線層之間，目的就是為了輸出固定長度的特徵傳給要求固定輸入的全連線層
SPP層的結構如下圖所示

SPP層的輸入：
如下圖灰色框所示
最後一層卷積輸出的特徵(我們稱為feature map)，feature map為下圖的黑色部分表示，SPP層的輸入為與候選區域對應的在feature map上的一塊區域
上面這句話可能有點繞，我們可以理解為一張圖有約2000個候選區域，而對一張圖做完卷積後得到feature map，在這個feature map上也有約2000個與候選區域對應的區域(這裡的對應關係下面會詳細講解)

SPP層的輸出：
SPP layer分成1x1，2x2，4x4三個pooling結構(這部分結構如下圖所示)，對每個輸入(這裡每個輸入大小是不一樣的)都作max pooling(論文使用的)，出來的特徵再連線到一起，就是(16+4+1)x256的特徵向量。

無論輸入影象大小如何，出來的特徵固定是(16+4+1)x256維度。這樣就實現了不管影象中候選區域尺寸如何，SPP層的輸出永遠是(16+4+1)x256特徵向量。

2.候選區域在原圖與feature map之間的對映關係
這部分的計算其實就是感受野大小的計算。
在CNN中感受野(receptive fields)是指某一層輸出結果中一個元素所對應的上一層的區域大小，如下圖所示。

先定義幾個引數，引數的定義參考吳恩達在cousera講解中對符號的定義，然後再講解怎麼計算

型別	大小
第 $l$ 層的輸入尺寸	$W^{[l-1]}*H^{[l-1]}$
第 $l$ 層的輸出尺寸	$W^{[l]}*H^{l}$
第 $l$ 層的卷積核大小	$f^{[l]}*f^{[l]}$
第 $l$ 層的卷積步長	$S^{[l]}$
第 $l$ 層的填充大小	$p^{[l]}$

輸入的尺寸大小與輸出的尺寸大小有如下關係：
$W^{[l]}=(W^{[l-1]}+2p^{[l]}-f^{[l]})/S^{[l]}+1$
$H^{[l]}=(H^{[l-1]}+2p^{[l]}-f^{[l]})/S^{[l]}+1$

上面是區域尺寸大小的對應關係，下面看一下座標點之間的對應關係
$p_i = s_i \cdot p_{i+1} +( (k_i -1)/2 - padding)$

含義	符號
在i層的座標值	$p_i$
i層的步長	$s_i$
i層的卷積核大小	$k_i$
i層填充的大小	padding

SPP-net對上面的座標對應關係作了一定的簡化，簡化過程如下：

令每一層的padding都為
$padding = \lfloor k_i /2 \rfloor \Rightarrow pi = s_i \cdot p_{i+1} +( (k_i -1)/2 - \lfloor k_i /2 \rfloor)$
當 k_i 為奇數 $<div class="entry-tag"> </div> <div class="entry-page"> <center><script type="text/javascript" src="/js/article.js">$

SPP-net文章詳細解讀

SPP-net文章詳細解讀

YOLO文章詳細解讀

Faster R-CNN文章詳細解讀

Fast R-CNN文章詳細解讀

R-CNN文章詳細解讀

結繩法：文章詳細解讀（非同步時鐘設計的同步策略）（五）

圖解集合7：紅黑樹概念、紅黑樹的插入及旋轉操作詳細解讀

MySql之ALTER命令用法詳細解讀（轉）

JMX超詳細解讀

詳細解讀-this-關鍵字在全局、函數、對象、jQuery中的基礎用法！

詳細解讀Jquery各Ajax函數：$.get(),$.post(),$.ajax(),$.getJSON()

Jquery的$.get(),$.post(),$.ajax(),$.getJSON()用法詳細解讀

const類型變量的詳細解讀

Linux中軟鏈接與硬鏈接詳細解讀

分享點幹貨（此this非彼this）this的詳細解讀

讀論文系列：Object Detection SPP-net

VINS-mono詳細解讀

相機IMU融合四部曲（二）：誤差狀態四元數詳細解讀

[文文殿下]並查集詳細解讀

C4.5最新版本Release8與ＭＤＬ的關係的詳細解讀

SPP-net文章詳細解讀

相關推薦