關於感受野的總結

阿新 • • 發佈：2019-01-22

感受野是卷積神經網路裡面最重要的概念之一，為了更好地理解卷積神經網路結構，甚至自己設計卷積神經網路，對於感受野的理解必不可少。

一、定義

感受野被定義為卷積神經網路特徵所能看到輸入影象的區域，換句話說特徵輸出受感受野區域內的畫素點的影響。

比如下圖（該圖為了方便，將二維簡化為一維），這個三層的神經卷積神經網路，每一層卷積核的 $kernel\_size=3$ , $stride=1$ ，那麼最上層特徵所對應的感受野就為如圖所示的7x7。

感受野示例[1]

二、計算方式

$RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}$

其中 $RF$ 表示特徵感受野大小， $l$ 表示層數， $feature\_stride_l=\prod_{i=1}^{l}stride_i$ , $l=0$ 表示輸入層， $RF_{0}=1$ , $feature\_stride_0=1$ 。

第一層特徵，感受野為3

$RF_{1}=RF_{0}+(kernel\_size_{1}-1)\times feature\_stride_{0}=1+(3-1)\times 1=3$

第1層感受野[1]

第二層特徵，感受野為5

$RF_{2}=RF_{1}+(kernel\_size_{2}-1)\times feature\_stride_{1}=3+(3-1)\times 1=5$

第2層感受野[1]

第三層特徵，感受野為7

$RF_{3}=RF_{2}+(kernel\_size_{3}-1)\times feature\_stride_{2}=5+(3-1)\times 1=7$

第3層感受野[1]

如果有dilated conv的話，計算公式為

$RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}\times (dilation_{l+1})$

三、更上一層樓

上文所述的是理論感受野，而特徵的有效感受野（實際起作用的感受野）實際上是遠小於理論感受野的，如下圖所示。具體數學分析比較複雜，不再贅述，感興趣的話可以參考論文[2]。

有效感受野示例[2]

下面我從直觀上解釋一下有效感受野背後的原因。以一個兩層 $kernel\_size=3$ ， $stride=1$ 的網路為例，該網路的理論感受野為5，計算流程可以參加下圖。其中 $x$ 為輸入， $w$ 為卷積權重， $o$ 為經過卷積後的輸出特徵。

很容易可以發現， $x_{1,1}$ 隻影響第一層feature map中的 $o_{1,1}^1$ ；而 $x_{3,3}$

會影響第一層feature map中的所有特徵，即 $o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1$ 。

第一層的輸出全部會影響第二層的 $o_{1,1}^2$ 。

於是 $x_{1,1}$ 只能通過 $o_{1,1}^1$ 來影響 $o_{1,1}^2$ ；而 $x_{3,3}$ 能通過 $o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1$ 來影響 $o_{1,1}^2$ 。顯而易見，雖然 $x_{1,1}$ 和 $x_{3,3}$ 都位於第二層特徵感受野內，但是二者對最後的特徵 $o_{1,1}^2$ 的影響卻大不相同，輸入中越靠感受野中間的元素對特徵的貢獻越大。

兩層3x3 conv計算流程圖

四、應用

分類

Xudong Cao寫過一篇叫《A practical theory for designing very deep convolutional neural networks》的technical report，裡面講設計基於深度卷積神經網路的影象分類器時，為了保證得到不錯的效果，需要滿足兩個條件：

Firstly, for each convolutional layer, its capacity of learning more complex patterns should be guaranteed; Secondly, the receptive field of the top most layer should be no larger than the image region.

其中第二個條件就是對卷積神經網路最高層網路特徵感受野大小的限制。

目標檢測

現在流行的目標檢測網路大部分都是基於anchor的，比如SSD系列，v2以後的yolo，還有faster rcnn系列。

基於anchor的目標檢測網路會預設一組大小不同的anchor，比如32x32、64x64、128x128、256x256，這麼多anchor，我們應該放置在哪幾層比較合適呢？這個時候感受野的大小是一個重要的考慮因素。

放置anchor層的特徵感受野應該跟anchor大小相匹配，感受野比anchor大太多不好，小太多也不好。如果感受野比anchor小很多，就好比只給你一隻腳，讓你說出這是什麼鳥一樣。如果感受野比anchor大很多，則好比給你一張世界地圖，讓你指出故宮在哪兒一樣。

《S3FD: Single Shot Scale-invariant Face Detector》這篇人臉檢測器論文就是依據感受野來設計anchor的大小的一個例子，文中的原話是

we design anchor scales based on the effective receptive field

《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》這篇論文在設計多尺度anchor的時候，依據同樣是感受野，文章的一個貢獻為

We introduce the Multiple Scale Convolutional Layers
(MSCL) to handle various scales of face via enriching
receptive fields and discretizing anchors over layers

引用：

[2]Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

關於感受野的總結

感受野是卷積神經網路裡面最重要的概念之一，為了更好地理解卷積神經網路結構，甚至自己設計卷積神經網路，對於感受野的理解必不可少。一、定義感受野被定義為卷積神經網路特徵所能看到輸入影象的區域，換句話說特徵輸出受感受野區域內的畫素點的影響。比如下圖（該圖為了方便，將

深度學習筆記（九）感受野計算

lds 時有輸入計算 ret name %d have imsi 1 感受野的概念　　在卷積神經網絡中，感受野的定義是卷積神經網絡每一層輸出的特征圖（feature map）上的像素點在原始圖像上映射的區域大小。一般感受野大小是目標大小的兩倍左右最合適！　　　　

CNN-感受野

gre style -s 基本理論 post pos body hacker apple CNN中感受野的計算：http://blog.csdn.net/kuaitoukid/article/details/46829355（好像有錯誤）http://blog.csdn.n

PSPnet：Pyramid Scene Parsing Network——作者認為現有模型由於沒有引入足夠的上下文信息及不同感受野下的全局信息而存在分割出現錯誤的情景，於是，提出了使用global-scence-level的信息的pspnet

沒有學習 text cti sce 足夠 tail 錯誤實驗 from：https://blog.csdn.net/bea_tree/article/details/56678560 2017年02月23日 19:28:25 閱讀數：6094 首先聲明，文末彩

關於感受野的總結

關於感受野的總結

深度學習筆記（九）感受野計算

CNN-感受野

PSPnet：Pyramid Scene Parsing Network——作者認為現有模型由於沒有引入足夠的上下文信息及不同感受野下的全局信息而存在分割出現錯誤的情景，於是，提出了使用global-scence-level的信息的pspnet

卷積網路之感受野

關於dilated convolution(空洞卷積)感受野的計算

一文徹底搞懂卷積神經網路的“感受野”，看不懂你來找我！

感受野的計算方式

基礎知識1——感受野

感受野深度理解

卷積神經網路中感受野的理解和計算

感受與總結

CNN中感受野大小的計算

“感受野”的直觀理解

CNN中感受野的計算

深度學習：卷積神經網路物體檢測之感受野大小計算

關於CNN中感受野的理解和計算方法

(轉載)感受野和座標對映的計算，以及卷積層跟全連線層的區別

你知道如何計算CNN感受野嗎？這裡有一份詳細指南

深度學習中的感受野計算

關於感受野的總結

相關推薦