感受野深度理解

阿新 • • 發佈：2018-12-01

知乎是個好東西，深入理解一些理念，靠部落格是不行的。

感受野計算和理解的內容參考自：https://zhuanlan.zhihu.com/p/44106492 / https://zhuanlan.zhihu.com/p/40267131

後兩個卷積的內容參考自： https://www.zhihu.com/question/54149221

五、從感受野分析典型網路（vgg、resnet、rpn結構）

六、有效感受野

七、論文中用法

一、卷積後特徵圖維度的公式

首先，補充下計算卷積後特徵圖維度的公式：

N = (W − F + 2P )/S+1 （原圖大小-kenal+2pad）/步長 +1

輸出圖片大小為 N×N
輸入圖片大小 W×W
Filter大小 F×F
padding： P
步長 S

二：感受野介紹：

stride ： 網路中的每一個層有一個strides，該strides是之前所有層stride的乘積，即：

$stride\left( i\right) =stride(1)\ast stride(2)\ast ...\ast stride\left( i-1 \right)$

感受野：cnn中的特徵圖上一點，相對於原圖的大小。

三、感受野的直觀感受和作用

下圖（該圖為了方便，將二維簡化為一維），這個三層的神經卷積神經網路，每一層卷積核的 $kernel\_size=3$ , $stride=1$ ，那麼最上層特徵所對應的感受野就為如圖所示的7x7。*（看箭頭的時候從上往下反著看）

作用：這個重要的思想是在VGG的主要contribution（ 3 個 3 x 3 的卷積層的疊加可以替代7*7的卷積，而這樣的設計不僅可以大幅度的減少引數，其本身帶有多次正則性質的 convolution map 能夠更容易學一個 generlisable, expressive feature space。這也是現在絕大部分基於卷積的深層網路都在用小卷積核的原因。）

小卷積可以代替大卷積層

密集預測task要求輸出畫素的感受野足夠的大，確保做出決策時沒有忽略重要資訊，一般也是越深越好
一般task要求感受野越大越好，如影象分類中最後卷積層的感受野要大於輸入影象，網路深度越深感受野越大效能越好
目標檢測task中設定anchor要嚴格對應感受野，anchor太大或偏離感受野都會嚴重影響檢測效能

用這種等效的思想從感受野上看：兩個堆疊的conv3x3感受野可以等於一個conv5x5，推廣之，一個多層卷積構成的FCN感受野等於一個conv r*r，即一個卷積核很大的單層卷積，其kernelsize=r，padding=P，stride=S。cnn從gap劃開，看成是FCN (全卷積網路)+MLP (多層感知機)，前面提取特徵後面加個分類器，可以理解成sobel+svm唄~CNN是不是就沒那麼神祕了~）

再來一個二維的圖：

這裡面有兩個 3 x 3的的卷積，可以替代一個5*5的卷積。

四、感受野大小計算方式

$RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}$

其中 $RF$ 表示特徵感受野大小， $l$ 表示層數， $feature\_stride_l=\prod_{i=1}^{l}stride_i$ ,

輸入層的： $l=0$ ， $RF_{0}=1$ , $feature\_stride_0=1$ 。

第一層特徵，感受野為3

$RF_{1}=RF_{0}+(kernel\_size_{1}-1)\times feature\_stride_{0}=1+(3-1)\times 1=3$

第1層感受野[1]

第二層特徵，感受野為5

$RF_{2}=RF_{1}+(kernel\_size_{2}-1)\times feature\_stride_{1}=3+(3-1)\times 1=5$

第2層感受野[1]

第三層特徵，感受野為7

$RF_{3}=RF_{2}+(kernel\_size_{3}-1)\times feature\_stride_{2}=5+(3-1)\times 1=7$

第3層感受野[1]

如果有dilated conv的話，計算公式為

$RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}\times dilation_{l+1}$

五、從感受野分析典型網路（vgg、resnet、rpn結構）

計算Faster R-CNN（vgg16）中conv5-3+RPN的感受野，RPN的結構是一個conv3x3+兩個並列conv1x1：

宣告： 輸入圖片224*224， r表示感受野， S表示stride， P表示padding， P的計算可以通過反推 N = (W − F + 2P )/S+1

r = 1 +2 +2 )x2 +2+2 )x2 +2+2+2 )x2 +2+2+2 )x2 +2 = 156
S = 2x2x2x2 = 16
P = ((14-1)x16-224+228)/2 = 106

分佈方式為在paddding=106的輸入224x224影象上，大小為156x156的正方形感受野區域以stride=16平鋪。

接下來是Faster R-CNN+++和R-FCN等採用的重要backbone的ResNet，常見ResNet-50和ResNet-101，結構特點是block由conv1x1+conv3x3+conv1x1構成，下采樣block中conv3x3 s2影響感受野。先計算ResNet-50在conv4-6 + RPN的感受野 (為了寫起來簡單堆疊卷積層合併在一起)：

r = 1 +2 +2x5 )x2+1 +2x3 )x2+1 +2x3 )x2+1 )x2+5 = 299
S = 2x2x2x2 = 16
P = ((14-1)x16-224+299)/2 = 141.5

P不是整數，表示conv7x7 s2卷積有多餘部分。分佈方式為在paddding=142的輸入224x224影象上，大小為299x299的正方形感受野區域以stride=16平鋪。

ResNet-101在conv4-23 + RPN的感受野：

r = 1 +2 +2x22 )x2+1 +2x3 )x2+1 +2x3 )x2+1 )x2+5 = 843
S = 2x2x2x2 = 16
P = ((14-1)x16-224+843)/2 = 413.5

分佈方式為在paddding=414的輸入224x224影象上，大小為843x843的正方形感受野區域以stride=16平鋪。

以上結果都可以反推驗證，並且與後一種方法結果一致。從以上計算可以發現一些的結論：

步進1的卷積層線性增加感受野，深度網路可以通過堆疊多層卷積增加感受野
步進2的下采樣層乘性增加感受野，但受限於輸入解析度不能隨意增加
步進1的卷積層加在網路後面位置，會比加在前面位置增加更多感受野，如stage4加捲積層比stage3的感受野增加更多
深度CNN的感受野往往是大於輸入解析度的，如上面ResNet-101的843比輸入解析度大3.7倍
深度CNN為保持解析度每個conv都要加padding，所以等效到輸入影象的padding非常大

六、有效感受野

NIPS 2016論文Understanding the Effective Receptive Field in Deep Convolutional Neural Networks提出了有效感受野（Effective Receptive Field, ERF）理論，論文發現並不是感受野內所有畫素對輸出向量的貢獻相同，在很多情況下感受野區域內畫素的影響分佈是高斯，有效感受野僅佔理論感受野的一部分，且高斯分佈從中心到邊緣快速衰減，下圖第二個是訓練後CNN的典型有效感受野。

下面我從直觀上解釋一下有效感受野背後的原因。以一個兩層 $kernel\_size=3$ ， $stride=1$ 的網路為例，該網路的理論感受野為5，計算流程可以參加下圖。其中 $x$ 為輸入， $w$ 為卷積權重， $o$ 為經過卷積後的輸出特徵。

很容易可以發現， $x_{1,1}$ 隻影響第一層feature map中的 $o_{1,1}^1$ ；而 $x_{3,3}$ 會影響第一層feature map中的所有特徵，即 $o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1$ 。

第一層的輸出全部會影響第二層的 $o_{1,1}^2$ 。

於是 $x_{1,1}$ 只能通過 $o_{1,1}^1$ 來影響 $o_{1,1}^2$ ；而 $x_{3,3}$ 能通過 $o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1$ 來影響 $o_{1,1}^2$ 。顯而易見，雖然 $x_{1,1}$ 和 $x_{3,3}$ 都位於第二層特徵感受野內，但是二者對最後的特徵 $o_{1,1}^2$ 的影響卻大不相同，輸入中越靠感受野中間的元素對特徵的貢獻越大。

七、論文中用法

ECCV2016的SSD論文指出更好的anchar的設定應該依據感受野：

ICCV2017的SFD依據有效感受野設定anchor並使其密集化，這一做法在RefineNet中延續：

DeepLab提出Atrous conv (帶孔卷積)高效控制感受野，而不增加引數數量和計算量：

分類

Xudong Cao寫過一篇叫《A practical theory for designing very deep convolutional neural networks》的technical report，裡面講設計基於深度卷積神經網路的影象分類器時，為了保證得到不錯的效果，需要滿足兩個條件：

Firstly, for each convolutional layer, its capacity of learning more complex patterns should be guaranteed; Secondly, the receptive field of the top most layer should be no larger than the image region.

其中第二個條件就是對卷積神經網路最高層網路特徵感受野大小的限制。

目標檢測

現在流行的目標檢測網路大部分都是基於anchor的，比如SSD系列，v2以後的yolo，還有faster rcnn系列。

基於anchor的目標檢測網路會預設一組大小不同的anchor，比如32x32、64x64、128x128、256x256，這麼多anchor，我們應該放置在哪幾層比較合適呢？這個時候感受野的大小是一個重要的考慮因素。

放置anchor層的特徵感受野應該跟anchor大小相匹配，感受野比anchor大太多不好，小太多也不好。如果感受野比anchor小很多，就好比只給你一隻腳，讓你說出這是什麼鳥一樣。如果感受野比anchor大很多，則好比給你一張世界地圖，讓你指出故宮在哪兒一樣。

《S3FD: Single Shot Scale-invariant Face Detector》這篇人臉檢測器論文就是依據感受野來設計anchor的大小的一個例子，文中的原話是

we design anchor scales based on the effective receptive field

《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》這篇論文在設計多尺度anchor的時候，依據同樣是感受野，文章的一個貢獻為

We introduce the Multiple Scale Convolutional Layers
(MSCL) to handle various scales of face via enriching
receptive fields and discretizing anchors over layers

感受野深度理解

知乎是個好東西，深入理解一些理念，靠部落格是不行的。感受野計算和理解的內容參考自：https://zhuanlan.zhihu.com/p/44106492 / https://zhuanlan.zhihu.com/p/40267131 後兩個卷積的內容參考自：&n

卷積神經網路中感受野的理解和計算

什麼是感受野 “感受野”的概念來源於生物神經科學，比如當我們的“感受器”，比如我們的手受到刺激之後，會將刺激傳輸至中樞神經，但是並不是一個神經元就能夠接受整個面板的刺激，因為面板面積大，一個神經元可想而知肯定接受不完，而且我們同時可以感受到身上面板在不同的地方，如手、腳，的不同的刺激，如

關於CNN中感受野的理解和計算方法

1.感受野的理解 CNN中的感受野是CNN中的一個很重要的概念，關於其解釋網上有許多版本，如 The receptive field is defined as the region in the input space that a particular CNN’s fea

深度學習筆記（九）感受野計算

lds 時有輸入計算 ret name %d have imsi 1 感受野的概念　　在卷積神經網絡中，感受野的定義是卷積神經網絡每一層輸出的特征圖（feature map）上的像素點在原始圖像上映射的區域大小。一般感受野大小是目標大小的兩倍左右最合適！　　　　

“感受野”的直觀理解

感受野定義公式定義衡量某一層的特徵圖中某個畫素點對應到原始輸入的響應的大小區域；（另外一種定義）卷積神經網路每一層的輸出特徵圖上的畫素點在原始影象上對映的區域大小【直觀理解】就是當前的每個畫素點對應於原來圖片的區域

深度學習：卷積神經網路物體檢測之感受野大小計算

1 感受野的概念　　在卷積神經網路中，感受野的定義是卷積神經網路每一層輸出的特徵圖（feature map）上的畫素點在原始影象上對映的區域大小。　　　　RCNN論文中有一段描述，Alexnet網路pool5輸出的特徵圖上的畫

深度學習中的感受野計算

概念：感受野（receive field）是指當前feature map中的一個原子點P與輸入層中多少個原子個數相關的問題，假設輸入層相關的點為(RF*RF)個（假設長寬兩個方向上做同樣尺度的操作），即輸入層中RF*RF個原子值的變化會影響當前feature ma

深度學習——感受野

最近在組會講解框架時，在感受野這個小知識點，大家開始產生歧義，今天我就簡單的給大家講解下這個小知識點，也給初學者帶來一個對Receptive Field嶄新的認識，如果對只是有深入瞭解的你，就可以直接跳過O(∩_∩)O~~！現在開始進入正題！！！以前我的

一張圖理解卷積神經網路卷積層和感受野

區域性關聯：每個畫素點和她周邊的點廣聯大（影象連續）形象地說，左邊是32*32*3的影象，我們讓五個小朋友分別看，右邊的12345小盆友分別關注影象的顏色，輪廓，紋理等等資訊。五個小朋友對應五個神經元，也叫filter，每個小盆友視野有限，每次只看一小塊，慢慢滑動直

deeplabcv2 的 Atrous Convolution(帶孔卷機核)，感受野，及tensorflow實現crf的一點理解。

首先是因為做影象分割，所以使用deeplab。思想基本和fcn一樣。先卷機提取特徵，然後闊尺寸至原影象大小。普通fcn先把影象padding至很大（據說是邊緣補100個0），然後一層層下來，pool （stride＝2）或者是卷機（ stride＝2）5次，影象縮小了32

深度理解鏈式前向星——轉載自ACdreamer

show padding dream idt 特殊邊集數組 == 影響 mbo // ‘ + obj.name + " "; html += ‘ ‘; html

深度理解div+css布局嵌套盒子

裝飾每一個是否 col 深度外部 str 依然單元 1. 網頁布局概述　　網頁布局的概念是把即將出現在網頁中的所有元素進行定位，而CSS網頁排版技術有別於傳統的網頁排版方法，它將頁面首先在整體上使用<div>標記進行分塊，然後對每個快進行CSS定位以

深度理解CSS中塊級元素與行內元素的區別（個人易錯點）

水平切換 otto display pad 情況易錯點寬度塊級元素區別一：塊級：塊級元素會獨占一行，默認情況下寬度自動填滿其父元素寬度行內：行內元素不會獨占一行，相鄰的行內元素會排在同一行。其寬度隨內容的變化而變化。區別二：塊級：塊級元素可以設置寬高行內

深度理解DOM拷貝clone()

處理點擊 css doctype blog aar con left 函數克隆節點是DOM的常見操作，jQuery提供一個clone方法，專門用於處理dom的克隆: .clone()方法深度復制所有匹配的元素集合，包括所有匹配元素、匹配元素的下級元素、文字節點。

PHP循環語句深度理解分析——while, for, foreach, do while

color 比較 foreach循環循環運行 do-while 運算符結果 ech 循環結構一、while循環 while(表達式) { 循環體;//反復執行，直到表達式為假 } 代碼： $index = 1; while ($index<5)

CNN-感受野

gre style -s 基本理論 post pos body hacker apple CNN中感受野的計算：http://blog.csdn.net/kuaitoukid/article/details/46829355（好像有錯誤）http://blog.csdn.n

深度理解平均負載

平均負載為了進一步理解系統負載，需要做一些假設。假設系統負載如下：23:16:49 up 10:49, 5 user, load average: 1.00, 0.40, 3.35在單核系統中意味著：CPU 被充分利用（100%）；最近的 1 分鐘有 1 個進程在運行。CPU 有 60% 處於空閑狀態；

PSPnet：Pyramid Scene Parsing Network——作者認為現有模型由於沒有引入足夠的上下文信息及不同感受野下的全局信息而存在分割出現錯誤的情景，於是，提出了使用global-scence-level的信息的pspnet

沒有學習 text cti sce 足夠 tail 錯誤實驗 from：https://blog.csdn.net/bea_tree/article/details/56678560 2017年02月23日 19:28:25 閱讀數：6094 首先聲明，文末彩

深度理解鏈式前向星

簡單清晰怎麽圖片 details 個數一個一道後來我們首先來看一下什麽是前向星. 前向星是一種特殊的邊集數組,我們把邊集數組中的每一條邊按照起點從小到大排序,如果起點相同就按照終點從小到大排序, 並記錄下以某個點為起點的所有邊在數組中的起始位置和存儲長度,那麽

DNS深度理解

0x01 首先,我們先來簡單回顧下DNS的基本解析流程, 比較簡單,如下 -> 以客戶端瀏覽器訪問 www.rootkit.org 域名為例,首先,它會去檢查當前瀏覽器快取,如果有,就直接響應,如果沒有,就繼續往下找 -> 接著,作業系統會去檢

感受野 深度理解

一、卷積後特徵圖維度的公式

二：感受野介紹：

三、感受野的直觀感受 和 作用

四、感受野大小計算方式

五、從 感受野 分析 典型網路（vgg、resnet、rpn結構）

六、 有效感受野

七、 論文中用法

相關推薦

感受野深度理解

三、感受野的直觀感受和作用

五、從感受野分析典型網路（vgg、resnet、rpn結構）

六、有效感受野

七、論文中用法