CS229 6.18 CNN 的反向傳導演算法

阿新 • • 發佈：2018-11-27

本文主要內容是 CNN 的 BP 演算法，看此文章前請保證對CNN有初步認識。

網路表示

CNN相對於傳統的全連線DNN來說增加了卷積層與池化層，典型的卷積神經網路中（比如LeNet-5 ），開始幾層都是卷積和池化的交替，然後在靠近輸出的地方做成全連線網路，這時候已經將所有兩維2D的特徵maps轉化為全連線的一維網路的輸入。在前向傳導或城中中，也只有兩處與傳統的 MLP 有所不同，分別是卷積層前向傳導，與 pooling 傳導到卷積層，如下圖所示：

在上圖中，層 $(l - 1)$

(l) 層對

(l - 1)

符號表示

$K^{(l - 1)}$

$K_{i j}^{(l - 1)}$

(l−1)層對映到

(l)

$b^{(l - 1)}$

$b_{j}^{(l - 1)}$

$w^{(l)}$

$w_{j}$

(l)">w(l)jwj(l)：卷積層第 j 個Feature Map 到 pooling 層第 j 個 Feature Map 是一一對應關係，即每個Feature Map 對應一個

w_{j}^{(l)}

$b^{(l)}$

$b_{j}^{(l)}$

$z^{(l)}$

$a^{(l)}$

前向傳導

CNN 的前向傳導，首先從 $(l - 1)$

z_{j}^{(l)} = (\sum_{j \in M_{j}} a_{i}^{(l - 1)} * K_{i j}^{(l - 1)}) + b_{j}^{(l - 1)}

需要注意：這裡 $z_{j}^{(l)}, a_{i}^{(l - 1)}, K_{i j}^{(l - 1)}$

第 $(l)$

綜上，從層到層可以用下圖描述：

接下來從到傳導到第層，此處對應pooling 操作，一般為一對一的形式，層的第 N 個 Feature Map 生成層的N個 Feature Map ，計算過程如下：

這裡down(.)對應的是一個下采樣（sub-sampling）函式，這個函式會對層的輸出中的n-n的畫素塊進行pooling操作，使得輸出在橫縱方向都縮小n倍。經過down(.)操作後，與有相同的 size 根據以上公式計算即可。同理，輸出繼續做一個對映：

至此，前向傳導過程已經可以求得，接下來與MLP類似，就是根據鏈式求導法則，求得殘差的反向傳導。

前饋（Back Propagation）

對於 pooling 層，假設已知其第 j 個Feature Map 的殘差向量，將其傳導到，即pooling層的誤差傳導到卷積層：

比如對於，即層的第 j 個 Feature Map 的殘差項如下圖左，對其做操作，得到下圖右：

　　　　後

操作與相反，操作會還原的殘差map，使其與卷積層的map大小一致，即還原到down(.)之前的大小。這裡殘差為一對一傳遞，將層的map的啟用函式的偏導數與從第層的得到的殘差map逐元素相乘，最後乘以引數即可，注意這裡為一個常量，每個Feature Map j 對應一個引數。

卷積層與層一般為多對多的關係，根據以上分析求得了卷積層的殘差項，接下來就是卷積層的殘差反向傳導的過程。卷積層前面分兩種情況，1）若卷積層前面為pooling層，則上面假設已知的就是根據這裡的推導所求得，並不是憑空出現。2）卷積層前面為初始輸入。

首先回憶卷積過程，卷積核 j 會對層多個通道進行卷積（每個通道對應 j 的一個卷積模板）求和，才會得到得到層的第 j 個 Feature Map，所以層的通道 i 的殘差項應該由與之相關的層的所有Feature Map j 共同前向傳導。假設與層的通道 i 相關的的所有Feature Map 共有 M 個，則有：

後做卷積的意思是完全卷積假設輸入影象 A 大小為 a x b，卷積核 B 大小為c x d，操作會對A進行填充，在 A 左右各填充（d-1）列，上下各填充（c-1）行，即後 A 的大小變為( a+2c-2)x(b+2d-2),用B對後的A做卷積，則卷積返回的大小為（a+b-1）x（a+b-1）。即為旋轉180度。