當卷積層後跟batch normalization層時為什麼不要偏置b

阿新 • • 發佈：2019-01-28

起因

之前使用的是inception-v2模型，在v2中，標準的卷積模組為：
* conv_w_b->bn->relu ->pooling*
即，在v2中，儘管在卷積之後、啟用函式之前大量使用batch normalization，但是卷積層依然使用可學習的偏置引數。

這也比較符合我的直觀理解，因為偏置在一般的卷積神經網路中本來就是很重要的，可以讓超判決面不過原點。
但是我在讀inception-v3的程式碼時，發現v3中一個卷積模組中 bn和bias是不共存的，這令我很費解，這麼重要的引數為什麼沒有？

解

後來想明白了，接下來是明白的過程：

首先，看bias的有無到底會不會對bn的結果造成影響？

bn操作的關鍵一步可以簡寫為：

yi=xi−x¯D(x)−−−−√
當加上偏置之後，為：
ybi=xbi−xb¯D(xb)−−−−−√
其中：
xbi=xi+b
，然後我們對公式進行化簡：
ybi=xi+b−(x¯+b)D(xb)−−−−−√=xi−x¯D(xb)−−−−−√
而：
D(xb)=E[(xb)2]−[E(xb)]2D(xb)=1N∑i(xbi)2−(x¯+b)2D(xb)=1N∑i(xi+b)2−(x¯+b)2D(xb)=1N∑ix2i+2bx¯+b2−(x¯+b)2D(xb)=1N∑ix2i−x¯2D(xb)=D(x)
所以：
ybi=yi
。
好了。
那麼為什麼沒有bias的卷積層能夠對bn後的輸入學習到很好的決策面呢？

當然啦，bn本身就是將資料歸一化到標準分佈的呀~

當卷積層後跟batch normalization層時為什麼不要偏置b

起因

解

當卷積層後跟batch normalization層時為什麼不要偏置b

Batch Normalization層

卷積神經網路全連線層轉換為卷積層獲得heatmap

卷積神經網路全連線層小結

MATLAB做矩陣卷積時域做卷積，頻域相乘（時卷頻乘）二維卷積

FCN用卷積層代替FC層原因（轉）

C++卷積神經網絡實例：tiny_cnn代碼具體解釋（6）——average_pooling_layer層結構類分析

caffe源碼卷積層

TensorFlow 卷積神經網絡--卷積層

卷積層，池化層等，前向/反向傳播原理講解

tensorflow中的卷積和池化層(一)

理解CNN卷積層與池化層計算

CNN輸出每一層的卷積核，即每一層的權重矩陣和偏移量矩陣

TensorFlow的卷積層

TensorFlow 卷積層

caffe的卷積層的乘積運算的優化

Caffe框架原始碼剖析(5)—卷積層ConvolutionLayer

Caffe框架原始碼剖析(4)—卷積層基類BaseConvolutionLayer

TensorFlow官方文件樣例——三層卷積神經網路訓練MNIST資料

使用兩層卷積神經網路來實現手寫數字集（面向物件）

當卷積層後跟batch normalization層時為什麼不要偏置b

起因

解

相關推薦