BN - Batch normalization

阿新 • • 發佈：2018-12-02

BN大法無敵，這部落格從效果上分析為何如此牛逼，原理請移步其它blog，這裡就不再贅述了

論文： Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.

背景

學習mxnet時，使用AlexNet去分類fashion-mnist資料集

對比，加BN前後的效果

新增BN前的網路設計如下

'''
net.add(nn.Conv2D(96, kernel_size=11, strides=4, activation='relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Conv2D(256, kernel_size=5, padding=2, activation='relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Conv2D(384, kernel_size=3, padding=1, activation='relu'),
        nn.Conv2D(384, kernel_size=3, padding=1, activation='relu'),
        nn.Conv2D(256, kernel_size=3, padding=1, activation='relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Dense(4096, activation="relu"), nn.Dropout(0.2),
        nn.Dense(4096, activation="relu"), nn.Dropout(0.5),
        nn.Dense(10))
'''

訓練的loss 和準確度變化如下

'''
epoch 1, loss 1.3111, train acc 0.508, test acc 0.762, time 41.8 sec
epoch 2, loss 0.6442, train acc 0.760, test acc 0.816, time 39.1 sec
epoch 3, loss 0.5270, train acc 0.804, test acc 0.827, time 39.1 sec
epoch 4, loss 0.4626, train acc 0.830, test acc 0.861, time 39.4 sec
epoch 5, loss 0.4231, train acc 0.846, test acc 0.867, time 39.1 sec
epoch 6, loss 0.3947, train acc 0.857, test acc 0.873, time 39.9 sec
epoch 7, loss 0.3721, train acc 0.865, test acc 0.879, time 58.0 sec
epoch 8, loss 0.3548, train acc 0.871, test acc 0.883, time 39.1 sec
epoch 9, loss 0.3379, train acc 0.877, test acc 0.882, time 39.1 sec
epoch 10, loss 0.3271, train acc 0.881, test acc 0.890, time 39.0 sec
epoch 11, loss 0.3173, train acc 0.883, test acc 0.893, time 39.1 sec
epoch 12, loss 0.3069, train acc 0.887, test acc 0.893, time 39.5 sec
epoch 13, loss 0.2972, train acc 0.892, test acc 0.898, time 39.2 sec
epoch 14, loss 0.2891, train acc 0.894, test acc 0.903, time 39.0 sec
epoch 15, loss 0.2817, train acc 0.897, test acc 0.904, time 39.1 sec
epoch 16, loss 0.2762, train acc 0.898, test acc 0.903, time 39.1 sec
epoch 17, loss 0.2703, train acc 0.901, test acc 0.909, time 39.1 sec
epoch 18, loss 0.2634, train acc 0.904, test acc 0.907, time 39.1 sec
epoch 19, loss 0.2551, train acc 0.906, test acc 0.910, time 39.1 sec
epoch 20, loss 0.2488, train acc 0.908, test acc 0.909, time 39.5 sec
epoch 21, loss 0.2432, train acc 0.910, test acc 0.910, time 39.1 sec
epoch 22, loss 0.2391, train acc 0.912, test acc 0.912, time 39.3 sec
epoch 23, loss 0.2321, train acc 0.914, test acc 0.914, time 39.3 sec
epoch 24, loss 0.2274, train acc 0.916, test acc 0.912, time 39.1 sec
epoch 25, loss 0.2204, train acc 0.918, test acc 0.913, time 39.7 sec
epoch 26, loss 0.2164, train acc 0.920, test acc 0.917, time 39.1 sec
epoch 27, loss 0.2128, train acc 0.921, test acc 0.917, time 39.1 sec
epoch 28, loss 0.2085, train acc 0.923, test acc 0.918, time 39.2 sec
epoch 29, loss 0.2016, train acc 0.925, test acc 0.920, time 39.3 sec
epoch 30, loss 0.1969, train acc 0.927, test acc 0.917, time 39.2 sec
epoch 31, loss 0.1932, train acc 0.928, test acc 0.921, time 39.2 sec
epoch 32, loss 0.1891, train acc 0.930, test acc 0.916, time 39.1 sec
epoch 33, loss 0.1865, train acc 0.930, test acc 0.919, time 39.6 sec
epoch 34, loss 0.1801, train acc 0.932, test acc 0.917, time 39.3 sec
epoch 35, loss 0.1745, train acc 0.934, test acc 0.918, time 39.7 sec
epoch 36, loss 0.1709, train acc 0.936, test acc 0.919, time 39.3 sec
epoch 37, loss 0.1673, train acc 0.938, test acc 0.922, time 39.3 sec
epoch 38, loss 0.1639, train acc 0.939, test acc 0.922, time 39.6 sec
epoch 39, loss 0.1587, train acc 0.940, test acc 0.922, time 39.8 sec
epoch 40, loss 0.1554, train acc 0.941, test acc 0.921, time 39.5 sec
'''

新增BN後的網路結構如下:

'''
net.add(nn.Conv2D(96, kernel_size=11, strides=4),
        nn.BatchNorm(),
        nn.Activation('relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Conv2D(256, kernel_size=5, padding=2),
        nn.BatchNorm(),
        nn.Activation('relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Conv2D(384, kernel_size=3, padding=1),
        nn.BatchNorm(),
        nn.Activation('relu'),
        nn.Conv2D(384, kernel_size=3, padding=1),
        nn.BatchNorm(),
        nn.Activation('relu'),
        nn.Conv2D(256, kernel_size=3, padding=1),
        nn.BatchNorm(),
        nn.Activation('relu'),
        nn.MaxPool2D(pool_size=3, strides=2),
        nn.Dense(4096),nn.BatchNorm(),nn.Activation('relu'),nn.Dropout(0.2),
        nn.Dense(2048),nn.BatchNorm(),nn.Activation('relu'),nn.Dropout(0.5),
        nn.Dense(10))
'''

訓練的loss 和準確度變化如下

'''
epoch 1, loss 0.5627, train acc 0.802, test acc 0.867, time 46.9 sec
epoch 2, loss 0.3653, train acc 0.869, test acc 0.898, time 52.3 sec
epoch 3, loss 0.3055, train acc 0.888, test acc 0.907, time 47.6 sec
epoch 4, loss 0.2716, train acc 0.902, test acc 0.914, time 45.8 sec
epoch 5, loss 0.2446, train acc 0.911, test acc 0.919, time 45.7 sec
epoch 6, loss 0.2234, train acc 0.919, test acc 0.912, time 45.6 sec
epoch 7, loss 0.2066, train acc 0.924, test acc 0.907, time 45.6 sec
epoch 8, loss 0.1908, train acc 0.930, test acc 0.923, time 45.9 sec
epoch 9, loss 0.1766, train acc 0.935, test acc 0.929, time 45.6 sec
epoch 10, loss 0.1623, train acc 0.941, test acc 0.930, time 45.5 sec
epoch 11, loss 0.1511, train acc 0.944, test acc 0.925, time 45.7 sec
epoch 12, loss 0.1388, train acc 0.949, test acc 0.929, time 46.2 sec
epoch 13, loss 0.1262, train acc 0.954, test acc 0.910, time 45.3 sec
epoch 14, loss 0.1203, train acc 0.955, test acc 0.930, time 45.7 sec
epoch 15, loss 0.1072, train acc 0.961, test acc 0.920, time 45.4 sec
epoch 16, loss 0.0997, train acc 0.963, test acc 0.932, time 45.6 sec
epoch 17, loss 0.0938, train acc 0.966, test acc 0.928, time 45.9 sec
epoch 18, loss 0.0833, train acc 0.970, test acc 0.930, time 45.7 sec
epoch 19, loss 0.0767, train acc 0.972, test acc 0.926, time 45.3 sec
epoch 20, loss 0.0707, train acc 0.975, test acc 0.935, time 45.5 sec
epoch 21, loss 0.0624, train acc 0.978, test acc 0.936, time 45.8 sec
epoch 22, loss 0.0591, train acc 0.979, test acc 0.934, time 45.5 sec
epoch 23, loss 0.0526, train acc 0.982, test acc 0.932, time 45.2 sec
epoch 24, loss 0.0481, train acc 0.983, test acc 0.930, time 45.6 sec
epoch 25, loss 0.0440, train acc 0.985, test acc 0.938, time 45.7 sec
epoch 26, loss 0.0393, train acc 0.987, test acc 0.933, time 46.0 sec
epoch 27, loss 0.0359, train acc 0.988, test acc 0.935, time 45.5 sec
epoch 28, loss 0.0341, train acc 0.988, test acc 0.936, time 45.9 sec
epoch 29, loss 0.0301, train acc 0.990, test acc 0.937, time 51.6 sec
epoch 30, loss 0.0266, train acc 0.992, test acc 0.937, time 63.5 sec
epoch 31, loss 0.0236, train acc 0.993, test acc 0.921, time 44.8 sec
epoch 32, loss 0.0201, train acc 0.994, test acc 0.938, time 45.2 sec
epoch 33, loss 0.0187, train acc 0.994, test acc 0.939, time 45.3 sec
epoch 34, loss 0.0169, train acc 0.995, test acc 0.939, time 44.4 sec
epoch 35, loss 0.0142, train acc 0.996, test acc 0.938, time 45.0 sec
epoch 36, loss 0.0126, train acc 0.997, test acc 0.937, time 61.0 sec
epoch 37, loss 0.0131, train acc 0.996, test acc 0.936, time 44.9 sec
epoch 38, loss 0.0127, train acc 0.996, test acc 0.937, time 45.0 sec
epoch 39, loss 0.0116, train acc 0.997, test acc 0.939, time 61.0 sec
epoch 40, loss 0.0105, train acc 0.997, test acc 0.937, time 45.2 sec

'''

對比兩種網路和訓練結果可以看出

加了BN之後網路的收斂速度加快了許多

BN(Batch Normalization)

ssi statistic fse 改變分享圖片 turn hsi value beta Batch Nornalization Question? 　　1.是什麽？　　2.有什麽用？　　3.怎麽用？ paper：《Batch Normalization: Accel

BN - Batch normalization

BN大法無敵，這部落格從效果上分析為何如此牛逼，原理請移步其它blog，這裡就不再贅述了論文： Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by re

tensorflow使用BN—Batch Normalization

你要的答案或許都在這裡：自己搭建的一個框架，包含模型有：vgg(vgg16,vgg19), resnet(resnet_v2_50,resnet_v2_101,resnet_v2_152), incep

深度學習-卷積神經網路CNN-BN(Batch Normalization) 原理與使用過程詳解

前言 Batch Normalization是由google提出的一種訓練優化方法。參考論文：Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shif

新人上手TensorFlow 之簡單瞭解一下Batch Normalization （BN）

author: 張俊林轉載自：http://blog.csdn.net/malefactor/article/details/51476961 Batch Normalization作為最近一年來DL的重要成果，已經廣泛被證明其有效性和重要性。目前幾乎已經成為DL的標配了，任何有志於

CNN 中的BN（batch normalization）“批歸一化”原理

在看 ladder network(https://arxiv.org/pdf/1507.02672v2.pdf) 時初次遇到batch normalization（BN）. 文中說BN能加速收斂等好處，但是並不理解，然後就在網上搜了些關於BN的資料。

機器學習------批歸一化（Batch Normalization, BN）

　　取自孫明的＂數字影象處理與分析基礎＂　　從字面意思上理解Batch Normalization就是對每一批資料進行歸一化，確實如此，對於訓練中某一個batch的資料{x1x1, x2x2, ……, xnxn}，注意這個資料可以是輸入也可以是中間某一層的

BN（Batch Normalization）在TensorFlow的實現

對於BN計算一直不懂，但在tensorflow裡可以有幾個實現的方法,記錄一下：這個Stack Overflow回答詳解了目前tensorflow中所有的batch normalization用法，其中推薦使用的high-level API是tf.la

Batch normalization:accelerating deep network training by reducing internal covariate shift的筆記

work second mean 其它什麽區域引用 right delta 說實話，這篇paper看了很久，，到現在對裏面的一些東西還不是很好的理解。下面是我的理解，當同行看到的話，留言交流交流啊！！！！！這篇文章的中心點：圍繞著如何降低 internal

tesnorflow Batch Normalization

graph point ilo eps net store scope psi bat 1.train或者從checkpoint restore後發現moving_mean和moving_variance都是0和1 bn1_mean = graph.get_tensor_

莫煩課程Batch Normalization 批標準化

github cti mas pen get lin pytorch 生成 def for i in range(N_HIDDEN): # build hidden layers and BN layers input

Batch Normalization and Binarized Neural Networks

圖片 -- 比較 9.png 耗時二值化網絡學習 weight s函數 1使用BN進行數據歸一化的原因　　a) 神經網絡學習過程本質就是為了學習數據分布，一旦訓練數據與測試數據的分布不同，那麽網絡的泛化能力也大大降低；　　b) 另外一方面，一旦每批訓練數據的分布各不相

【深度學習】批歸一化（Batch Normalization）

學習 src 試用其中 put min 平移深度優化方法 BN是由Google於2015年提出，這是一個深度神經網絡訓練的技巧，它不僅可以加快了模型的收斂速度，而且更重要的是在一定程度緩解了深層網絡中“梯度彌散”的問題，從而使得訓練深層網絡模型更加容易和穩定。所以目前

Tensorflow Batch normalization函數

最大解釋 batch tails csdn layer 出了 font .net Tensorflow Batch normalization函數覺得有用的話,歡迎一起討論相互學習~Follow Me 參考文獻 stackoverflow上tensorflow實現BN

Batch Normalization層

ali 用處可能性機構一個使用論文現在兩個　　Batch Normalization的加速作用體現在兩個方面：一是歸一化了每層和每維度的scale，所以可以整體使用一個較高的學習率，而不必像以前那樣遷就小scale的維度；二是歸一化後使得更多的權重分界面落在

Batch Normalization原理

mode 個數有一個 orf htm 流程 div filter 範圍 Batch Normalization導讀博客轉載自：https://blog.csdn.net/malefactor/article/details/51476961 作者：張俊林為什

Pytorch中的Batch Normalization操作

from 小數 http 結果 data 特定 -c 作用 run 之前一直和小夥伴探討batch normalization層的實現機理，作用在這裏不談，知乎上有一篇paper在講這個，鏈接這裏只探究其具體運算過程，我們假設在網絡中間經過某些卷積操作之後的輸出的fea

Batch Normalization 與Dropout 的沖突

.com drop 產生 rop lan 所有 tps 方差避免　　BN或Dropout單獨使用能加速訓練速度並且避免過擬合　　但是倘若一起使用，會產生負面效果。　　BN在某些情況下會削弱Dropout的效果　　　　對此，BN與Dropout最好不要一起用，

Batch Normalization

ilo 實現它的變換浪費 NPU 出了 axis 運行轉自: http://blog.csdn.net/hjimce/article/details/50866313 https://zhuanlan.zhihu.com/p/38176412 [簡潔] 白化w

BN - Batch normalization

BN大法無敵，這部落格從效果上分析為何如此牛逼，原理請移步其它blog，這裡就不再贅述了

背景

新增BN後的網路結構如下:

相關推薦