Batch Normalization

阿新 • • 發佈：2022-01-03

BN回顧

首先Batch Normalization 中的Normalization被稱為標準化，通過將資料進行平和縮放拉到一個特定的分佈。BN就是在batch維度上進行資料的標準化。BN的引入是用來解決 internal covariate shift 問題，即訓練迭代中網路啟用的分佈的變化對網路訓練帶來的破壞。BN通過在每次訓練迭代的時候，利用minibatch計算出的當前batch的均值和方差，進行標準化來緩解這個問題。雖然How Does Batch Normalization Help Optimization 這篇文章探究了BN其實和Internal Covariate Shift （ICS）問題關係不大，本文不深入討論，這個會在以後的文章中細說。

一般來說，BN有兩個優點：

降低對初始化、學習率等超參的敏感程度，因為每層的輸入被BN拉成相對穩定的分佈，也能加速收斂過程。
應對梯度飽和和梯度彌散，主要是對於使用sigmoid和tanh的啟用函式的網路。

當然，BN的使用也有兩個前提：

minibatch和全部資料同分布。因為訓練過程每個minibatch從整體資料中均勻取樣，不同分佈的話minibatch的均值和方差和訓練樣本整體的均值和方差是會存在較大差異的，在測試的時候會嚴重影響精度。
batchsize不能太小，否則效果會較差，論文給的一般性下限是32。

再來回顧一下BN的具體做法：

訓練的時候：使用當前batch統計的均值和方差對資料進行標準化，同時優化優化gamma和beta兩個引數。另外利用指數滑動平均收集全域性的均值和方差。

測試的時候：使用訓練時收集全域性均值和方差以及優化好的gamma和beta進行推理。

可以看出，要想BN真正work，就要保證訓練時當前batch的均值和方差逼近全部資料的均值和方差。

來源：
https://mp.weixin.qq.com/s/Y4St2neLqH14qXxIviRWGw

Caffe Batch Normalization層解析

轉自：https://blog.csdn.net/weixin_37970694/article/details/79485158 BatchNormalization(BN)的提出：paper[連結]（https://arxiv.org/pdf/1502.03167.pdf）論文中對BN的解釋：Making normalization a part of t

Pytorch Batch Normalization 中 track_running_stats問題

Batch Normalization，批規範化 BatchNormalization（簡稱為BN）[2]，中文翻譯成批規範化，是在深度學習中普遍使用的一種技術，通常用於解決多層神經網路中間層的協方差偏移(Internal Covariate Shift)問題，類似於網

批量歸一化（BN, Batch Normalization）

　　現在的神經網路通常都特別深，在輸出層向輸入層傳播導數的過程中，梯度很容易被啟用函式或是權重以指數級的規模縮小或放大，從而產生“梯度消失”或“梯度爆炸”的現象，造成訓練速度下降和

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

字可以看出，BN是用來解決“Internal Covariate Shift”問題的，那麼首先得理解什麼是“Internal Covariate Shift”？　　論文首先說明Mini-Batch SGD相對於One Example SGD的兩個優勢：梯度更新方向更準確；平行計算

批標準化 Batch Normalization

什麼是BN 變換後的各個維度的均值為0,方差為1,通過這樣的操作將每一層，每個神經元的輸出都變為服從同一分佈的變數，但是這樣的操作會改變網路的表徵能力

1、Batch Normalization

背景：由於Internal Covariate Shift(Google)【內部協變數轉移， ICS】效應，即深度神經網路涉及到很多層的疊加，而每一層的引數更新會導致上層的輸入資料分佈發生變化，通過層層疊加，高層的輸入分佈變化會非常劇烈

Batch Normalization

BN回顧首先Batch Normalization 中的Normalization被稱為標準化，通過將資料進行平和縮放拉到一個特定的分佈。BN就是在batch維度上進行資料的標準化。BN的引入是用來解決 internal covariate shift 問題，即訓練迭

黑猿大叔-譯文 | TensorFlow實現Batch Normalization

原文：Implementing Batch Normalization in Tensorflow（https://r2rt.com/implementing-batch-normalization-in-tensorflow.html）

資料批處理神器-Spring Batch(1)簡介及使用場景

tags： springbatch 1.引言最近使用Spring Batch進行做資料遷移、資料同步、資料批處理等工作，感嘆Spring Batch設計之簡潔，對批處理程式設計的抽象能力之強大。

快速使用元件-spring batch(3)讀檔案資料到資料庫

tags： springbatch 1.引言上一篇文章《快速瞭解元件-spring batch(2)之helloworld》對Spring Batch進行了入門級的開發，也對基本的元件有了一定的瞭解。但實際開發過程中，更多的是涉及檔案及資料庫的操作，以定時

快速瞭解元件-spring batch(2)之helloworld

tags： springbatch 1.引言前面《資料批處理神器-Spring Batch(1)簡介及使用場景》已經介紹了Spring Batch是一個輕量級，完善的批處理框架，它使用起來簡單，方便，比較適合有點程式設計基礎（特別是使用Spring及S

增量同步-spring batch(6)動態引數繫結與增量同步

tags：springbatch 1.引言上一篇《便捷的資料讀寫-spring batch(5)結合beetlSql進行資料讀寫》中使用Spring Batch及BeetlSql，對資料庫讀寫元件進行資料庫同步，實際上是全量同步。全量同步的問題在於每次需要讀取

決戰資料庫-spring batch(4)資料庫到資料庫

tags：springbatch 1.引言上一篇文章《快速使用元件-spring batch(3)讀檔案資料到資料庫》對Spring Batch的讀、處理、寫元件進行了介紹，並且以實際案例使用了FlatFileItemReader讀文字檔案，並把每行資料對映為實

mongo同步-spring batch(8)的mongo讀寫元件使用

tags: springbatch mongodb 1.引言之前對Spring Batch的通過例項的方式進行了介紹，有興趣的可見以下文章：

Spring Batch批處理框架使用解析

這篇文章主要介紹了Spring Batch批處理框架使用解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

pytorch的batch normalize使用詳解

torch.nn.BatchNorm1d() 1、BatchNorm1d(num_features,eps = 1e-05,momentum=0.1,affine=True) 對於2d或3d輸入進行BN。在訓練時，該層計算每次輸入的均值和方差，並進行平行移動。移動平均預設的動量為0.1。在驗證時

tensorflow tf.train.batch之資料批量讀取方式

在進行大量資料訓練神經網路的時候，可能需要批量讀取資料。於是參考了這篇文章的程式碼，結果發現數據一直批量迴圈輸出，不會在資料的末尾自動停止。

使用Tensorflow將自己的資料分割成batch訓練例項

學習神經網路的時候，網上的資料集已經分割成了batch，訓練的時候直接使用batch.next()就可以獲取batch，但是有的時候需要使用自己的資料集，然而自己的資料集不是batch形式，就需要將其轉換為batch形式，本文將介紹

在tensorflow中實現去除不足一個batch的資料

我就廢話不多說了，直接上程式碼吧！ #-*- coding:utf-8 -*- import tensorflow as tf import numpy as np

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

在上一篇文章tensorflow入門：tfrecord 和tf.data.TFRecordDataset的使用裡，講到了使用如何使用tf.data.TFRecordDatase來對tfrecord檔案進行batch讀取，即使用dataset的batch方法進行；但如果每條資料的長度不一樣（

Batch Normalization

BN回顧

一般來說，BN有兩個優點：

當然，BN的使用也有兩個前提：

再來回顧一下BN的具體做法：

訓練的時候：使用當前batch統計的均值和方差對資料進行標準化，同時優化優化gamma和beta兩個引數。另外利用指數滑動平均收集全域性的均值和方差。

測試的時候：使用訓練時收集全域性均值和方差以及優化好的gamma和beta進行推理。

可以看出，要想BN真正work，就要保證訓練時當前batch的均值和方差逼近全部資料的均值和方差。

相關推薦