batch normalization 理解

阿新 • • 發佈：2018-12-11

對batch normalization 一直屬於一知半解狀態，二面被問的一臉懵逼，所以決定好好理一理這個問題。

1、What is batch normalization？

batch normalization 其實就是對資料做一個批量的規範化操作，使得在深度神經網路訓練過程中使得每一層神經網路的輸入保持相同分佈的。

具體實現過程如下：

A、對於一個mini-batch，求資料的均值，方差。這裡其實是

B、得到歸一化之後的資料x，使得結果（輸出訊號各個維度）的均值為0，方差為1.

C、“scale and shift”操作則是為了讓因訓練所需而“刻意”加入的BN能夠有可能還原最初的輸入。

2、為什麼要做“scale and shift”？

一句話“模型的表達能力不下降”

我是這樣理解的，你的每次資料肯定是不同分佈的，你才能從學到東西嘛，如果你全都歸一化了，就相當於每次資料都變成一樣的了，那人家網路還怎麼學習。

第一步的規範化會將幾乎所有資料對映到啟用函式的非飽和區（線性區），僅利用到了線性變化能力，從而降低了神經網路的表達能力。

於是加了一個scale和shift，這兩個引數可以經過學習得到，意思是通過scale和shift把這個值從標準正態分佈左移或者由移一點並長胖一點或者變瘦一點，每個例項挪動的程度不一樣，這樣等價於非線性函式的值從正中心周圍的線性區往非線性區動了動。

核心思想應該是想找到一個線性和非線性的較好平衡點，既能享受非線性的較強表達能力的好處，又避免太靠非線性區兩頭使得網路收斂速度太慢。

3、Why batch normalization？

是用來解決“Internal Covariate Shift”（隱層中資料分佈不同）。

A、上層引數需要不斷適應新的輸入資料分佈，降低學習速度。

B、資料的分佈一直在發生變換，可能後逐漸像非線性啟用函式的飽和區域移動，如sigmod函式，可能導致後向傳播的時候淺層神經網路的梯度消失，收斂越來越慢。

C、每層的更新都會影響到其它層，因此每層的引數更新策略需要儘可能的謹慎。所以對引數的選擇特別重要。

4、為什麼有效？

A、Normalization 的資料伸縮不變性。

做了batch normalization之後，可以向成強行將資料拉回均值為0，方差為1的標準分佈，使資料回到梯度變化比較大的敏感區域，就可以避免梯度消失，加快訓練速度。

B、Normalization 的權重伸縮不變性。

大概的意思就是，加入BN之後，不管權重怎麼變換，對於梯度的反向傳播都是沒有影響的。所以可以有效的解決梯度消失和梯度爆炸。

C、同時，權重越大的更新時梯度越小。引數的變化就越穩定，相當於實現了引數正則化的效果，避免參數的大幅震盪，提高網路的泛化效能。

5、到底解決了什麼問題？

A、提升了訓練速度，收斂過程大大加快，還能增加分類效果。

B、類似於Dropout的一種防止過擬合的正則化表達方式，所以不用Dropout也能達到相當的效果。

C、另外調參過程也簡單多了，對於初始化要求沒那麼高，而且可以使用大的學習率等。

D、解決梯度消失和梯度爆炸。

6、Where to use BN?

在每一隱層的啟用函式之前，相當於先歸一化，再拿去啟用。

7、什麼時候不要用？

用計算一階二階統計量，均值和方差。不適用於動態網路結構和RNN。

8、什麼時候效果比較好？

每個mini-batch比較接近，和整體資料之間應該近似同分布。

batch normalization 理解

對batch normalization 一直屬於一知半解狀態，二面被問的一臉懵逼，所以決定好好理一理這個問題。 1、What is batch normalization？ batch normalization 其實就是對資料做一個批量的規範化操作，使得在深度神經網路

【深度學習】深入理解Batch Normalization批標準化

本文轉載自：郭耀華's Blog https://www.cnblogs.com/guoyaohua/p/8724433.html Batch Normalization作為最近一年來DL的重要成果，已經廣泛被證明其有效性和重要性。雖然有些細節處理還解釋不清其理論原因，但是實踐證明好用才是

[轉]深入理解Batch Normalization批標準化

這幾天面試經常被問到BN層的原理，雖然回答上來了，但還是感覺答得不是很好，今天仔細研究了一下Batch Normalization的原理，以下為參考網上幾篇文章總結得出。　　Batch Normalization作為最近一年來DL的重要成果，已經廣泛被證明其有效性和重要性。雖然有些細節處理還解釋

理解Batch Normalization

Batch Normalization是在GoogleNet的系列文章第二篇《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出來的

【機器學習trick】Batch-Normalization的理解和研究

Batch-Normalization概述 15年穀歌發表了一篇文章，名字是《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif

batch normalization學習理解筆記

batch normalization學習理解筆記最近在Andrew Ng課程中學到了Batch Normalization相關內容,通過查閱資料和原始paper,基本上弄懂了一些演算法的細節部分,現在總結一下. 1. batch normalization演算法思想的來源不妨先看看原文的標題:Batch

Batch normalization:accelerating deep network training by reducing internal covariate shift的筆記

work second mean 其它什麽區域引用 right delta 說實話，這篇paper看了很久，，到現在對裏面的一些東西還不是很好的理解。下面是我的理解，當同行看到的話，留言交流交流啊！！！！！這篇文章的中心點：圍繞著如何降低 internal

tesnorflow Batch Normalization

graph point ilo eps net store scope psi bat 1.train或者從checkpoint restore後發現moving_mean和moving_variance都是0和1 bn1_mean = graph.get_tensor_

莫煩課程Batch Normalization 批標準化

github cti mas pen get lin pytorch 生成 def for i in range(N_HIDDEN): # build hidden layers and BN layers input

Batch Normalization and Binarized Neural Networks

圖片 -- 比較 9.png 耗時二值化網絡學習 weight s函數 1使用BN進行數據歸一化的原因　　a) 神經網絡學習過程本質就是為了學習數據分布，一旦訓練數據與測試數據的分布不同，那麽網絡的泛化能力也大大降低；　　b) 另外一方面，一旦每批訓練數據的分布各不相

【深度學習】批歸一化（Batch Normalization）

學習 src 試用其中 put min 平移深度優化方法 BN是由Google於2015年提出，這是一個深度神經網絡訓練的技巧，它不僅可以加快了模型的收斂速度，而且更重要的是在一定程度緩解了深層網絡中“梯度彌散”的問題，從而使得訓練深層網絡模型更加容易和穩定。所以目前

Tensorflow Batch normalization函數

最大解釋 batch tails csdn layer 出了 font .net Tensorflow Batch normalization函數覺得有用的話,歡迎一起討論相互學習~Follow Me 參考文獻 stackoverflow上tensorflow實現BN

Batch Normalization層

ali 用處可能性機構一個使用論文現在兩個　　Batch Normalization的加速作用體現在兩個方面：一是歸一化了每層和每維度的scale，所以可以整體使用一個較高的學習率，而不必像以前那樣遷就小scale的維度；二是歸一化後使得更多的權重分界面落在

Batch Normalization原理

mode 個數有一個 orf htm 流程 div filter 範圍 Batch Normalization導讀博客轉載自：https://blog.csdn.net/malefactor/article/details/51476961 作者：張俊林為什

Pytorch中的Batch Normalization操作

from 小數 http 結果 data 特定 -c 作用 run 之前一直和小夥伴探討batch normalization層的實現機理，作用在這裏不談，知乎上有一篇paper在講這個，鏈接這裏只探究其具體運算過程，我們假設在網絡中間經過某些卷積操作之後的輸出的fea

BN(Batch Normalization)

ssi statistic fse 改變分享圖片 turn hsi value beta Batch Nornalization Question? 　　1.是什麽？　　2.有什麽用？　　3.怎麽用？ paper：《Batch Normalization: Accel

Batch Normalization 與Dropout 的沖突

.com drop 產生 rop lan 所有 tps 方差避免　　BN或Dropout單獨使用能加速訓練速度並且避免過擬合　　但是倘若一起使用，會產生負面效果。　　BN在某些情況下會削弱Dropout的效果　　　　對此，BN與Dropout最好不要一起用，

Batch Normalization

ilo 實現它的變換浪費 NPU 出了 axis 運行轉自: http://blog.csdn.net/hjimce/article/details/50866313 https://zhuanlan.zhihu.com/p/38176412 [簡潔] 白化w

Batch Normalization 學習筆記

吳恩達深度學習筆記（七） —— Batch Normalization

學習 bat 中括號和平一個內容 batch 可能加權主要內容：一.Batch Norm簡介二.歸一化網絡的激活函數三.Batch Norm擬合進神經網絡四.測試時的Batch Norm 一.Batch Norm簡介 1.在機器學習中，我們一般

batch normalization 理解

1、What is batch normalization？

2、為什麼要做“scale and shift”？

核心思想應該是想找到一個線性和非線性的較好平衡點，既能享受非線性的較強表達能力的好處，又避免太靠非線性區兩頭使得網路收斂速度太慢。

3、Why batch normalization？

4、為什麼有效？

5、到底解決了什麼問題？

6、Where to use BN?

7、什麼時候不要用？

8、什麼時候效果比較好？

相關推薦