《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

阿新 • • 發佈：2021-01-02

字可以看出，BN是用來解決“Internal Covariate Shift”問題的，那麼首先得理解什麼是“Internal Covariate Shift”？
　　論文首先說明Mini-Batch SGD相對於One Example SGD的兩個優勢：梯度更新方向更準確；平行計算速度快；
（為什麼要說這些？因為BatchNorm是基於Mini-Batch SGD的，所以先誇下Mini-Batch SGD，當然也是大實話）；
然後吐槽下SGD訓練的缺點：超引數調起來很麻煩。（作者隱含意思是用BN就能解決很多SGD的缺點）
　　接著引入covariate shift的概念：如果ML系統例項集合<X,Y>中的輸入值X的分佈老是變，這不符合IID假設，
網路模型很難穩定的學規律，這不得引入遷移學習才能搞定嗎，我們的ML系統還得去學習怎麼迎合這種分佈變化啊。
對於深度學習這種包含很多隱層的網路結構，在訓練過程中，因為各層引數不停在變化，所以每個隱層都會面臨covariate shift的問題，
也就是在訓練過程中，隱層的輸入分佈老是變來變去，這就是所謂的“Internal Covariate Shift”，Internal指的是深層網路的隱層，
是發生在網路內部的事情，而不是covariate shift問題只發生在輸入層。
　　然後提出了BatchNorm的基本思想：能不能讓每個隱層節點的啟用輸入分佈固定下來呢？這樣就避免了“Internal Covariate Shift”問題了。
    BN不是憑空拍腦袋拍出來的好點子，它是有啟發來源的：之前的研究表明如果在影象處理中對輸入影象進行白化（Whiten）操作的話——所謂白化，
就是對輸入資料分佈變換到0均值，單位方差的正態分佈——那麼神經網路會較快收斂，那麼BN作者就開始推論了：影象是深度神經網路的輸入層，
做白化能加快收斂，那麼其實對於深度網路來說，其中某個隱層的神經元是下一層的輸入，意思是其實深度神經網路的每一個隱層都是輸入層，
不過是相對下一層來說而已，那麼能不能對每個隱層都做白化呢？這就是啟發BN產生的原初想法，而BN也確實就是這麼做的，
可以理解為對深層神經網路每個隱層神經元的啟用值做簡化版本的白化操作。
    BN的基本思想其實相當直觀：因為深層神經網路在做非線性變換前的啟用輸入值（就是那個x=WU+B，U是輸入）隨著網路深度加深或者在訓練過程中，
其分佈逐漸發生偏移或者變動，之所以訓練收斂慢，一般是整體分佈逐漸往非線性函式的取值區間的上下限兩端靠近
（對於Sigmoid函式來說，意味著啟用輸入值WU+B是大的負值或正值），所以這導致反向傳播時低層神經網路的梯度消失，
這是訓練深層神經網路收斂越來越慢的本質原因，而BN就是通過一定的規範化手段，把每層神經網路任意神經元這個輸入值的分佈強行拉回到均值為0
方差為1的標準正態分佈，其實就是把越來越偏的分佈強制拉回比較標準的分佈，這樣使得啟用輸入值落在非線性函式對輸入比較敏感的區域，
這樣輸入的小變化就會導致損失函式較大的變化，意思是這樣讓梯度變大，避免梯度消失問題產生，而且梯度變大意味著學習收斂速度快，能大大加快訓練速度。
　　THAT’S IT。其實一句話就是：對於每個隱層神經元，把逐漸向非線性函式對映後向取值區間極限飽和區靠攏的輸入分佈強制拉回到均值為0
方差為1的比較標準的正態分佈，使得非線性變換函式的輸入值落入對輸入比較敏感的區域，以此避免梯度消失問題。因為梯度一直都能保持比較大的狀態，
所以很明顯對神經網路的引數調整效率比較高，就是變動大，就是說向損失函式最優值邁動的步子大，也就是說收斂地快。BN說到底就是這麼個機制，
方法很簡單，道理很深刻。
https://www.cnblogs.com/guoyaohua/p/8724433.html

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

字可以看出，BN是用來解決“Internal Covariate Shift”問題的，那麼首先得理解什麼是“Internal Covariate Shift”？　　論文首先說明Mini-Batch SGD相對於One Example SGD的兩個優勢：梯度更新方向更準確；平行計算

Accelerating Deep Network Training by Reducing Internal Covariate Shift-BN歸一化解讀

作者：18屆CYL 日期：2020-9-1 期刊：arxiv 標籤： BN歸一化論文：《Batch Nomalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift》

Building your Deep Neural Network: Step by Step

Building your Deep Neural Network: Step by Step Welcome to your week 4 assignment (part 1 of 2)! You have previously trained a 2-layer Neural Network (with a single hidden layer). This week, you will

Caffe Batch Normalization層解析

轉自：https://blog.csdn.net/weixin_37970694/article/details/79485158 BatchNormalization(BN)的提出：paper[連結]（https://arxiv.org/pdf/1502.03167.pdf）論文中對BN的解釋：Making normalization a part of t

Pytorch Batch Normalization 中 track_running_stats問題

Batch Normalization，批規範化 BatchNormalization（簡稱為BN）[2]，中文翻譯成批規範化，是在深度學習中普遍使用的一種技術，通常用於解決多層神經網路中間層的協方差偏移(Internal Covariate Shift)問題，類似於網

批量歸一化（BN, Batch Normalization）

　　現在的神經網路通常都特別深，在輸出層向輸入層傳播導數的過程中，梯度很容易被啟用函式或是權重以指數級的規模縮小或放大，從而產生“梯度消失”或“梯度爆炸”的現象，造成訓練速度下降和

[Javascript] Broadcaster + Operator + Listener pattern -- 25. Save Network Requests by Using a Cache

Caches exist to make things faster (at the expense of taking up more memory and possibly outdated results). Our live search is a great use case for implementing a cache, so let\'s set up amapBroadcast

Building your Recurrent Neural Network - Step by Step

所需檔案：本地下載 Building your Recurrent Neural Network - Step by Step Welcome to Course 5\'s first assignment! In this assignment, you will implement key components of a Recurrent Neural Network

MLP(SGD or Adam) Perceptron Neural Network Working by Pytorch(including data preprocessing)

通過MLP多層感知機神經網路訓練模型，使之能夠根據sonar的六十個特徵成功預測物體是金屬還是石頭。由於是簡單的linearr線性仿射層，所以網路模型的匹配度並不高。

批標準化 Batch Normalization

什麼是BN 變換後的各個維度的均值為0,方差為1,通過這樣的操作將每一層，每個神經元的輸出都變為服從同一分佈的變數，但是這樣的操作會改變網路的表徵能力

論文翻譯：2021_Decoupling magnitude and phase optimization with a two-stage deep network

論文地址：兩階段深度網路的解耦幅度和相位優化論文程式碼：引用格式：Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-st

1、Batch Normalization

背景：由於Internal Covariate Shift(Google)【內部協變數轉移， ICS】效應，即深度神經網路涉及到很多層的疊加，而每一層的引數更新會導致上層的輸入資料分佈發生變化，通過層層疊加，高層的輸入分佈變化會非常劇烈

Batch Normalization

BN回顧首先Batch Normalization 中的Normalization被稱為標準化，通過將資料進行平和縮放拉到一個特定的分佈。BN就是在batch維度上進行資料的標準化。BN的引入是用來解決 internal covariate shift 問題，即訓練迭

黑猿大叔-譯文 | TensorFlow實現Batch Normalization

原文：Implementing Batch Normalization in Tensorflow（https://r2rt.com/implementing-batch-normalization-in-tensorflow.html）

基於圖嵌入的高斯混合變分自編碼器的深度聚類(Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG)

基於圖嵌入的高斯混合變分自編碼器的深度聚類 Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG

[CVPR 2020] 3DRegNet: A Deep Neural Network for 3D Point Registration

零、概要論文: 3DRegNet: A Deep Neural Network for 3D Point Registrationtag: CVPR 2020; Registration程式碼: https://github.com/3DVisionISR/3DRegNet作者: G. Dias Pais, Srikumar Ramalingam, Ven

Batch-Constrained deep Q- Learning(BCQ)

論文全稱：Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup)

[深度學習] Deep & Cross Network (DCN)

Deep & Cross Network(DCN)在 2017 年由 google 和 Stanford 共同發表的一篇論文中被提出，類似於Wide & Deep Network(WDL)，是用複雜網路預估CTR的一種方法。

DDRG翻譯.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

摘要由於場景文字的多樣性和複雜性，任意形狀文字檢測是一項具有挑戰性的任務。在本文中，我們提出了一種新穎的統一關係推理圖網路用於任意形狀的文字檢測。在我們的方法中，一個獨創的區域性圖構建了文字

關於Training deep neural networks for binary communication with the Whetstone method的程式碼實現

技術標籤：文獻閱讀脈衝神經網路 GitHub網址如下： https://github.com/SNL-NERL/Whetstone/blob/master/examples/adaptive_mnist.py 實現過程中解決的問題： 1.Ubuntu下，python+TensorFlow+Keras版本問題經檢

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

相關推薦