Batch Normalization文章學習筆記

阿新 • • 發佈：2018-12-12

BN學習筆記

Batch Normalization的提出

BN是谷歌提出的一種深度學習,網路優化的結構,能夠加速網路的訓練. 文章在提出方法之前,對之前的一些成果進行了回顧包括

深度學習網路在訓練過程中,訓練變慢的原因:隨著網路深度的加深,由於訓練過程的資訊前向傳遞的過程中,一旦前一層的Layer的資訊的distribution發生改變.對後面的分佈也隨之改變(文章中稱為Internal Covariate Shift),隨著深度的逐漸深入資訊的distrution也會發生改變,而這些又需要重新學習,這造成了深度學習訓練困難的難題(包括模型梯度爆炸或者消逝).原文也回顧了一些經驗上的解決方法: ReLu結構,權重初值的小心的初始化,網路模型分步訓練等等…
文章將問題歸結到Layer輸出資訊的Internal Covariate Shift以後,說了一些前人與之相關的類似的工作,例如對資料集進行白化,或者簡單的中心化都能夠加速網路的訓練使之達到比較好的訓練效果,但是如果要計算資料集的協方差矩陣,存在很大的計算量,包括求逆矩陣等等,這會帶來很大的計算複雜度,所以原文提出了一種簡化的方法對每層的的輸出進行尺度變換

$\mu=\frac{1}{m}\sum_{i=1}^m{x_i}$ $\sigma^2=\frac{1}{m}\sum_{i=1}^m{(x_i-\mu)^2}$

$σ^{2} = m 1 i = 1 \sum m (x_{i} - μ)^{2}$ $\hat{x}=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}$ $\hat{x}$ 是變換後的一個尺度無關的變數,經過這一層以後變數被固定在了一個尺度無關的區域,然後對 $\hat{x}$ 進行線性變換 $y=\gamma*\hat{x}+\beta$ 其中 $y , \beta$ 都是自動學習的變數,一旦訓練完成後,就屬於固定不變的數值了在驗證集中,由於沒有batch的概念,所以網路之前的引數都是 $E(x) \quad Var[x]$ 使用之前的穩定的數值,這點要特別注意. $E(x)=E_b(\mu)$ $Var(\sigma^2)=\frac{m}{m-1}E(\sigma^2)$
最後對BN對梯度的改善做了一些說明BN不改變輸出相對於輸入的梯度,當梯度變大時會減小輸出相對於權值的梯度,增加網路的穩定性,防止模型崩潰 $\frac{\partial{BN(Wu)}}{\partial{u}}=\frac{\partial{BN(\alpha Wu)}}{\partial{u}}$ $\frac{\partial{BN(Wu)}}{\partial{u}}=\frac{1}{\alpha}\frac{\partial{BN(\alpha Wu)}}{\partial{W}}$

總結:在知乎看到的帖子,對於BN的原理的揭示重點是放在了梯度上,BN最重要的是對梯度進行了優化,大概率防止了原來模型中因為BP鏈式求導帶來的累積乘法項帶來的梯度消逝和爆炸.個人感覺也傾向於這點. BN雖然有效,但是理論依據個人感覺也並沒有那麼充分,有些推理過程中的論斷更多的依賴於實踐經驗,而不是數學…

Batch Normalization文章學習筆記

BN學習筆記 Batch Normalization的提出 BN是谷歌提出的一種深度學習,網路優化的結構,能夠加速網路的訓練. 文章在提出方法之前,對之前的一些成果進行了回顧包括深度學習網路在訓練

Batch Normalization 學習筆記

吳恩達深度學習筆記（七） —— Batch Normalization

學習 bat 中括號和平一個內容 batch 可能加權主要內容：一.Batch Norm簡介二.歸一化網絡的激活函數三.Batch Norm擬合進神經網絡四.測試時的Batch Norm 一.Batch Norm簡介 1.在機器學習中，我們一般

「學習筆記」批規範化Batch Normalization

機器學習領域有個很重要的假設：IID獨立同分布假設，就是假設訓練資料和測試資料是滿足相同分佈的，這是通過訓練資料獲得的模型能夠在測試集獲得好的效果的一個基本保障。那BatchNorm的作用是什麼呢？BatchNorm就是在深度神經網路訓練過程中使得每一層神經網路的輸入保持相同分佈的。　　接下來

Batch Normalization學習筆記

Batch Normalization 學習筆記作者：hjimce一、背景意義本篇博文主要講解2015年深度學習領域，非常值得學習的一篇文獻：《Batch Normalization: Accelerating Deep Network Training by Reduci

深度學習（二十九）Batch Normalization 學習筆記

Batch Normalization 學習筆記作者：hjimce 一、背景意義本篇博文主要講解2015年深度學習領域，非常值得學習的一篇文獻：《Batch Normalization: Acc

batch normalization學習理解筆記

batch normalization學習理解筆記最近在Andrew Ng課程中學到了Batch Normalization相關內容,通過查閱資料和原始paper,基本上弄懂了一些演算法的細節部分,現在總結一下. 1. batch normalization演算法思想的來源不妨先看看原文的標題:Batch

Batch normalization:accelerating deep network training by reducing internal covariate shift的筆記

work second mean 其它什麽區域引用 right delta 說實話，這篇paper看了很久，，到現在對裏面的一些東西還不是很好的理解。下面是我的理解，當同行看到的話，留言交流交流啊！！！！！這篇文章的中心點：圍繞著如何降低 internal

Entity Framework學習筆記——EF簡介（一篇文章告訴你什麽是EF）

比較編程 ast 定義 .aspx b2c 文件創建發送 ase Entity Framework是以ADO.NET為基礎，面向數據的“實體框架”。以下簡稱EF。它利用了抽象化數據結構的方式，將每個數據庫對象都轉換成應用程序對象 (entity)，

Hadoop學習筆記系列文章導航

集群影子 1.5 .com 日誌分析尋找思想硬件力量一、為何要學習Hadoop? 　　這是一個信息爆炸的時代。經過數十年的積累，很多企業都聚集了大量的數據。這些數據也是企業的核心財富之一，怎樣從累積的數據裏尋找價值，變廢為寶煉數成金成為當務之急。但數據增長的速

StackExchange.Redis學習筆記(四) 事務控制和Batch批量操作

成了 pan arp 展示關於 public 連續因此用戶 Redis事物 Redis命令實現事務 Redis的事物包含在multi和exec（執行）或者discard（回滾）命令中和sql事務不同的是，Redis調用Exec只是將所有的命令變成一個單元一起執行，期

【深度學習】批歸一化（Batch Normalization）

學習 src 試用其中 put min 平移深度優化方法 BN是由Google於2015年提出，這是一個深度神經網絡訓練的技巧，它不僅可以加快了模型的收斂速度，而且更重要的是在一定程度緩解了深層網絡中“梯度彌散”的問題，從而使得訓練深層網絡模型更加容易和穩定。所以目前

一篇文章帶你入門Linux——馬哥Linux基礎學習筆記

更改密碼自帶 ctime 詳細信息內嵌桌面環境地址定界格式符 p s 1.課程體系：中級：初級：系統基礎中級：系統管理、服務安全及服務管理、Shell腳本；高級： MySQL數據庫； cache & stor

吳恩達深度學習筆記 course2 week3 超參數調試,Batch Norm,和程序框架

etc 值範圍操作 normal 可能標準通過 pan 範圍 1.Tuning Process 對超參數的一個調試處理一般而言,在調試超參數的過程中,我們通常將學習率learning_rate看作是最重要的一個超參數,其次是動量梯度下降因子β(一般為0.9),

論文學習：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

目錄 1. Problem I. Introduction II. Analysis 2. Address the problem I. Batch normalization 及其問題 II. 梯度修正及其問題 III. Key alg

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》論文筆記

1. 論文思想訓練深度學習網路是相當複雜的，每個層的輸入分佈會在訓練中隨著前一層的引數變化而改變。仔細地網路初始化以及較低的學習率下會降低網路的訓練速度，特別是具有飽和非線性的網路。在該論文中將該中現象稱之為“internal covariate shift”，在論文中為了解決該問

深度學習基礎系列（九）| Dropout VS Batch Normalization? 是時候放棄Dropout了深度學習基礎系列（七）| Batch Normalization

　　Dropout是過去幾年非常流行的正則化技術，可有效防止過擬合的發生。但從深度學習的發展趨勢看，Batch Normalizaton(簡稱BN)正在逐步取代Dropout技術，特別是在卷積層。本文將首先引入Dropout的原理和實現，然後觀察現代深度模型Dropout的使用情況，並與BN進行實驗比對，從原

【深度學習】深入理解Batch Normalization批標準化

本文轉載自：郭耀華's Blog https://www.cnblogs.com/guoyaohua/p/8724433.html Batch Normalization作為最近一年來DL的重要成果，已經廣泛被證明其有效性和重要性。雖然有些細節處理還解釋不清其理論原因，但是實踐證明好用才是

【學習筆記】Hands-on ML with sklearn&tensorflow [TF] [2]placeholder nodes實現mini-batch

為了實現mini-batch，需要一種節點，在每次迭代使用一個新的batch，可以用placeholder node實現這個功能。 >>>A = placeholder(tf.float32, shape=(None, 3)) >>>B = A + 5 #這裡

【論文學習】Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Batch Normalization 學習筆記原文地址：http://blog.csdn.net/hjimce/article/details/50866313 作者：hjimce 一、背景意義本篇博文主要講解2015年深度學習領域，非常值得學習的一篇文獻：《Batch Nor

Batch Normalization文章學習筆記

BN學習筆記

Batch Normalization的提出

相關推薦