關於深度網路中的Normalization：BN/RBN/WN/LN的記錄

阿新 • • 發佈：2018-12-15

深度前饋網路中前層輸入的變化往往會引起後面層的變化，後面的層需要不斷地調整自己的引數去適應前層的輸入變化，這被稱為internal covariance shift。這不僅會使網路訓練變得緩慢，同時會讓一些非線性啟用函式如sigmoid更容易進入飽和區。

傳統的方法通過採用白化對樣本進行預處理，讓樣本的特徵之間獨立同分布，來解決這個問題。如何對深度網路進行歸一化？計算全部樣本某個特徵的均值與方差，對特徵進行標準化。然而，這種做法往往計算量較大。有人提出了bacth normalization。首先，將每個batch的樣本特徵進行標準化。然而，通過簡單的標準化，會導致改變原有引數的分佈：網路後面的層努力調整自己的分佈去適應前層的輸入，標準化卻讓它丟失了自己的分佈。因此，作者在標準化的基礎上又提出了通過scale與bias兩個引數將標準化後的資料還原成原來的分佈。經過batch normalization，網路更加穩定。同時，batch normalization對每個batch樣本進行相同的操作，使得網路不依賴於單個樣本，因此也達到了一種正則化的效果。具體過程如下：

Batch normalization可以應用於卷積網路中。由於卷積網路中的每個feature map表示相同的特徵，為了不改變卷積網路的原有性質，因此，在卷積網路中，每個feature map都有獨立的scale與bias引數。

是否可以將batch normalization應用於rnn等迴圈神經網路呢。將rnn的每個時間步看成深度網路的每一層，即可以轉化成前饋神經網路。那麼，batch normalization也可以套用到rnn中了。然而，通過實驗發現不同時間步之間共享均值與方差，效果並不是很好。在此基礎上，有人提出了recurrent batch normalization。首先，既然時間步共享效果不好，那就不共享了，對每個時間步分別進行歸一化。然而，測試時，萬一訓練集的最大時間步小於測試集的訓練步呢。作者的方法也很簡單，確定一個Tmax最大時間步，對超過最大時間步的測試集進行截斷就可以了。同時，作者發現之前實驗效果不行還存在另外一個原因，就是一般會將scale係數初始化為1。對於tanh啟用函式，當輸入的標準差越小，tanh的導數將會越接近於1。隨著標準差增大，導數將會趨近於0，進入飽和區。因此，採用較小的scale引數，效果會更好。

深度網路往往是一個基於梯度下降的優化過程，優化的難易程度取決於海森矩陣的條件數，它反映了誤差的曲面特徵，如區域性極小值、鞍點等，這樣的網路往往受引數的影響較大。如何通過調整引數讓網路更易訓練？傳統的做法在網路訓練之前進行precondition，將梯度乘以一個fisher資訊矩陣的逆，來模擬自然梯度，自然梯度可以讓引數在變化相同的情況下，讓目標值變化較大。類似的，batch normalization也是如此，它沒有進行preondition，但它的過程可以類似於將fisher資訊矩陣變為單位對角陣的過程。受到batch normalization的啟發，同時為了解決batch normalization計算記憶體較大以及在rnn中不太適用的問題，有人提出了weight normalization。

Weight normalization也是一個將fisher資訊矩陣對角化的重引數化的過程。Weight normalization將權重的更新分解為方向的更新與大小的更新，見公式2。它完成了兩件事：1、對梯度的更新進行縮放，2、將梯度向量投影到權重向量之外。這樣不僅可以使梯度的大小變化與權重的大小變化直接相關，同時由於投影，可以減少權重向量的噪聲對梯度的影響。由於batch normalization能夠固定每層網路輸入特徵的方差與均值，而weight normalization不可以，因此可以在初始化時將scale與bias引數初始為關於樣本的方差與均值的函式。

同樣為了解決rnn的正規化問題，有人提出了layer normalization。與之前的recurrent normalization對每個time step進行歸一化不同的是，層歸一化是對rnn縱向的歸一化。與之前batch normalization或weight normalization不同的是，層歸一化不是一個重新引數化的過程。層歸一化對每一層的輸入的隱層單元進行標準化：同一層隱層單元採用相同的標準化，對於同一層的每個時間步採用相同的scale與bias引數，不同樣本的隱層單元輸入不同，因此進行不同的標準化，這樣單個樣本也可以進行標準化。

以上幾種normalization，其實是互相聯絡的，它們都是對輸入進行標準化，並進行scale與偏移，詳見公式4。對於weight normalization，也是相同的形式，只是它的均值為0，方差為||V||。這幾種normalization都有一定伸縮不變性，如權重伸縮不變性以及資料伸縮不變性，使網路訓練更加迅速與穩定，減少對學習率的要求。

從引數空間的角度也可以理解這些normalization。模型學習到的引數可以形成一個光滑的流形空間，可以反映各種輸入與輸出的關係。如何衡量引數的變化引起輸出分佈的變化呢？將輸出概率看作黎曼流形，通過引數變化前後輸出概率的kl散度可以反映輸出分佈的變化。通過近似的泰勒展開式，可以得到當引數變化時，輸出概率的分佈變化近似於與fisher資訊矩陣相關的引數變化。通過分析不同的normalization的fisher資訊矩陣，其中normalize後的fisher資訊矩陣由scale引數和方差變化控制。因此，當引數變化較大時，其輸出的分佈變化不會很大，訓練會更加更穩定。同時，通過normalize，引數的變化主要由預測誤差決定，而不經過normalize的網路訓練主要由引數的範數決定。因此經過normalize後訓練更加魯棒。

[1] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

[2] RECURRENT BATCH NORMALIZATION

[3] Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks

[4] Layer Normalization

關於深度網路中的Normalization：BN/RBN/WN/LN的記錄

關於深度網路中的Normalization：BN/RBN/WN/LN的記錄

深度學習---煉丹trick之Normalization（BN/LN/WN/CN）

深度學習：神經網路中的啟用函式

詳解深度學習中的Normalization，不只是BN（2）

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

機器學習與深度學習系列連載：第二部分深度學習（十五）迴圈神經網路 3（Gated RNN - GRU）

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN - LSTM ）

機器學習與深度學習系列連載：第二部分深度學習（十三）迴圈神經網路 1（Recurre Neural Network 基本概念）

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

機器學習與深度學習系列連載：第二部分深度學習（十）卷積神經網路 1 Convolutional Neural Networks

機器學習：深度學習中的遷移學習

訓練神經網路中最基本的三個概念和區別：Epoch, Batch, Iteration

深度學習布料交換：在Keras中實現條件類比GAN

六天搞懂“深度學習”之三：多層神經網路

六天搞懂“深度學習”之二：神經網路

如何利用Keras中的權重約束減少深度神經網路中的過擬合

【2014.10】神經網路中的深度學習綜述

六天搞懂“深度學習”之四：基於神經網路的分類

【讀書1】【2017】MATLAB與深度學習——單層神經網路的訓練：增量規則(3)

關於深度網路中的Normalization：BN/RBN/WN/LN的記錄

相關推薦