十三、神經網路梯度不穩定問題（即梯度消失 & 梯度爆炸問題）

阿新 • • 發佈：2019-01-02

本部落格主要內容為圖書《神經網路與深度學習》和National Taiwan University (NTU)林軒田老師的《Machine Learning》的學習筆記，因此在全文中對它們多次引用。初出茅廬，學藝不精，有不足之處還望大家不吝賜教。

歡迎大家在評論區多多留言互動~~~~

1 . 梯度不穩定的淺層分析

眾所周知，使用深層次的神經網路往往會獲得比淺層次神經網路更為優秀的效果。但是深度神經網路的訓練也是是跟令人頭疼的，因為一個深度神經網路train不好的話很有可能在效果上與只含有一個隱層的神經網路的效果相差甚遠。在這裡我們就要分析一下神經網路難以訓練的原因。

造成這種現象的和主要原因在於在深度網路中，不同的層學習的速度差異很大。尤其是，在網路中後面的層學習的情況很好的時候，先前的層次常常會在訓練時停滯不變，基本上學不到東西，這種停滯稱為梯度消失問題（vanishing gradient problem）。這種停滯並不是因為運氣不好。而是，有著更加根本的原因使學習的速度下降了，這些原因和基於梯度的學習技術相關。

在前面的層中的梯度會變得非常大，這也叫做梯度爆炸問題 ( exploding gradient problem），這也沒比梯度消失問題更好處理。更加一般地說，在深度神經網路中的梯度是不穩定的，在前面的層中或會消失，或會激增。這種不穩定性才是深度神經網路中基於梯度學習的根本問題。

2 . 梯度不穩定的原理性分析

假設在神經網路中使用的是 sigmoid 神經元，我們可以得到 sigmoid 導數的函式影象如下所示

圖1. sigmoid函式導數的影象

在上面這個影象中，橫座標是 sigmoid 函式的輸入，即權值輸入 z ，而縱座標是啟用函式的輸出值的導數，我們可以看到，該導數 σ′(0)=0.25，當權值輸入 z 的值越大的時候， Sigmoid 函式導數的值就越接近於0。

首先考慮還沒有開始訓練的初始狀態，如果我們使用標準方法來初始化網路中的權重，那麼會使用一個均值為 0 標準差為 1 的高斯分佈。因此所有的權重通常會滿足|wj|<1

，有了這些資訊們發現會有 wjσ′(zj)<14。從反向傳播計算導數䣌過程入手進行分析，我們比較一下 ∂C/∂b1 和一個更後面一些的偏置的梯度 ∂C/∂b3 。當然，我們還沒有顯式地給出這個表示式，但是計算的方式是一樣的。

圖2. 梯度的複合求導

可以看到在我們進行了所有這些項的乘積時，最終結果肯定會指數級下降：項越多，乘積的下降的越快。這裡我們敏銳地嗅到了梯度消失問題的合理解釋。

為了避免梯度消失問題，我們需要 wjσ′(zj)≥1 。你可能會認為如果 w 很大的時候很容易達成。但是這比看起來還是困難很多。原因在於 σ′(zj) 項同樣依賴於 w，當 w 增加的時候會導致 z 的增加，進而導致 σ′(zj) 項的減小。所以我們在讓 w 變大時，需要同時不讓 σ′(zj) 項變小是很困難的。

也距離說明一下題都爆炸的原因。當權值輸入為0，但是引數 w 已經恨到的時候，這是根據梯度的計算公式就會發現梯度會變得很大。

如果在某一個神經元出現了這樣的情況，那麼在複雜網路中根據反向傳播中的四個基本等式這也是同樣會出現的。

綜上，根本的問題其實並非是梯度消失問題或者激增的梯度問題，而是在前面的層上的梯度是來自後面的層上項的乘積。當存在過多的層次時，就出現了內在本質上的不穩定場景。唯一讓所有層都接近相同的學習速度的方式是所有這些項的乘積都能得到一種平衡。如果沒有某種機制或者更加本質的保證來達成平衡，那網路就很容易不穩定了。簡而言之，真實的問題就是神經網路受限於不穩定梯度的問題。所以，如果我們使用標準的基於梯度的學習演算法，在網路中的不同層會出現按照不同學習速度學習的情況。

如本篇部落格沒有解決你的問題可在評論區留言，如果能幫上的一定會幫助；
如果覺得解決了你的問題請頂一下 ~；
也歡迎指導、提問、留言~~~~

十三、神經網路梯度不穩定問題（即梯度消失 & 梯度爆炸問題）

本部落格主要內容為圖書《神經網路與深度學習》和National Taiwan University (NTU)林軒田老師的《Machine Learning》的學習筆記，因此在全文中對它們多次引用。初出茅廬，學藝不精，有不足之處還望大家不吝賜教。

訓練神經網路的簡單例子（TensorFlow平臺下Python實現）

本篇文章主要通過一個簡單的例子來實現神經網路。訓練資料是隨機產生的模擬資料集，解決二分類問題。下面我們首先說一下，訓練神經網路的一般過程： 1.定義神經網路的結構和前向傳播的輸出結果 2.定義損失函

神經網路貸款風險評估（base on keras and python ）

用我兒子的話說，有一天啊,小烏龜遇見小兔子……… 有一天，我在網上看到這樣一片文章，決策書做貸款決策分析。 import pandas as pd df = pd.read_csv('loans.csv') #print(df.he

神經網路優化演算法一（梯度下降、學習率設定）

1、梯度下降法梯度下降演算法主要用於優化單個引數的取值，而反向傳播演算法給出了一個高效的方式在所有的引數上使用梯度下降演算法，從而使得神經網路模型在訓練資料上的損失函式儘可能小。反向傳播演算法是訓練神經網路的核心演算法，它可以根據定義好的損失函式優化神經網路中引數的取值，從而使神經網路的模型在

聚類程式（彙總）k-means、層次聚類、神經網路聚類、高斯混合聚類等

利用不同方法對資料進行聚類，參考至：周志華機器學習 %% 利用不同方法對債券樣本進行聚類 %說明 %分別採用不同的方法，對資料進行聚類 %kmens可以選擇的pdist/clustering距離 % 'sqeuclidean' 'cityblock

神經網路優化演算法二（正則化、滑動平均模型）

1、神經網路進一步優化——過擬合與正則化過擬合，指的是當一個模型過為複雜後，它可以很好的“記憶”每一個訓練資料中隨機噪音的部分而忘了要去“學習”訓練資料中通用的趨勢。舉一個極端的例子，如果一個模型中的引數比訓練資料的總數還多，那麼只要訓練資料不衝突，這個模型完全可以記住所有訓練資料

六、改進神經網路的學習方法（2）：Softmax輸出層

AI（1）認知人工智慧、機器學習、神經網路、深度學習。

寬為限緊用功功夫到滯塞通開篇 AI領域是個水很深的新領域，對於非科學研究專業人士來說更是深不可測。選擇自己喜歡的學科，興趣是最好的老師，攻克下去總會有意想不到的收穫。AI時代，我們要更加努力！什麼是人工智慧？以下內容摘自知乎什

Coursera吳恩達《優化深度神經網路》課程筆記（3）-- 超引數除錯、Batch正則化和程式設計框架

上節課我們主要介紹了深度神經網路的優化演算法。包括對原始資料集進行分割，使用mini-batch gradient descent。然後介紹了指數加權平均（Exponentially weighted averages）的概念以及偏移校正（bias corr

五、改進神經網路的學習方法（1）：交叉熵代價函式

神經網路例程-使用（3-1）結構的神經網路實現與、或、異或三種邏輯運算

以下程式碼來自Deep Learning for Computer Vision with Python第十章。本例程需要在同一檔案內新建四個檔案。分別是1、perceptron.py；2、perceptron_or.py；3、perceptron_and.py；4、pe

太深了，梯度傳不下去，於是有了highway。幹脆連highway的參數都不要，直接變殘差，於是有了ResNet。強行穩定參數的均值和方差，於是有了BatchNorm。RNN梯度不穩定，於是加幾個通路和門控，於是有了LSTM。 LSTM簡化一下，有了GRU。

梯度直接 ID orm rop 發展均值 nor 噪聲請簡述神經網絡的發展史sigmoid會飽和，造成梯度消失。於是有了ReLU。ReLU負半軸是死區，造成梯度變0。於是有了LeakyReLU，PReLU。強調梯度和權值分布的穩定性，由此有了ELU，以及較新的SELU

十三、神經網路梯度不穩定問題（即梯度消失 & 梯度爆炸問題）

1 . 梯度不穩定的淺層分析

2 . 梯度不穩定的原理性分析

十三、神經網路梯度不穩定問題（即梯度消失 & 梯度爆炸問題）

訓練神經網路的簡單例子（TensorFlow平臺下Python實現）

神經網路貸款風險評估（base on keras and python ）

神經網路優化演算法一（梯度下降、學習率設定）

聚類程式（彙總）k-means、層次聚類、神經網路聚類、高斯混合聚類等

神經網路優化演算法二（正則化、滑動平均模型）

六、改進神經網路的學習方法（2）：Softmax輸出層

AI（1）認知人工智慧、機器學習、神經網路、深度學習。

Coursera吳恩達《優化深度神經網路》課程筆記（3）-- 超引數除錯、Batch正則化和程式設計框架

五、改進神經網路的學習方法（1）：交叉熵代價函式

神經網路例程-使用（3-1）結構的神經網路實現與、或、異或三種邏輯運算

太深了，梯度傳不下去，於是有了highway。幹脆連highway的參數都不要，直接變殘差，於是有了ResNet。強行穩定參數的均值和方差，於是有了BatchNorm。RNN梯度不穩定，於是加幾個通路和門控，於是有了LSTM。 LSTM簡化一下，有了GRU。

深度學習基礎--卷積神經網路的不變性

kreas搭建神經網路預測波士頓房價（手寫K折交叉驗證）

分享《神經網路與深度學習（美）Michael Nielsen 著》中文版PDF+英文版PDF+原始碼

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

深度學習 --- 神經網路的學習原理（學習規則）

神經網路系列學習筆記（一）

人工智慧、機器學習、深度學習、神經網路概念說明

2. DNN神經網路的反向更新（BP）

十三、神經網路梯度不穩定問題（即梯度消失 & 梯度爆炸問題）

1 . 梯度不穩定的淺層分析

2 . 梯度不穩定的原理性分析

相關推薦