梯度彌散和梯度爆炸

阿新 • • 發佈：2019-01-02

問題描述

先來看看問題描述。

當我們使用sigmoid funciton 作為啟用函式時，隨著神經網路hidden layer層數的增加，訓練誤差反而加大了，如上圖所示。

下面以2層隱藏層神經網路為例，進行說明。

結點中的柱狀圖表示每個神經元引數的更新速率(梯度)大小，有圖中可以看出，layer2整體速度都要大於layer1.

我們又取每層layer中引數向量的長度來粗略的估計該層的更新速率，得到下圖。

可以看出，layer2的速率都要大於layer1.

然後我們繼續加深神經網路的層數。

可以得到下面的結論：

靠近輸出層的hidden layer 梯度大，引數更新快，所以很快就會收斂；

而靠近輸入層的hidden layer 梯度小，引數更新慢，幾乎就和初始狀態一樣，隨機分佈。

在上面的四層隱藏層網路結構中，第一層比第四層慢了接近100倍！！

這種現象就是梯度彌散（vanishing gradient problem）。而在另一種情況中，前面layer的梯度通過訓練變大，而後面layer的梯度指數級增大，這種現象又叫做梯度爆炸(exploding gradient problem)。

總的來說，就是在這個深度網路中，梯度相當不穩定(unstable)。

直觀說明

那麼為何會出現這種情況呢？

現在我們來直觀的說明一下。

在上面的升級網路中，我們隨意更新一個引數，加上一個Δw，(我們知道可以使用引數變化量來估計偏導數的大小)這個引數的更新會隨著網路向前傳播。

而根據sigmoid的特點，它會將+∞～-∞之間的輸入壓縮到0～1之間。當input的值更新時，output會有很小的更新。

又因為上一層的輸出將作為後一層的輸入，而輸出經過sigmoid後更新速率會逐步衰減，直到輸出層只會有微乎其微的更新。

數學說明

如果上面的例子還不夠清楚，下面我們來看看，不是很嚴密的數學證明。

假設上面是一個三層hidden layer的神經網路，每一層只有一個neuron，我們下面的分析僅僅針對bias，w也是可以類比的。

C是損失函式。

每一層的輸入為z，輸出為a，其中有z = w*a + b。

上面的等式∂c/∂b1由每一層的導數乘上對應的w最後乘上∂c/∂a4組成。

我們給b1一個小的改變Δb1，它會在神經網路中起連鎖反應，影響最後的C。

我們使用變化率∂c/∂b1～Δc/Δb1來估計梯度。接下來可以進行遞推了。

先來計算Δb1對a1的影響。σ(z)為sigmoid函式。

結果正好是上面∂c/∂b1等式的第一項，然後影響下一層的輸出。

將上面推匯出來的兩個式子聯合起來，就得到b1對於z2的影響：

再和∂c/∂b1等式對比一下，驚喜！！

然後的推導就是完全一樣了，每個neuron的導數，乘上w，最終得到C的變化量：

兩邊除以Δb1：

sigmoid導數影象：

sigmoid導數在0取得最大值1/4。

如果我們使用均值為0，方差為1的高斯分佈初始化引數w，有|w| < 1,所以有：

可以看出隨著網路層數的加深的term也會變多，最後的乘積會指數級衰減，

這就是梯度彌散的根本原因。

而有人要問在train的時候如果引數w變得足夠大，就可能使|w|>1,就不滿足了。

的確這樣不會有梯度彌散問題，根據我們之前的分析，當|W|>1時，會使後面的layer引數指數級增加，從而引發梯度爆炸。

解決方法

梯度不穩定的方法就是，使用其他啟用函式替代sigmoid，比如Relu等等，這裡就不細說了。

參考文獻：http://neuralnetworksanddeeplearning.com/chap5.html#the_vanishing_gradient_problem

梯度彌散和梯度爆炸

問題描述先來看看問題描述。當我們使用sigmoid funciton 作為啟用函式時，隨著神經網路hidden layer層數的增加，訓練誤差反而加大了，如上圖所示。下面以2層隱藏層神經網路為例，進行說明。結點中的柱狀圖表示每個神經元引數的更新速率(梯度)大小，有圖中可以看出，

對於梯度消失和梯度爆炸的理解

分享之間 family -s info 小數 right 也會使用一、梯度消失、梯度爆炸產生的原因　　假設存在一個網絡結構如圖：　　其表達式為：　　若要對於w1求梯度，根據鏈式求導法則，得到的解為：　　通常，若使用的激活函數為sigmoid函數，其

梯度消失和梯度爆炸問題詳解

1.為什麼使用梯度下降來優化神經網路引數？反向傳播（用於優化神網引數）：根據損失函式計算的誤差通過反向傳播的方式，指導深度網路引數的更新優化。採取反向傳播的原因：首先，深層網路由許多線性層和非線性層堆疊而來，每一層非線性層都可以視為是一個非線性函式

梯度消失和梯度爆炸

1.梯度爆炸 1）原因在深層網路或遞迴神經網路中，誤差梯度在更新中累積得到一個非常大的梯度，這樣的梯度會大幅度更新網路引數，進而導致網路不穩定。在極端情況下，權重的值變得特別大，以至於結果會溢位（

RNN 梯度消失和梯度爆炸

為什麼會梯度爆炸或梯度消失：梯度爆炸指的是在訓練時，累計了很大的誤差導數，導致神經網路模型大幅更新。這樣模型會變得很不穩定，不能從訓練資料中很好的進行學習。極端情況下會得到nan. 會發生這個的原因是在神經網路層間不斷的以指數級在乘以導數。補充：雅克比矩陣 -- 函式的一階偏導數以一

神經網路梯度消失和梯度爆炸及解決辦法

關注微信公眾號【Microstrong】,我現在研究方向是機器學習、深度學習，分享我在學習過程中的讀書筆記！一起來學習，一起來交流，一起來進步吧！目錄：（1）神經網路梯度消失與梯度爆炸（2）幾種啟用函式的比較一、神經網路梯度消失與梯度爆炸(1)簡介梯度消失與梯度爆炸層數比較多

深度學習：梯度消失和梯度爆炸

梯度消失主要是因為網路層數太多，太深，導致梯度無法傳播。本質應該是啟用函式的飽和性。 DNN結果出現nan值？梯度爆炸，導致結果不收斂。都是梯度太大惹的禍，所以可以通過減小學習率（梯度變化直接變小）、減小batch size（累積梯度更小）、 features規格化（避

機器學習總結（二）：梯度消失和梯度爆炸

神經網路的訓練過程通常分為兩個階段：前向傳播和反向傳播。前向傳播如下圖所示，原理比較簡單上一層的神經元與本層的神經元有連線，那麼本層的神經元的啟用等於上一層神經元對應的權值進行加權和運算，最後通過一個非線性函式（啟用函式）如ReLu，sigmoid等

深度神經網路為何很難訓練（包含梯度消失和梯度爆炸等）

我選取了原文的部分內容進行轉載。之前我搜索”梯度消失和梯度爆炸“的相關部落格，發現很多都解釋的不是很好，然後看到了極客學院的這篇介紹，感覺介紹的挺詳細，轉載一下，大家一起分享一下~ 到現在為止，本書講神經網路看作是瘋狂的客戶。幾乎我們遇到的所有的網路

梯度消失和梯度爆炸情況詳解

前言本文主要深入介紹深度學習中的梯度消失和梯度爆炸的問題以及解決方案。本文分為三部分，第一部分主要直觀的介紹深度學習中為什麼使用梯度更新，第二部分主要介紹深度學習中梯度消失及爆炸的原因，第三部分對提出梯度消失及爆炸的解決方案。有基礎的同鞋可以跳著閱讀。其中，梯度消失爆

梯度消失和梯度爆炸的原因和解決方案

產生消失的梯度問題的原因注：實際上就是梯度計算過程中，w值和啟用函式的導數值相乘大於1或者小於1的問題，如果是大於1，那麼經歷過很多個隱藏層梯度就會越來越大，即梯度爆炸，如果是小於1當然就是梯度消失啦！！！所以w初始化大，w值和啟用函式的導數值相乘可能越來越大，造成梯

梯度消失和梯度爆炸的解答

層數比較多的神經網路模型在訓練時也是會出現一些問題的，其中就包括梯度消失問題（gradient vanishing problem）和梯度爆炸問題（gradient exploding problem）。梯度消失問題和梯度爆炸問題一般隨著網路層數的增加會變得越來越明顯。例

RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案

1、RNN模型結構　　迴圈神經網路RNN（Recurrent Neural Network）會記憶之前的資訊，並利用之前的資訊影響後面結點的輸出。也就是說，迴圈神經網路的隱藏層之間的結點是有連線的，隱藏層的輸入不僅包括輸入層的輸出，還包括上時刻隱藏層的輸出。下圖為RNN模型結構圖： 2、R

梯度消失和梯度爆炸及解決方案

# 梯度在神經網路中的作用在談梯度消失和梯度爆炸的問題之前，我們先來考慮一下為什麼我們要利用梯度，同時鋪墊一些公式，以便於後面的理解。存在梯度消失和梯度爆炸問題的根本原因就是我們在深度神網路中利用反向傳播的思想來進行權重的更新。即根據損失函式計算出的誤差，然後通過梯度反向傳播來減小誤差、更新權重。

梯度彌散與梯度彌散

損失函數 tput ges xpl 參考文獻聯合其他等等 image 問題描述先來看看問題描述。當我們使用sigmoid funciton 作為激活函數時，隨著神經網絡hidden layer層數的增加，訓練誤差反而加大了，如上圖所示。下面以2層隱藏層神經網

梯度上升和梯度下降

關於梯度上升法和梯度下降法的原理，大多數都是純理論的解釋和公式的推導，沒有一種直觀的表達方式。在這我分別舉出兩個簡單而又直觀的例子，大家就明白了，為什麼梯度下降法一定是減梯度，而梯度上升法一定是加梯度。對於梯度下降法來說，在神經網路中用到，最小化誤差的一種優化方法

關於梯度上升和梯度下降的理解

在求極值的問題中，有梯度上升和梯度下降兩個最優化方法。梯度上升用於求最大值，梯度下降用於求最小值。如logistic迴歸的目標函式：代表的是概率，我們想求概率最大值，即對數似然函式的最大值，所以使用梯度上升演算法。而線性迴歸的代價函式：代

利用opencv函式計算影象的梯度幅度和梯度方向

沒有難點，就是為了方便使用記錄，自己實現的話比較麻煩，直接使用內建函式計算比較省心。重點是這個函式： C++:void gpu::cartToPolar(const GpuMat& x, const GpuMat& y, GpuMat& ma

訓練深度網路的梯度彌散及梯度膨脹問題

在深度網路中，不同層的學習速度差異很大。尤其是在網路後面層學習的情況很好的時候，先前的層常常會在訓練時停止不變，基本上學不到東西，這些原因是與基於梯度的學習方法有關。我們用MNIST數字分類問題作為研究和實驗的物件：這個網路有784個輸入神經元，對應於圖片28*28=7

梯度演算法之梯度上升和梯度下降

開啟微信掃一掃，關注微信公眾號【資料與演算法聯盟】轉載請註明出處：http://blog.csdn.net/gamer_gyt 博主微博：http://weibo.com/234654758 Github：https://github.

梯度彌散和梯度爆炸

問題描述

直觀說明

數學說明

解決方法

相關推薦