1. 程式人生 > >梯度消失梯度爆炸

梯度消失梯度爆炸

傳播 得到 bsp 範圍 ava 消失 權重 控制 java

https://blog.csdn.net/cppjava_/article/details/68941436

技術分享圖片

2.解決梯度爆炸問題的方法

通常會使用一種叫”clip gradients “的方法. 它能有效地權重控制在一定範圍之內.
算法步驟如下。

    • 首先設置一個梯度閾值:clip_gradient
    • 在後向傳播中求出各參數的梯度,這裏我們不直接使用梯度進去參數更新,我們求這些梯度的l2範數
    • 然後比較梯度的l2範數||g||與clip_gradient的大小
    • 如果前者大,求縮放因子clip_gradient/||g||, 由縮放因子可以看出梯度越大,則縮放因子越小,這樣便很好地控制了梯度的範圍
    • 最後將梯度乘上縮放因子便得到最後所需的梯度
    • https://blog.csdn.net/u010814042/article/details/76154391

梯度消失梯度爆炸