這是RNN教程的第三部分。

在前面的教程中，我們從頭實現了一個迴圈神經網路，但是並沒有涉及隨時間反向傳播（BPTT）演算法如何計算梯度的細節。在這部分，我們將會簡要介紹BPTT並解釋它和傳統的反向傳播有何區別。我們也會嘗試著理解梯度消失問題，這也是LSTM和GRU（目前NLP及其它領域中最為流行和有用的模型）得以發展的原因。梯度消失問題最早是由 Sepp Hochreiter 在1991年發現，最近由於深度框架的廣泛應用再次獲得很多關注。

1 BPTT

讓我們快速回憶一下迴圈神經網路中的一些基本公式。定義中略微有些變化，我們將 o 修改為 y^ 。這是為了與一些參考文獻保持一致。

st=tanh(Uxt+Wst−1)

yt^=softmax(Vst)

我們定義損失或者誤差為互熵損失，如下所示，

Et(yt,yt^)=−ytlog(yt^)

Et(y,y^)=∑tEt(yt,yt^)=−∑tytlog(yt^)

在這裡， yt 是時刻 t 上正確的詞， yt^ 是預測出來的詞。我們通常將一整個序列（一個句子）作為一個訓練例項，所以總的誤差就是各個時刻（詞）的誤差之和。

請牢記，我們的目標是計算誤差關於引數U、V和W的梯度，然後使用梯度下降法學習出好的引數。正如我們將誤差相加，我們也將一個訓練例項在每時刻的梯度相加： ∂E∂W=∑

Recurrent Neural Network系列3--理解RNN的BPTT演算法和梯度消失

1 BPTT

Recurrent Neural Network系列3--理解RNN的BPTT演算法和梯度消失

Recurrent Neural Network系列3--理解RNN的BPTT演算法和梯度消失_0

基於時間的反向傳播演算法和梯度消失 -part3

論文《Chinese Poetry Generation with Recurrent Neural Network》閱讀筆記

Recurrent Neural Network(1):Architecture

Recurrent Neural Network for Text Classification with Multi-Task Learning

迴圈神經網路（Recurrent Neural Network, RNN）

論文：用RNN書寫及識別漢字, Drawing and Recognizing Chinese Characters with Recurrent Neural Network

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Recurrent Neural Network Model

How to Visualize Your Recurrent Neural Network with Attention in Keras

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

李巨集毅機器學習課程筆記9：Recurrent Neural Network

臺灣大學深度學習課程學習筆記 lecture3-1 Recurrent Neural Network (RNN)

『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

詳解迴圈神經網路(Recurrent Neural Network)

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

JAVA學習筆記系列3-JVM、JRE和JDK的區別

pytorch系列 --3 Variable，Tensor 和 Gradient

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(上）

java多執行緒系列3：悲觀鎖和樂觀鎖

Recurrent Neural Network系列3--理解RNN的BPTT演算法和梯度消失

1 BPTT

相關推薦