論文筆記:Long Short-Term Memory
LongShort-Term Memory
摘要
通過recurrent BP方式來學著儲存隨時間間隔變化的資訊會花費很長的時間。我們引進了新奇的,有效的,基於梯度的方法:LSTM(至少在1997年的時候這麼評價還算公正)。 且能夠解決一些標籤比較長的分類任務。
LSTM現在基本會被用在RNN模型中,代替RNN的隱層單元,能夠起到很好的長時間記憶效果。現階段(2017)GRU跟LSTM都是基於門的單元,但是GRU有2個門,計算速度比LSTM(3個門)要快。
引言
RNN共享權重,權重修正速度比較慢,只有短時記憶。
problem 卷積“Back-Propagation Through Time”或者”Real-Time Recurrent Learning”, 誤差訊號隨著反饋網路會趨向於(1)爆炸(2)消失 。 情況(1)會產生擺動權重,情況2 會浪費大量的時間,可能會一點也不工作。
remedy
LSTM
- Memory cells and gate units
引進乘法輸入單元和乘法輸出單元。輸入單元是為了保護儲存在j中的記憶內容不受不相關輸入的微小影響。同時,輸出單元是為了保護其他的單元免受當前不相關訊號產生的微小影響。 - 輸入們 輸出門 遺忘門 3.
RNN
RNN能夠有效聯絡上下文資訊就是因為他可以長時間記憶。梯度存在爆炸或者消失的問題,因此提出了LSTM。
LSTM的backpropagation
使用梯度下降,使用了RTRL和BPTT方法。4
EMMA
SIAT