1. 程式人生 > >深度學習:迴圈神經網路(RNN)的變體LSTM、GRU

深度學習:迴圈神經網路(RNN)的變體LSTM、GRU

訪問請移步至,這裡有能“擊穿”平行宇宙的亂序並行位元組流…

假設我們試著去預測“I grew up in France… I speak fluent French”最後的詞French。當前的資訊建議下一個詞可能是一種語言的名字,但是如果我們需要弄清楚是什麼語言,我們是需要先前提到的離當前位置很遠的 France 的上下文的。這說明相關資訊和當前預測位置之間的間隔就肯定變得相當的大。

不幸的是,在這個間隔不斷增大時,RNN 會喪失學習到連線如此遠的資訊的能力。

LSTM

Long Short-Term Memory—— 一般就叫做 LSTM,是一種 RNN特殊的型別,可以學習長期依賴資訊。

LSTM 通過刻意的設計來避免長期依賴問題。記住長期的資訊在實踐中是 LSTM 的預設行為,而非需要付出很大代價才能獲得的能力!

這裡寫圖片描述

  • 忘記門,在我們 LSTM 中的第一步是決定我們會從細胞狀態中丟棄什麼資訊。這個決定通過一個稱為忘記門層完成。(eg. 一句話中,當我們看到新的主語,我們希望忘記舊的主語。)
  • 輸入門,確定什麼樣的新資訊被存放在細胞狀態中。
  • 輸出門,實際去執行——丟棄掉我們確定需要丟棄的資訊,更新需要更新的資訊。

GRU

Gated Recurrent Unit——一般叫做GRU,作為LSTM的一種變體,通過分析LSTM架構中哪些部分是真正需要的,進行了改進,將忘記門和輸入門合成了一個單一的更新門

。同樣還混合了細胞狀態和隱藏狀態,加諸其他一些改動。最終的模型比標準的 LSTM 模型要簡單,也是非常流行的變體。

這裡寫圖片描述

  • 復位門,控制當前狀態中哪些部分用於計算下一個目標狀態。
  • 更新門,在極端情況下,可以選擇全部複製或者完全替換。

復位和更新門能獨立地“忽略”狀態向量的一部分。

References:
[1] [譯] 理解 LSTM 網路
[2] 王亮老師《深度學習》講義

©qingdujun 2018-6-9 於 北京 懷柔