1. 程式人生 > >機器學習與深度學習系列連載: 第二部分 深度學習(十五)迴圈神經網路 3(Gated RNN - GRU)

機器學習與深度學習系列連載: 第二部分 深度學習(十五)迴圈神經網路 3(Gated RNN - GRU)

迴圈神經網路 3(Gated RNN - GRU)

LSTM 是1997年就提出來的模型,為了簡化LSTM的複雜度,在2014年 Cho et al. 提出了 Gated Recurrent Units (GRU)。接下來,我們在LSTM的基礎上,介紹一下GRU。

主要思路是:
• keep around memories to capture long distance dependencies
• allow error messages to flow at different strengths depending on the inputs

1. Gate 公式

相對於LSTM, GRU 的門限減少到2個gate(LSTM是3個)
(1) Update Gate
在這裡插入圖片描述
如果 update 接近於1,我們就直接copy以前的資訊到現在的輸入,有效地防止了梯度消失。
(2) Resst Gate
在這裡插入圖片描述
如果reset 接近於0,意味著忘記以前的hidden state。

(3) New memory content
在這裡插入圖片描述

(4) Final memory
在這裡插入圖片描述

2.基礎架構

在這裡插入圖片描述
通過基礎架構可以看出來,GRU比LSTM實現簡單,但是最終的效果,二者不相上下。
在這裡插入圖片描述

本專欄圖片、公式很多來自臺灣大學李弘毅老師、斯坦福大學cs229,斯坦福大學cs231n 、斯坦福大學cs224n課程。在這裡,感謝這些經典課程,向他們致敬!