深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

阿新 • • 發佈：2019-02-13

訪問請移步至，這裡有能“擊穿”平行宇宙的亂序並行位元組流…

假設我們試著去預測“I grew up in France… I speak fluent French”最後的詞French。當前的資訊建議下一個詞可能是一種語言的名字，但是如果我們需要弄清楚是什麼語言，我們是需要先前提到的離當前位置很遠的 France 的上下文的。這說明相關資訊和當前預測位置之間的間隔就肯定變得相當的大。

不幸的是，在這個間隔不斷增大時，RNN 會喪失學習到連線如此遠的資訊的能力。

LSTM

Long Short-Term Memory—— 一般就叫做 LSTM，是一種 RNN特殊的型別，可以學習長期依賴資訊。

LSTM 通過刻意的設計來避免長期依賴問題。記住長期的資訊在實踐中是 LSTM 的預設行為，而非需要付出很大代價才能獲得的能力！

這裡寫圖片描述

忘記門，在我們 LSTM 中的第一步是決定我們會從細胞狀態中丟棄什麼資訊。這個決定通過一個稱為忘記門層完成。（eg. 一句話中，當我們看到新的主語，我們希望忘記舊的主語。）
輸入門，確定什麼樣的新資訊被存放在細胞狀態中。
輸出門，實際去執行——丟棄掉我們確定需要丟棄的資訊，更新需要更新的資訊。

GRU

Gated Recurrent Unit——一般叫做GRU，作為LSTM的一種變體，通過分析LSTM架構中哪些部分是真正需要的，進行了改進，將忘記門和輸入門合成了一個單一的更新門

。同樣還混合了細胞狀態和隱藏狀態，加諸其他一些改動。最終的模型比標準的 LSTM 模型要簡單，也是非常流行的變體。

這裡寫圖片描述

復位門，控制當前狀態中哪些部分用於計算下一個目標狀態。
更新門，在極端情況下，可以選擇全部複製或者完全替換。

復位和更新門能獨立地“忽略”狀態向量的一部分。

References:
[1] [譯] 理解 LSTM 網路
[2] 王亮老師《深度學習》講義

©qingdujun 2018-6-9 於北京懷柔

深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

訪問請移步至，這裡有能“擊穿”平行宇宙的亂序並行位元組流… 假設我們試著去預測“I grew up in France… I speak fluent French”最後的詞French。當前的資訊建議下一個詞可能是一種語言的名字，但是如果我們需要弄清楚是什麼

吳恩達序列模型學習筆記--迴圈神經網路（RNN）

1. 序列模型的應用序列模型能解決哪些激動人心的問題呢？語音識別：將輸入的語音訊號直接輸出相應的語音文字資訊。無論是語音訊號還是文字資訊均是序列資料。音樂生成：生成音樂樂譜。只有輸出的音樂樂譜是序列資料，輸入可以是空或者一個整數。情感分類：將輸入的評論句子轉換

深度學習【8】基於迴圈神經網路（RNN）的端到端（end-to-end）對話系統

注：本篇部落格主要內容來自：A Neural Conversational Model，這篇論文。 http://blog.csdn.net/linmingan/article/details/51077837 與傳統的基於資料庫匹配的對話\翻譯系統不一樣

從迴圈神經網路（RNN）到LSTM網路

　　通常，資料的存在形式有語音、文字、影象、視訊等。因為我的研究方向主要是影象識別，所以很少用有“記憶性”的深度網路。懷著對迴圈神經網路的興趣，在看懂了有關它的理論後，我又看了Github上提供的tensorflow實現，覺得收穫很大，故在這裡把我的理解記錄下來，也希望對大家能有所幫助。

機器學習之迴圈神經網路（十）

摘要：多層反饋RNN（Recurrent neural Network、迴圈神經網路）神經網路是一種節點定向連線成環的人工神經網路。這種網路的內部狀態可以展示動態時序行為。不同於前饋神經網路的是，RNN可以利用它內部的記憶來處理任意時序的輸入序列，這讓

迴圈神經網路（RNN）原理通俗解釋

1.RNN怎麼來的？ 2.RNN的網路結構及原理 3.RNN的改進1：雙向RNN 4.RNN的改進2：深層雙向RNN 4.1 Pyramidal RNN

對迴圈神經網路（RNN）中time step的理解

微信公眾號 1. 傳統的迴圈神經網路傳統的神經網路可以看作只有兩個time step。如果輸入是“Hello”（第一個time step），它會預測“World”（第二個time step），但是它無法預測更多的time step。

迴圈神經網路（RNN）

1.NN & RNN 在神經網路從原理到實現一文中已經比較詳細地介紹了神經網路，下面用一張圖直觀地比較NN與RNN地不同。從圖1中可以看出，RNN比NN多了指向自己的環，即圖1中的7,8,9,

04-迴圈神經網路（RNN）和LSTM

RNN（Recurrent NeuralNetwork）和LSTM(Long Short Term Memory)RNN（Recurrent NeuralNetwork）RNN：存在隨著時間的流逝，訊號會不斷的衰弱（梯度消失）LSTM(Long Short Term Memo

大話迴圈神經網路（RNN）

—— 原文釋出於本人的微信公眾號“大資料與人工智慧Lab”（BigdataAILab），歡迎關注。卷積神經網路CNN在影象識別中有著強大、廣泛的應用，但有一些場景用CNN卻無法得到有效地解決，例如：語音識別，要按順序處理每一幀的聲音資訊，有些結果需要根據上下文進行識別；自然

深度學習之迴圈神經網路

迴圈神經網路或RNN是一類用於處理序列資料的神經網路。展開計算圖考慮一個又外部訊號x(t)驅動的動態系統， s(t)=f(s(t−1),x(t);θ) 當前狀態包含了整個過去序列的資訊。我們可以用一個函式g(t)代表t步展開後的迴圈： h(

TensorFlow深度學習筆記迴圈神經網路實踐

載入資料使用text8作為訓練的文字資料集text8中只包含27種字元：小寫的從a到z，以及空格符。如果把它打出來，讀起來就像是去掉了所有標點的wikipedia。直接呼叫lesson1中maybe_download下載text8.zip用zipfile讀取zip內容

深度學習(莫煩神經網路 lecture 4） TensorFlow （GAN）

TensorFlow （GAN）目錄 1、GAN 今天我們會來說說現在最流行的一種生成網路, 叫做 GAN, 又稱生成對抗網路, 也是 Generative Adversarial Nets 的簡稱 1.1 常見神經網路形式

深入學習卷積神經網路（CNN）的原理知識

　　網上關於卷積神經網路的相關知識以及數不勝數，所以本文在學習了前人的部落格和知乎，在別人部落格的基礎上整理的知識點，便於自己理解，以後複習也可以常看看，但是如果侵犯到哪位大神的權利，請聯絡小編，謝謝。好了下面言歸正傳：　　在深度學習領域中，已經經過驗證的成熟演算法，目前主要有深度卷積網路（DNN）和遞迴網

深度學習 --- 深度殘差網路（ResNet）變體介紹

先說明，本文不是本人所寫，是本人翻譯得來，目的是系統整理一下，供以後深入研究時引用，如有侵權請聯絡本人刪除。 ResNet變體寬剩餘網路（WRN）：從“寬度”入手做提升： Wide Residual Network（WRN）由Sergey Zagoruyko和Nikos Komod

深度學習（Deep Learning）讀書思考八：迴圈神經網路三（RNN應用）

概述通過前兩小節的介紹，可以清楚的瞭解RNN模型的網路結構以及LSTM。本小節主要介紹RNN其他變形以及應用，包括 1.GRU單元 2.序列到序列（Seq2Seq）模型 3.注意力（Attention）模型 4.RNN在NLP中的應

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖就是將迴圈圖展開成展開圖而已。迴圈神經網路就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。雙向RNN 應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等基於編碼-解碼的序列到序列架構可以將可變長度的輸入轉

吳恩達深度學習系列課程筆記：卷積神經網路（一）

本系列文章將對吳恩達在網易公開課“深度學習工程師”微專業內容進行筆記總結，這一部分介紹的是“卷積神經網路”部分。 1、計算機視覺計算機視覺在我們還是生活中有非常廣泛的應用，以下幾個是最常見的例子：影象分類：可以對影象中的物體種類進行判斷，如確定影象中

吳恩達.深度學習系列-C1神經網路與深度學習-w3-（作業：一個隱藏層進行二維資料分類）

前言 **注意：coursera要求不要在網際網路公佈自己的作業。如果你在學習這個課程，建議你進入課程系統自行完成作業。使用邏輯迴歸作為一個最簡單的類似神經網路來進行影象判別。我覺得程式碼有參考和保留的意義。v 使用一個 2×4×1的網路來對資料進

【吳恩達deeplearning.ai】深度學習(9)：迴圈神經網路

隨深度學習技術的發展，使用迴圈神經網路（Recurrent Neural Network，RNN）建立的各種序列模型，使語音識別、機器翻譯及自然語言理解等應用成為可能。表示與型別自然語言、音訊等資料都是前後相互關聯的資料，比如理解一句話要通過一整句而

深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

LSTM

GRU

相關推薦