長短時記憶網路LSTM

阿新 • • 發佈：2019-02-16

因為迴圈神經網路很難訓練的原因，這導致了它在實際應用中，很難處理長距離的依賴。我們將介紹一種改進之後的迴圈神經網路：長短時記憶網路(Long Short Term Memory Network, LSTM)，它成功的解決了原始迴圈神經網路的缺陷，成為當前最流行的RNN，在語音識別、圖片描述、自然語言處理等許多領域中成功應用。但不幸的一面是，LSTM的結構很複雜，因此，我們再介紹一種LSTM的變體：GRU (Gated Recurrent Unit)。它的結構比LSTM簡單，而效果卻和LSTM一樣好，因此，它正在逐漸流行起來。

原始RNN的隱藏層只有一個狀態，即h，它對於短期的輸入非常敏感。那麼，假如我們再增加一個狀態，即c，讓它來儲存長期的狀態，那麼問題不就解決了麼？如下圖所示：

新增加的狀態c，稱為單元狀態(cell state)。我們把上圖按照時間維度展開：

上圖僅僅是一個示意圖，我們可以看出，在t時刻，LSTM的輸入有三個：當前時刻網路的輸入值、上一時刻LSTM的輸出值、以及上一時刻的單元狀態；LSTM的輸出有兩個：當前時刻LSTM輸出值、和當前時刻的單元狀態。

LSTM的關鍵，就是怎樣控制長期狀態。在這裡，LSTM的思路是使用三個控制開關。第一個開關，負責控制繼續儲存長期狀態（也就是說上一時刻狀態是否匯入）；第二個開關，負責控制把即時狀態輸入到長期狀態；第三個開關，負責控制是否把長期狀態作為當前的LSTM的輸出。三個開關的作用如下圖所示：

接下來，我們要描述一下，輸出

和單元狀態

的具體計算方法。

LSTM前向計算：

門的概念：假設W是該門的權重向量，b是偏置項，則：，是sigmoid函式，那麼的值域為0到1之間的實數向量；門的使用，就是用門的輸出向量按元素乘以我們需要控制的那個向量。因為門的輸出是0到1之間的實數向量，那麼，當門輸出為0時，任何向量與之相乘都會得到0向量，這就相當於啥都不能通過；輸出為1時，任何向量與之相乘都不會有任何改變，這就相當於啥都可以通過；這就是門和開關的對應關係。

遺忘門：它決定了上一時刻的單元狀態有多少保留到當前時刻；

輸入門：它決定了針對當前輸入的單元狀態有多少儲存到當前時刻的單元狀態；（此處與原部落格理解不一樣，請大家指點）

輸出門

：控制單元狀態

有多少輸出到LSTM的當前輸出值

。

這幾個門與上述的開關相配合來計算當前：

如上圖所示：這三個門：，，

輸入都為表示把兩個向量連線成一個更長的向量；我們以為例，權重矩陣都是由兩個矩陣拼接而成的，如上公式一個是，對應著輸入項，一個是，對應著輸入項；

針對於當前輸入的單元狀態；

則所求的：，。

LSTM訓練演算法：

LSTM的訓練演算法仍然是反向傳播演算法，對於這個演算法，我們已經非常熟悉了。主要有下面三個步驟：

1．前向計算每個神經元的輸出值，對於LSTM來說，即、、、、五個向量的值。計算方法已經在上一節中描述過了。

2．反向計算每個神經元的誤差項值。與迴圈神經網路一樣，LSTM誤差項的反向傳播也是包括兩個方向：一個是沿時間的反向傳播，即從當前t時刻開始，計算每個時刻的誤差項；一個是將誤差項向上一層傳播。

3．根據相應的誤差項，計算每個權重的梯度。

誤差項沿時間的反向傳遞：

在t時刻，LSTM的輸出值，定義t時刻的誤差項為：；這裡假設誤差項是損失函式對輸出值的導數，而不是對加權輸入的導數。、、、對於這四個加權輸入及他們的誤差項：

，

推導過程參見部落格，最後得到公式：

，其中：

那麼我們就得到誤差項向前傳遞到任意時刻k的公式：

將誤差傳遞到上一層：

我們假設當前為第l層，定義l-1層的誤差項是誤差函式對l-1層加權輸入的導數，即：

，因為在本層下，輸入為：，表示l-1層的啟用函式。

推導過程不再多說，得到：。

權重梯度計算：

對於、、、的權重梯度，我們知道它的梯度是各個時刻梯度之和（迴圈神經網路已經介紹）。

，，

以上就是LSTM訓練演算法全部公式。

GRU:

事實上LSTM存在很多變體,在眾多的LSTM變體中，GRU (Gated Recurrent Unit)也許是最成功的一種。它對LSTM做了很多簡化，同時卻保持著和LSTM相同的效果。因此，GRU最近變得越來越流行。GRU對LSTM做了兩個大改動：

將輸入門、遺忘門、輸出門變為兩個門：更新門（Update Gate） $z_{t}$ 和重置門（Reset Gate） $r_{t}$ 。
將單元狀態與輸出合併為一個狀態： $h$ 。

GRU示意圖：

由示意圖可知，GRU前向計算公式為：

$z_{t}=\sigma (W_{z}\cdot [h_{t-1},x_{t}])$

$r_{t}=\sigma (W_{r}\cdot [h_{t-1},x_{t}])$

${h}'_{t}=\tanh (W\cdot \cdot [r_{t}\circ h_{t-1},x_{t}])$

$h=(1-z_{t})\circ h_{t-1}+z_{t}\circ{h}'_{t}$

長短時記憶網路(LSTM)基礎

往期回顧在上一篇文章中，我們介紹了迴圈神經網路以及它的訓練演算法。我們也介紹了迴圈神經網路很難訓練的原因，這導致了它在實際應用中，很難處理長距離的依賴。在本文中，我們將介紹一種改進之後的迴圈神經網路：長短時記憶網路(Long Short Term Memory

長短時記憶網路LSTM

因為迴圈神經網路很難訓練的原因，這導致了它在實際應用中，很難處理長距離的依賴。我們將介紹一種改進之後的迴圈神經網路：長短時記憶網路(Long Short Term Memory Network, LSTM)，它成功的解決了原始迴圈神經網路的缺陷，成為當前最流行的RNN，在語音

基於PyTorch的LSTM長短時記憶網路實現MNIST手寫數字

本篇部落格主要介紹在PyTorch框架下，基於LSTM實現手寫數字的識別。在介紹LSTM長短時記憶網路之前，我先介紹一下RNN(recurrent neural network)迴圈神經網路.RNN是一種用來處理序列資料的神經網路，序列資料包括我們說話的語音、一段文字等等。它

RNN學習筆記（一）：長短時記憶網路（LSTM）

一、前言在影象處理領域，卷積神經網路（Convolution Nerual Network，CNN）憑藉其強大的效能取得了廣泛的應用。作為一種前饋網路，CNN中各輸入之間是相互獨立的，每層神經元的訊號只能向下一層傳播，同一卷積層對不同通道資

機器學習與Tensorflow（5）——迴圈神經網路、長短時記憶網路

1.迴圈神經網路的標準模型前饋神經網路能夠用來建立資料之間的對映關係，但是不能用來分析過去訊號的時間依賴關係，而且要求輸入樣本的長度固定迴圈神經網路是一種在前饋神經網路中增加了分虧連結的神經網路，能夠產生對過去資料的記憶狀態，所以可以用於對序列資料的處理，並建立不同時段資料之間

雙向長短時記憶迴圈神經網路詳解（Bi-directional LSTM RNN）

1. Recurrent Neural Network (RNN) 儘管從多層感知器（MLP）到迴圈神經網路（RNN）的擴充套件看起來微不足道，但是這對於序列的學習具有深遠的意義。迴圈神經網路（RNN）的使用是用來處理序列資料的。在傳統的神經網路中模型中，層與

3-1長短時記憶神經網路(LSTM)--簡單程式碼實現

LSTM（Long Short-Term Memory）是長短期記憶網路，是一種時間遞迴神經網路，適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。LSTM 已經在科技領域有了多種應用。基於LSTM的系統可以學習翻譯語言、控制機器人、影象分析、文件摘要、語音識別影象識別

序列模型（3）---LSTM（長短時記憶）

false 我們 height 需要 img 問題決定 mov clas 一、RNN回顧略去上面三層，即o,L,y，則RNN的模型可以簡化成如下圖的形式：二、LSTM模型結構：整體模型：由於RNN梯度消失的問題，大牛們對於序列索引位置t的隱藏結構做

超詳細的長短時記憶LSTM和門控迴圈單元GRU的反向傳播公式推導！

門控迴圈單元GRU 長短時記憶LSTM LSTM模型是用來解決simpleRNN對於長時期依賴問題（LongTerm Dependency），即通過之前提到的但是時間上較為久遠的內容進行後續的推理和判斷。LSTM的基本思

Keras中長短期記憶網路LSTM的5步生命週期

Keras中長短期記憶網路LSTM的5步生命週期

長短期記憶網路LSTM(matlab)

if(n~=1) %% 更新weight_input_x temp=train(1:input_num,n)'*W_input_x+h_state(:,n-1)'*W_input_h; for num=1:output_num for m=1:data_length

關於長短時記憶的一個小感想

以上是短時記憶和長時記憶的示例圖，看到長時記憶還是有蛋白質的合成才能夠保證的。短時的記憶就是加強突觸的連結。想到我們平時訓練神經網路，為啥總是預測能力不夠，因為我們只有第一個步驟啊，也就是短時記憶的訓練，沒有長時記憶的訓練。突然又想起來LSTM的對長時記憶的補充，就

Long-Short Term Memory(長短時記憶模型)

長短期記憶（Long-Short Term Memory, LSTM）是一種時間遞迴神經網路(RNN)，論文首次發表於1997年。由於獨特的設計結構，LSTM適合於處理和預測時間序列中間隔和延遲非常長的重要事件。 LSTM的表現通常比時間遞迴

009-LSTM網路-長短記憶網路

基於RNN網路的2個缺陷（全部記憶，梯度消失），現有RNN網路的升級版LSTM LSTM要做的一件事就是本次有選擇的記憶用到下一次的遞迴工作中。 LSTM網路中，與RNN最大的區別，也是LSTM網路中最核心的東西就是控制記憶的引數C了 C是一個矩陣，用來和輸入做內積，用實際的數字控制輸入哪些該遺忘，

雙向長短記憶網路（BiLSTM）

關於理解LSTM的一篇英文部落格非常經典，可以去這裡閱讀，本文也參考了該博文。迴圈神經網路（RNN） BiLSTM是RNN的一種延伸，因此，要理解BiLSRM就必須首先弄明白什麼是RNN。普通神經網路的侷限假設我們對於普通的神經網路模型已經比較熟悉，那

長短期記憶（LSTM）系列_LSTM的建模方法（2）——如何堆疊多層LSTM網路

導讀：堆疊式LSTM屬於深度學習，通過新增網路的深度，提高訓練的效率，獲得更高的準確性。文中介紹了堆疊式LSTM的架構和實現方法在堆疊式LSTM中，層與層的輸數出通過return_sequences = True引數修改成3D資料，以便供下一層網路使用。為什麼要增加深度？

長短期記憶（LSTM）系列_LSTM的建模方法（1）——生成式LSTM網路,Encoder-Decoder LSTM網路,CNN LSTM（LRCN）網路建模介紹

導讀文中介紹了三種LSTM的建模應用，分別是生成式LSTM網路，Encoder-Decoder LSTM網路，CNN LSTM（LRCN）網路。大致介紹了一下每種網路的建模方法和應用場景，這裡僅做了解即可原文連結：生成性長短期記憶網路編碼器 - 解碼器長短期儲存

長短期記憶（LSTM）系列_LSTM的資料準備（4）——如何歸一化標準化長短期記憶網路的資料

導讀：在訓練神經網路（例如長短期記憶復現神經網路）時，可能需要縮放序列預測問題的資料。當輸入資料序列分佈並不標準，或者變化幅度（標準差）過大時，這會減慢網路的學習和收斂速度，也會阻礙網路的學習效率。因此您需要了解如何歸一化和標準化序列預測資料，以及如何確定將哪中形式用於輸入和輸出變

長短期記憶（LSTM）系列_LSTM的資料準備（1）——如何重塑Keras中長短期記憶體網路的輸入資料

LSTM輸入層 LSTM輸入層由網路的第一個隱藏層上的“ input_shape ”引數指定。這會讓初學者感到困惑。例如，下面是具有一個隱藏的LSTM層和一個密集輸出層的網路的示例。 model = Sequential() model.add(LSTM(

長短期記憶（LSTM）系列_2.1~2.3、用遞迴神經網路簡要介紹序列預測模型

前置課程 https://machinelearningmastery.com/sequence-prediction/ https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-network