舉例深入理解Keras中LSTM的stateful和stateless應用區別

阿新 • • 發佈：2020-08-01

本文通過讓LSTM學習字母表，來預測下一個字母，詳細的請參考：

https://blog.csdn.net/zwqjoy/article/details/80493341

https://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/

一、Stateful模式預測下一個字母

# Stateful LSTM to learn one-char to one-char mapping
import numpy
from keras.models import Sequential
 
from keras.layers import Dense
from keras.layers import LSTM
from keras.utils import np_utils
# fix random seed for reproducibility
numpy.random.seed(7)
# define the raw dataset
alphabet = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
# create mapping of characters to integers (0-25) and the reverse
char_to_int = dict((c, i) for 
 i, c in enumerate(alphabet))
int_to_char = dict((i, c) for i, c in enumerate(alphabet))
# prepare the dataset of input to output pairs encoded as integers
seq_length = 1
dataX = []
dataY = []
for i in range(0, len(alphabet) - seq_length, 1):
    seq_in = alphabet[i:i + seq_length]
    seq_out = alphabet[i + seq_length]
    dataX.append([char_to_int[char]  
for char in seq_in])
    dataY.append(char_to_int[seq_out])
    print (seq_in, '->', seq_out)
# reshape X to be [samples, time steps, features]
X = numpy.reshape(dataX, (len(dataX), seq_length, 1))
# normalize
X = X / float(len(alphabet))
# one hot encode the output variable
y = np_utils.to_categorical(dataY)
# create and fit the model
batch_size = 1
model = Sequential()
model.add(LSTM(16, batch_input_shape=(batch_size, X.shape[1], X.shape[2]), stateful=True))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
for i in range(300):
    model.fit(X, y, epochs=1, batch_size=batch_size, verbose=2, shuffle=False)
    model.reset_states()
# summarize performance of the model
scores = model.evaluate(X, y, batch_size=batch_size, verbose=0)
model.reset_states()
print("Model Accuracy: %.2f%%" % (scores[1]*100))

OUT:

Model Accuracy: 100.00%

模型訓練後預測一下：

model.reset_states()#這個時候我們重置一下狀態，那麼就會從字母表的開頭開始
# demonstrate some model predictions
seed = [char_to_int[alphabet[0]]]
for i in range(0, len(alphabet)-1):
    x = numpy.reshape(seed, (1, len(seed), 1))
    x = x / float(len(alphabet))
    prediction = model.predict(x, verbose=0)
    index = numpy.argmax(prediction)
    print (int_to_char[seed[0]], "->", int_to_char[index])
    seed = [index]

OUT:

A -> B
B -> C
C -> D
D -> E
E -> F
F -> G
G -> H
H -> I
I -> J
J -> K
K -> L
L -> M
M -> N
N -> O
O -> P
P -> Q
Q -> R
R -> S
S -> T
T -> U
U -> V
V -> W
W -> X
X -> Y
Y -> Z

那麼如果我們從中間字母開始預測呢？

model.reset_states()#這個時候我們依然先重置一下狀態
# demonstrate a random starting point
letter = "K"
seed = [char_to_int[letter]]
print ("New start: ", letter)
for i in range(0, 5):
    x = numpy.reshape(seed, (1, len(seed), 1))
    x = x / float(len(alphabet))
    prediction = model.predict(x, verbose=0)
    index = numpy.argmax(prediction)
    print (int_to_char[seed[0]], "->", int_to_char[index])
    seed = [index]

OUT:

New start:  K
K -> B
B -> C
C -> D
D -> E
E -> F
我們可以看到，重置狀態後，即便是從中間的字母K開始預測，接下來輸出依然是從字母表開始輸出一樣輸出B，這說明前一個狀態的輸入Ct-1的作用是大於本次的輸入xt的。
如果我們不重置狀態，直接從中間字母開始呢？

# demonstrate a random starting point
letter = "K"
seed = [char_to_int[letter]]
print ("New start: ", letter)
for i in range(0, 5):
    x = numpy.reshape(seed, (1, len(seed), 1))
    x = x / float(len(alphabet))
    prediction = model.predict(x, verbose=0)
    index = numpy.argmax(prediction)
    print (int_to_char[seed[0]], "->", int_to_char[index])
    seed = [index]

OUT:

New start:  K
K -> Z
Z -> Z
Z -> Z
Z -> Z
Z -> Z
我們可以看到，沒有重置狀態，直接預測，輸入的狀態依然是接著上一次的最後輸出狀態開始的，所以都預測成了Z，再次說明了上一次的狀態輸入其作用大於本次的輸入。

舉例深入理解Keras中LSTM的stateful和stateless應用區別

本文通過讓LSTM學習字母表，來預測下一個字母，詳細的請參考： https://blog.csdn.net/zwqjoy/article/details/80493341

基於Keras中Conv1D和Conv2D的區別說明

如有錯誤，歡迎斧正。我的答案是，在Conv2D輸入通道為1的情況下，二者是沒有區別或者說是可以相互轉化的。首先，二者呼叫的最後的程式碼都是後端程式碼（以TensorFlow為例，在tensorflow_backend.py裡面可以找到）：

如何理解Vue中computed和watch的區別

概述我們在 vue 專案中多多少少都會有用到 computed 和 watch，這兩個看似都能實現對資料的監聽，但還是有區別。所以以下通過一個小栗子來理解一下這兩者的區別。

深入理解Tensorflow中的masking和padding

TensorFlow是一個採用資料流圖（data flow graphs），用於數值計算的開源軟體庫。節點（Nodes）在圖中表示數學操作，圖中的線（edges）則表示在節點間相互聯絡的多維資料陣列，即張量（tensor）。它靈活的架構讓你可

深入理解C++中的new/delete和malloc/free動態記憶體管理及區別介紹

malloc/free和new/delete的區別 malloc/free是C/C++標準庫的函式；new/delete是C++操作符。

深入理解JavaScript中的淺拷貝和深拷貝

淺拷貝和深拷貝一、資料型別我們都知道JavaScript資料型別分為基本資料型別（String、Number、Boolean、Null、Undefined、Symbol，未來還會有BigInt）和引用資料型別（Object），當然Object還包括Date、function、

深入理解Python中的self引數和init(self)方法--通過類比Java語言

技術標籤：Pythonself引數__init__方法Python 一、前言在這裡我想通過用Python和Java語言的類比來對Python中的self引數和__init__(self)方法做一個深入的解釋。這樣可以加深對self引數和__init__(self)方法的理

深入理解PHP中的ob_flush和flush的區別

技術標籤：PHP ob_flush/flush在手冊中的描述, 都是重新整理輸出緩衝區, 並且還需要配套使用, 所以會導致很多人迷惑… 其實, 他們倆的操作物件不同, 有些情況下, flush根本不做什麼事情… ob_*系列函式, 是操作P

深入理解JavaScript中的語法和程式碼結構

概述所有程式設計語言都必須遵守特定的規則才能執行。確定程式語言的正確結構的這組規則稱為語法。許多程式語言主要由具有語法變化的類似概念組成。

深入理解Java中的反射機制和使用原理！詳細解析invoke方法的執行和使用

反射的概念反射: Refelection,反射是Java的特徵之一,允許執行中的Java程式獲取自身資訊,並可以操作類或者物件的內部屬性

深入理解pyhton中的axis=0 和axis=1

深入理解pyhton中的axis=0 和axis=1 其實axis的重點在於方向，而不是行和列。具體到各種用法而言也是如此。

深入理解Golang之interface和reflect

前言 interface（即介面），是Go語言中一個重要的概念和知識點，而功能強大的reflect正是基於interface。本文即是對Go語言中的interface和reflect相關知識較為全面的梳理，也算是我階段學習的總結，以期溫故而知新。

深入理解RocketMq普通訊息和順序訊息使用，原理，優化

1. 背景最近一直再做一些系統上的壓測，並對一些問題做了優化，從這些裡面收穫了一些很多好的優化經驗，後續的文章都會以這方面為主。

深入淺析springboot中static和templates區別

靜態頁面的return預設是跳轉到/static/目錄下，當在pom.xml中引入了thymeleaf元件，動態跳轉會覆蓋預設的靜態跳轉，預設就會跳轉到/templates/下，注意看兩者return程式碼也有區別，動態沒有html字尾。

深入理解java中Arrays.sort()的用法

Java的Arrays類中有一個sort()方法，該方法是Arrays類的靜態方法，在需要對陣列進行排序時，非常的好用。

淺談Keras中shuffle和validation_split的順序

模型的fit函式有兩個引數，shuffle用於將資料打亂，validation_split用於在沒有提供驗證集的時候，按一定比例從訓練集中取出一部分作為驗證集

19-深入理解迭代器和生成器

你肯定用過的容器、可迭代物件和迭代器容器這個概念非常好理解。我們說過，在Python 中一切皆物件，物件的抽象就是類，而物件的集合就是容器。

深入理解 ES6中的 Reflect用法

Reflect物件是一個全域性的普通的物件。Reflect的原型就是Object. 我們首先來驗證下看看Reflect的原型是否是Object,基本程式碼如下：

深入理解k8s中的訪問控制（認證、鑑權、審計）流程

Kubernetes自身並沒有使用者管理能力，無法像操作Pod一樣，通過API的方式建立/刪除一個使用者例項，也無法在etcd中找到使用者對應的儲存物件。

深入理解Java中的訪問控制符

Java包中的相關概念包的概念 Java中的包類似於作業系統中的資料夾，將具有類似功能的類或者相同的類放在相同的包裡面，便於組織與管理

舉例深入理解Keras中LSTM的stateful和stateless應用區別

相關推薦