pytorch下使用LSTM神經網路寫詩

阿新 • • 發佈：2019-01-10

在pytorch下，以數萬首唐詩為素材，訓練雙層LSTM神經網路，使其能夠以唐詩的方式寫詩。

程式碼結構分為四部分，分別為

1.model.py，定義了雙層LSTM模型

2.data.py，定義了從網上得到的唐詩資料的處理方法

3.utlis.py 定義了損失視覺化的函式

4.main.py定義了模型引數，以及訓練、唐詩生成函式。

參考：電子工業出版社的《深度學習框架PyTorch：入門與實踐》第九章

main程式碼及註釋如下

import sys, os
import torch as t
from data import get_data
from model import PoetryModel
from torch import nn
from torch.autograd import Variable
from utils import Visualizer
import tqdm
from torchnet import meter
import ipdb

class Config(object):
	data_path = 'data/'
	pickle_path = 'tang.npz'
	author = None
	constrain = None
	category = 'poet.tang' #or poet.song
	lr = 1e-3
	weight_decay = 1e-4
	use_gpu = True
	epoch = 20
	batch_size = 128
	maxlen = 125
	plot_every = 20
	#use_env = True #是否使用visodm
	env = 'poety' 
	#visdom env
	max_gen_len = 200
	debug_file = '/tmp/debugp'
	model_path = None
	prefix_words = '細雨魚兒出，微風燕子斜。' 
	#不是詩歌組成部分，是意境
	start_words = '閒雲潭影日悠悠' 
	#詩歌開始
	acrostic = False 
	#是否藏頭
	model_prefix = 'checkpoints/tang' 
	#模型儲存路徑
opt = Config()

def generate(model, start_words, ix2word, word2ix, prefix_words=None):
	'''
	給定幾個詞，根據這幾個詞接著生成一首完整的詩歌
	'''
	results = list(start_words)
	start_word_len = len(start_words)
	# 手動設定第一個詞為<START>
	# 這個地方有問題，最後需要再看一下
	input = Variable(t.Tensor([word2ix['<START>']]).view(1,1).long())
	if opt.use_gpu:input=input.cuda()
	hidden = None
	
	if prefix_words:
		for word in prefix_words:
			output,hidden = model(input,hidden)
			# 下邊這句話是為了把input變成1*1？
			input = Variable(input.data.new([word2ix[word]])).view(1,1)
	for i in range(opt.max_gen_len):
		output,hidden = model(input,hidden)
		
		if i<start_word_len:
			w = results[i]
			input = Variable(input.data.new([word2ix[w]])).view(1,1)
		else:
			top_index = output.data[0].topk(1)[1][0]
			w = ix2word[top_index]
			results.append(w)
			input = Variable(input.data.new([top_index])).view(1,1)
		if w=='<EOP>':
			del results[-1] #-1的意思是倒數第一個
			break
	return results

def gen_acrostic(model,start_words,ix2word,word2ix, prefix_words = None):
    '''
    生成藏頭詩
    start_words : u'深度學習'
    生成：
    深木通中嶽，青苔半日脂。
    度山分地險，逆浪到南巴。
    學道兵猶毒，當時燕不移。
    習根通古岸，開鏡出清羸。
    '''
    results = []
    start_word_len = len(start_words)
    input = Variable(t.Tensor([word2ix['<START>']]).view(1,1).long())
    if opt.use_gpu:input=input.cuda()
    hidden = None
    
    index=0 # 用來指示已經生成了多少句藏頭詩
    # 上一個詞
    pre_word='<START>'

    if prefix_words:
        for word in prefix_words:
            output,hidden = model(input,hidden)
            input = Variable(input.data.new([word2ix[word]])).view(1,1)

    for i in range(opt.max_gen_len):
        output,hidden = model(input,hidden)
        top_index  = output.data[0].topk(1)[1][0]
        w = ix2word[top_index]

        if (pre_word  in {u'。',u'！','<START>'} ):
            # 如果遇到句號，藏頭的詞送進去生成

            if index==start_word_len:
                # 如果生成的詩歌已經包含全部藏頭的詞，則結束
                break
            else:  
                # 把藏頭的詞作為輸入送入模型
                w = start_words[index]
                index+=1
                input = Variable(input.data.new([word2ix[w]])).view(1,1)    
        else:
            # 否則的話，把上一次預測是詞作為下一個詞輸入
            input = Variable(input.data.new([word2ix[w]])).view(1,1)
        results.append(w)
        pre_word = w
    return results

def train(**kwargs):
	
	for k,v in kwargs.items():
		setattr(opt,k,v) #設定apt裡屬性的值
	vis = Visualizer(env=opt.env)
	
	#獲取資料
	data, word2ix, ix2word = get_data(opt) #get_data是data.py裡的函式
	data = t.from_numpy(data)
	#這個地方出錯了，是大寫的L
	dataloader = t.utils.data.DataLoader(data, 
					batch_size = opt.batch_size,
					shuffle = True,
					num_workers = 1) #在python裡，這樣寫程式可以嗎？
    #模型定義
	model = PoetryModel(len(word2ix), 128, 256)
	optimizer = t.optim.Adam(model.parameters(), lr=opt.lr)
	criterion = nn.CrossEntropyLoss()
    
	if opt.model_path:
		model.load_state_dict(t.load(opt.model_path))
	if opt.use_gpu:
		model.cuda()
		criterion.cuda()
		
	#The tnt.AverageValueMeter measures and returns the average value 
	#and the standard deviation of any collection of numbers that are 
	#added to it. It is useful, for instance, to measure the average 
	#loss over a collection of examples.

    #The add() function expects as input a Lua number value, which 
    #is the value that needs to be added to the list of values to 
    #average. It also takes as input an optional parameter n that 
    #assigns a weight to value in the average, in order to facilitate 
    #computing weighted averages (default = 1).

    #The tnt.AverageValueMeter has no parameters to be set at initialization time. 
	loss_meter = meter.AverageValueMeter()
	
	for epoch in range(opt.epoch):
		loss_meter.reset()
		for ii,data_ in tqdm.tqdm(enumerate(dataloader)):
			#tqdm是python中的進度條
			#訓練
			data_ = data_.long().transpose(1,0).contiguous()
			#上邊一句話，把data_變成long型別，把1維和0維轉置，把記憶體調成連續的
			if opt.use_gpu: data_ = data_.cuda()
			optimizer.zero_grad()
			input_, target = Variable(data_[:-1,:]), Variable(data_[1:,:])
			#上邊一句，將輸入的詩句錯開一個字，形成訓練和目標
			output,_ = model(input_)
			loss = criterion(output, target.view(-1))
			loss.backward()
			optimizer.step()
			
			loss_meter.add(loss.data[0]) #為什麼是data[0]?
			
			#視覺化用到的是utlis.py裡的函式
			if (1+ii)%opt.plot_every ==0:
				
				if os.path.exists(opt.debug_file):
					ipdb.set_trace()
				vis.plot('loss',loss_meter.value()[0])
				
				# 下面是對目前模型情況的測試，詩歌原文
				poetrys = [[ix2word[_word] for _word in data_[:,_iii]] 
									for _iii in range(data_.size(1))][:16]
				#上面句子嵌套了兩個迴圈，主要是將詩歌索引的前十六個字變成原文
				vis.text('</br>'.join([''.join(poetry) for poetry in 
				poetrys]),win = u'origin_poem')
				gen_poetries = []
				#分別以以下幾個字作為詩歌的第一個字，生成8首詩
				for word in list(u'春江花月夜涼如水'):
					gen_poetry = ''.join(generate(model,word,ix2word,word2ix))
					gen_poetries.append(gen_poetry)
				vis.text('</br>'.join([''.join(poetry) for poetry in 
				gen_poetries]), win = u'gen_poem')
		t.save(model.state_dict(), '%s_%s.pth' %(opt.model_prefix,epoch))

def gen(**kwargs):
	'''
	提供命令列介面，用以生成相應的詩
	'''
	
	for k,v in kwargs.items():
		setattr(opt,k,v)
	data, word2ix, ix2word = get_data(opt)
	model = PoetryModel(len(word2ix), 128, 256)
	map_location = lambda s,l:s
	# 上邊句子裡的map_location是在load裡用的，用以載入到指定的CPU或GPU，
	# 上邊句子的意思是將模型載入到預設的GPU上
	state_dict = t.load(opt.model_path, map_location = map_location)
	model.load_state_dict(state_dict)
	
	if opt.use_gpu:
		model.cuda()
	if sys.version_info.major == 3:
		if opt.start_words.insprintable():
			start_words = opt.start_words
			prefix_words = opt.prefix_words if opt.prefix_words else None
		else:
			start_words = opt.start_words.encode('ascii',\
			'surrogateescape').decode('utf8')
			prefix_words = opt.prefix_words.encode('ascii',\
			'surrogateescape').decode('utf8') if opt.prefix_words else None
		start_words = start_words.replace(',',u'，')\
											.replace('.',u'。')\
											.replace('?',u'？')
		gen_poetry = gen_acrostic if opt.acrostic else generate
		result = gen_poetry(model,start_words,ix2word,word2ix,prefix_words)
		print(''.join(result))
if __name__ == '__main__':
	import fire
	fire.Fire()

以上程式碼給我一些經驗，

1. 瞭解python的程式設計方式，如空格、換行等；進一步瞭解python的各個基本模組；

2. 可能出的錯誤：函式名寫錯，大小寫，變數名寫錯，括號不全。

3. 對cuda()的用法有了進一步認識；

4. 學會了除錯程式（fire）；

5. 學會了訓練結果的視覺化（visdom）；

6. 進一步的瞭解了LSTM，對深度學習的架構、實現有了巨集觀把控。

pytorch下使用LSTM神經網路寫詩

在pytorch下，以數萬首唐詩為素材，訓練雙層LSTM神經網路，使其能夠以唐詩的方式寫詩。程式碼結構分為四部分，分別為1.model.py，定義了雙層LSTM模型2.data.py，定義了從網上得到的唐詩資料的處理方法3.utlis.py 定義了損失視覺化的函式4.main

pytorch + visdom 應用神經網路、CNN 處理手寫字型分類

執行環境系統：win10 cpu：i7-6700HQ gpu：gtx965m python : 3.6 pytorch ：0.3 普通神經網路 class Nueralnetwork(nn.Module):

什麼是pytorch（3神經網路）(翻譯)

神經網路 torch.nn 包可以用來構建神經網路。前面介紹了 autograd包， nn 依賴於 autograd 用於定義和求導模型。 nn.Module 包括layers（神經網路層）, 以及forward函式 forward(input)，其返回結果 output. 例如我們來看一個手寫數字的

LSTM 神經網路輸入輸出層

今天終於弄明白，TensorFlow和Keras中LSTM神經網路的輸入輸出層到底應該怎麼設定和連線了。寫個備忘。 https://machinelearningmastery.com/how-to-develop-lstm-models-for-time-series-forecasting/ Stac

Tensorflow: MNIST資料集實現DNN、CNN、LSTM神經網路

最近學了一下tensorflow的基本用法，這裡做一下總結全連線深度神經網路(FC-DNN) 全連線深度神經網路，每一層的神經元直接都是全連線，並且不共享權值。在普通的分類的問題中表現的不錯，但是對於圖片處理等具有網格形式的資料，最好採用CNN(卷積神經網路)，對於序列化資料如NL

LSTM神經網路之前向反向傳播演算法

上篇文章我們已經學習了迴圈神經網路的原理，並指出RNN存在嚴重的梯度爆炸和梯度消失問題，因此很難處理長序列的資料。本篇文章，我們將學習長短期記憶網路(LSTM,Long Short Term Memory)，看LSTM解決RNN所帶來的梯度消失和梯度爆炸問題。 1.從RNN到LSTM

使用tensorflow：LSTM神經網路預測股票（三）

原始資料處理有朋友在qq群裡分享了原始資料處理的想法，例如調整origin_data_row引數、新增一些大盤的資料作為新的特徵等。所以這一篇我將原始資料以及原始資料的處理方法寫下來，為方便大家驗證、探

使用tensorflow：LSTM神經網路預測股票（一）

基礎理論知識關於深度學習和LSTM神經網路在網上有很多內容，這裡不再贅述，只列舉幾個優質的資源： 1. 深度學習入門：https://www.deeplearning.ai 百度前首席科學家吳恩達創立的網站，旨在傳播深度學習的基礎知識。他的視

LSTM神經網路的詳細推導及C++實現

LSTM隱層神經元結構： LSTM隱層神經元詳細結構： //讓程式自己學會是否需要進位，從而學會加法 #include "iostream" #include "math.h" #include "stdlib.h" #in

【資料應用案例】教神經網路寫漢字

案例來源：@新智元 @量子位 0. 背景：google公開了一個讓神經網路和你一起寫漢字的demo“Kanji-RNN”，你寫入漢字的前幾畫，神經網路補全成一個完成的“漢字”。 1. 目標：讓神經網路學會“漢字”的書寫 1）這裡的漢字不一定是

深入理解LSTM神經網路

LSTM核心思想 LSTM最早由 Hochreiter & Schmidhuber 在1997年提出，設計初衷是希望能夠解決神經網路中的長期依賴問題，讓記住長期資訊成為神經網路的預設行為，而不是需要很大力氣才能學會。 LSTM記憶單元

LSTM神經網路輸入輸出究竟是怎樣的？

轉自：https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78960039 本題節選自《BAT機器學習面試1000題》，1000題系列作為國內首個AI題庫，囊括絕大部分機器學習和深度學習的筆試面試題

簡單理解LSTM神經網路

遞迴神經網路在傳統神經網路中，模型不會關注上一時刻的處理會有什麼資訊可以用於下一時刻，每一次都只會關注當前時刻的處理。舉個例子來說，我們想對一部影片中每一刻出現的事件進行分類，如果我們知道電影前面的事件資訊，那麼對當前時刻事件的分類就會非常容易。實際上，傳統

資源 | HiddenLayer：視覺化PyTorch、TensorFlow神經網路圖的輕量級工具！

本文介紹了一個面向 PyTorch 和 TensorFlow 神經網路計算圖和訓練度量（metric）的輕量級庫——HiddenLayer，它適用於快速實驗，且與 Jupyter Notebook 相容。 GitHub連結：https://github.com/

python實現LSTM神經網路模型

''' 用tensorflow實現遞迴迴圈網路（LSTM） ''' from __future__ import print_function import tensorflow as tf from tensorflow.contrib import r

pytorch 卷積神經網路（alexnet）訓練中問題以及解決辦法（更新中）

上一篇部落格中使用的是pytorch中的預訓練模型效果較好。https://blog.csdn.net/pc1022/article/details/80440913這篇部落格是自己訓練卷積神經網路，最開始以簡單的alexnet進行訓練。對alexnet程式碼有三個版本的：

用pytorch實現一個神經網路（一）

對於影象資料的resize問題： pytorch裡有幾種resize資料的方法： 1.torchvision.transforms.Resize：這個我始終沒用成，好像是伺服器上安裝的anacond

PyTorch基礎入門七：PyTorch搭建迴圈神經網路(RNN)

1）任務介紹今天，我們通過PyTorch搭建一個用於處理序列的RNN。當我們以sin值作為輸入，其對應的cos作為輸出的時候，你會發現，即使輸入值sin相同，其輸出結果也可以是不同的，這樣的話，以前學過的FC, CNN就難以處理，因為你的輸出結果不僅僅依賴於輸出，

使用pytorch快速搭建神經網路實現二分類任務（包含示例）

# 使用pytorch快速搭建神經網路實現二分類任務（包含示例） --- ## Introduce [上一篇學習筆記](https://www.cnblogs.com/wangqinze/p/13418291.html)介紹了不使用pytorch包裝好的神經網路框架實現logistic迴歸模型，並且根據aut

用pytorch實現多層感知機（MLP)（全連線神經網路FC）分類MNIST手寫數字體的識別

1.匯入必備的包 1 import torch 2 import numpy as np 3 from torchvision.datasets import mnist 4 from torch import nn 5 from torch.autograd import Variable 6

pytorch下使用LSTM神經網路寫詩

相關推薦