keras使用LSTM生成文字

阿新 • • 發佈：2018-11-30

本文主要介紹使用LSTM實現字元級文字生成。

下面是示例程式碼：


# coding: utf-8

# In[1]:


# 下載語料庫並將其轉化為小寫

import keras
import numpy as np

path = keras.utils.get_file(
    'nietzsche.txt',
    origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
text = open(path).read().lower()
print('Corpus length:', len(text))


# In[11]:


'''
接下來，將提取長度為“maxlen”的部分重疊序列，對它們進行one-hot
編碼並將它們打包成形狀為“（sequence，maxlen，unique_characters）”
的3D Numpy陣列`x`。 
同時，準備一個包含相應目標的陣列`y`：在每個提取序列之後的one-hot編碼字元。
'''
# 提取的字元序列的長度
maxlen = 60

# 對每‘step’個字元序列取樣一個新序列
step = 3

# 用於儲存提取到的序列
sentences = []

# 用於儲存targets
next_chars = []

for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
print('Number of sequences:', len(setences))

# 語料庫中的唯一字元列表
chars = sorted(list(set(text)))
print('Unique characters:', len(chars))

# 將唯一字元對映到`chars`中索引的字典
char_indices = dict((char, chars.index(char)) for char in chars)

# 接下來，將字元one-hot編碼為二維陣列
print('Vectorization...')
x = np.zeros((len(sentences),maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1


# In[15]:


'''
構建網路
網路是一個單獨的'LSTM`層，後跟一個'Dense'分類器和所有可能字元的softmax。 
迴圈神經網路不是生成序列資料的唯一方法; 1D convnets也被證明非常成功。
'''
from keras import layers
from keras.models import Sequential
from keras.optimizers import RMSprop

model = Sequential()
model.add(layers.LSTM(128, input_shape=(maxlen, len(chars))))
model.add(layers.Dense(len(chars), activation='softmax'))


# In[16]:


# 由於targets是one-hot編碼，因此使用`categorical_crossentropy`作為訓練模型的損失
optimizer = RMSprop(lr=1e-2)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)

'''
訓練語言模型並從中抽樣
給定已訓練的模型和原文字片段，重複生成新文字：
    * 1）從模型中得出目前可用文字的下一個字元的概率分佈
    * 2）將分佈重新調整到某個“temperature”
    * 3）根據重新加權的分佈隨機抽樣下一個字元
    * 4）在可用文字的末尾新增新字元
  這是用來重新加權模型中出現的原始概率分佈的程式碼，並從中繪製一個字元索引（“抽樣函式”）：
'''
def sample(preds, temperatue=1.0):
    preds = np.array(preds).astype('float64')
    preds = np.log(preds) / temperatue
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)


# In[ ]:


'''
最後，反覆訓練和生成文字的迴圈。 開始在每個epoch之後使用一系列不同
的溫度生成文字。 可以看到生成的文字在模型開始收斂時如何演變，
以及溫度對抽樣策略的影響。
'''
import random
import sys

for epoch in range(1, 60):
    print('epoch', epoch)
    # 在可用的訓練資料上使模型適合1個epoch
    model.fit(x, y,
             batch_size=128,
             epochs=1)
    
    # 隨機選擇一個原文字片段
    start_index = random.randint(0, len(text) - maxlen - 1)
    generated_text = text[start_index: start_index + maxlen]
    print('--- Generating with seed:“ ' + generated_text + ' ”')
    for temperature in [0.2, 0.5, 1.0, 1.2]:
        print('-----temperature:', temperature)
        sys.stdout.write(generated_text)
        
        # 生成400字元
        for i in range(400):
            sampled = np.zeros((1, maxlen, len(chars)))
            for t, char in enumerate(generated_text):
                sampled[0, t, char_indices[char]] = 1
            
            preds = model.predict(sampled, verbose=0)[0]
            next_index = sample(preds=preds, temperatue=temperature)
            next_char = char[next_index]
            
            generated_text += next_char
            generated_text = generated_text[1:]
            
            sys.stdout.write(next_char)
            sys.stdout.flush()
        print()


# In[ ]:


'''
如上所示，低的temperature會產生極其重複且可預測的文字，但是在本地結構非常逼真的情況下：
特別是所有單詞（一個單詞是本地字元模式）都是真正的英語單詞。隨著溫度的升高，生成的文字變得更有趣，令人驚訝，甚至創造性;它有時可能會發明一些聽起來有些合理的新詞（例如“eterned”或“troveration”）。在高溫下，區域性結構開始分解，大多數單詞看起來像半隨機字串。毫無疑問，這裡的0.5是這個特定設定中文字生成最有趣的溫度。始終嘗試多種取樣策略！學習結構和隨機性之間的巧妙平衡是讓生成有趣的原因。
 請注意，通過訓練更大的模型，更長的時間，更多的資料，您可以獲得生成的樣本，這些樣本看起來比我們的更連貫和更真實。但是，當然，除了隨機機會之外，不要期望生成任何有意義的文字：我們所做的只是從統計模型中取樣資料，其中字元來自哪些字元。語言是一種通訊渠道，通訊的內容與通訊編碼的訊息的統計結構之間存在區別。為了證明這種區別，這裡有一個思想實驗：如果人類語言在壓縮通訊方面做得更好，就像我們的計算機對大多數數字通訊做的那樣？那麼語言就沒那麼有意義，但它缺乏任何內在的統計結構，因此無法像我們一樣學習語言模型。
 拿走
 *我們可以通過訓練模型來生成離散序列資料，以預測給定前一個令牌的下一個令牌。
 *在文字的情況下，這種模型被稱為“語言模型”，可以基於單詞或字元。
*取樣下一個標記需要在遵守模型判斷的可能性和引入隨機性之間取得平衡。
 *處理這個的一種方法是_softmax temperature_的概念。總是嘗試不同的溫度來找到“正確”的溫度。
'''

【OCR技術系列之三】大批量生成文字訓練集

9.png false per store else value 隨機 %d alt 放假了，終於可以繼續可以靜下心寫一寫OCR方面的東西。上次談到文字的切割，今天打算總結一下我們怎麽得到用於訓練的文字數據集。如果是想訓練一個手寫體識別的模型，用一些前人收集好的手寫文字集就

自動生成文字摘要

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！ Revolver 本文提及的主要內容有：什麼是文字摘要生成如何從網頁上提取資料如何清洗資料如何構建直方圖

php生成文字水印

一、素材準備電腦一個，圖片一張，字型庫一個，哦了字型庫在哪找呢？C盤——Fonts資料夾搜微軟雅黑就可以了二、程式碼實現 <?php //配置圖片資訊 $src="cat.jpg"; //獲取圖片資訊 $info=getimagesize($s

keras使用LSTM生成文字

本文主要介紹使用LSTM實現字元級文字生成。下面是示例程式碼： # coding: utf-8 # In[1]: # 下載語料庫並將其轉化為小寫 import keras import numpy as np path = keras.utils.get_file( '

利用Matlab生成文字格式的影象目錄及分類標籤

話不多說，直接上程式碼，有問題請留言 clc;clear;close; %% 生成txt格式的影象分類標籤 path='D:\人工智慧\影象識別資料\'; folders=dir(path);% dir是direcory的縮寫，是目錄的意思，返回的folders是結構體，包

golang基礎--image/draw渲染圖片、利用golang/freetype庫在圖片上生成文字

文章目錄需求安裝依賴邏輯效果圖例項需求在一張A4紙上，利用image/draw標準庫生成4張二維碼，和該二維碼的客戶資訊 1、二維碼生成利用到的庫就是image/draw，通過draw.Draw進行寫入 2、然後字型渲染利用了golang/freetype開

java隨機生成文字

public void test(){ String str=""; for(int i=0;i<4;i++){ char c=(char)(0x4e00+(int) (Math.random()*(0x9fa5-0x4e00+1)

動態生成文字框並獲取資料

首先來描述一下業務需求：如圖所示，當點選‘增加登入引數’按鈕，會動態生成引數文字框，並能獲取到資料一、動態生成文字框 1、頁面程式碼 <%--Content 用來新增文字框 --%> <div style="" id="Content"&

PHP合成圖片、生成文字、居中對齊、畫線、矩形、三角形、多邊形、圖片抗鋸齒、不失真高效能原始碼示例

function generateImg($source, $text1, $text2, $text3, $font = './msyhbd.ttf') { $date = '' . date ( 'Ymd' ) . '/'; $img = $date . md5 ( $source

通過sh指令碼將資料庫資料生成文字檔案並上傳ftp

通過sh 指令碼將資料庫表生成csv檔案並壓縮上傳ftpsource /etc/profile export NLS_LANG=AMERICAN_AMERICA.AL32UTF8 YYYY=`date "+%Y"` MM=`date "+%m"` DD=`date "+%d

java 生成文字圖片

import java.awt.Color; import java.awt.Font; import java.awt.FontMetrics; import java.awt.Graphics;

用RNN生成文字的簡單例子（過程詳細）

將文章字母編碼 import time from collections import namedtuple import numpy as np import tensorflow as tf with open('anna.txt', 'r') a

java生成文字檔案linux下換行問題

這是一個老生常談的問題，我只告訴大家我遇見的問題以及解決方案和整體思路。首先我們是在windows環境下開發，伺服器環境為linux，需求是生成txt檔案並下載。開始我用的換行符是System.getProperty

tensorflow程式碼全解析 -3- seq2seq 自動生成文字

模型概述序列建模seq2seq,給定一個序列A，模型生產另一個序列B，然後模型再由序列B生成C,以此一直持續下去。基本工作流程如下：序列A中的每一個單詞通過word_embedding操作以後，作為input進seq2seq入模型，模型生成同樣維度的

dbms_random.value 隨機數問題 & 用DBMS_RANDOM生成文字和日期值

數字、文字字串和日期都是使用者會在表格裡碰到的三種常見資料型別。雖然你可以用PL／SQL程式包裡的DBMS_RANDOM隨機生成數字——它確實能夠做到這一點——它還能夠隨機生成文字和日期值。就讓我們先從數字開始。VALUE函式會返回一個大於等於0但是小於1的數，精度是38位。 SELECT

python+os根據檔名自動生成文字

有時我們有很多檔案（如圖片），我們需要對每一個檔案進行操作。我們還需要一份檔案的名字來進行遍歷，這時我們首先需要建立一份檔名單，有時還會對檔名做一定的篩選，如我們只選擇jpg格式的圖片。本文就是

使用TextRank生成文字摘要

開發十年，就只剩下這套架構體系了！ >>>

由文字生成path後制作寫字的動畫

rac -m reat mat index release data git ntc 在看以下這個開源組件的時候，發現一個非常棒的方法，能夠將文字生成path，這樣就能夠作出用筆寫字的效果了。 https://github.com/MP0w/MPParallaxColl

Gitbook 生成 pdf 中文字體錯亂問題解決辦法

開發沒有 tex spa 語句 auth 希望 node 遺憾 Gitbook 生成 pdf 中文字體錯亂問題解決辦法用過 Gitbook 的都知道, Gitbook 會自動生成 pdf 以提供下載, 但十分遺憾的是自動生成的 pdf 對中文的支持並不好, 經常

C# 文字圖片生成與背景圖片合成

span blank 做的 view col line 分辨率 creat bubuko 最近有個需求是將生成的邀請碼與背景圖片合成成為新的圖片，查找了一些資料後又整理了一遍，查到了一個群主的帖子，雖然代碼略微有點問題，地址是：https://www.cnblogs.com

keras使用LSTM生成文字

相關推薦