RNN實現字元級語言模型 - 恐龍島_g

阿新 • • 發佈：2018-11-12

問題描述：樣本為所有恐龍名字，為了構建字元級語言模型來生成新的名稱，你的模型將學習不同的名稱模式，並隨機生成新的名字。

在這裡你將學習到：

如何儲存文字資料以便使用rnn進行處理。
如何合成數據，通過每次取樣預測，並將其傳遞給下一個rnn單元。
如何構建字元級文字生成迴圈神經網路。
為什麼梯度修剪很重要?

1 import numpy as np
2 import random
3 import time
4 import cllm_utils

1 - 問題描述

1.1 - 資料集與預處理

 1 
 # 獲取名稱
 2 data = open("dinos.txt", "r").read()
 3 
 4 # 轉化為小寫字元
 5 data = data.lower()
 6 
 7 # 轉化為無序且不重複的元素列表
 8 chars = list(set(data))
 9 
10 # 獲取大小資訊
11 data_size, vocab_size = len(data), len(chars)
12 
13 print(chars)
14 print("共計有%d個字元，唯一字元有%d個"%(data_size,vocab_size))

data='Aachenosaurus\nAardonyx\nAbdallahsaurus\...'

chars=['o', 'm', 'k', 'v', 'w', 'b', 'j', 'd', 'x', 'a', 'h', 'i',
 'e', 'l', 's', 't', 'n', 'z', 'p', 'y', 'g', 'f', '\n', 'q',
 'r', 'u', 'c']
共計有19909個字元，唯一字元有27個

1 char_to_ix = {ch:i for 
 i,ch in enumerate(sorted(chars))}
2 ix_to_char = {i:ch for i,ch in enumerate(sorted(chars))}
3 
4 print(char_to_ix)
5 print(ix_to_char)

 {'\n': 0, 'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6, 
'g': 7, 'h': 8, 'i': 9, 'j': 10, 'k': 11, 'l': 12, 'm': 13, 
'n': 14, 'o': 15, 'p': 16, 'q': 17, 'r': 18, 's': 19, 't': 20, 
'u': 21, 'v': 22, 'w': 23, 'x': 24, 'y': 25, 'z': 26}

 {0: '\n', 1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f',
 7: 'g', 8: 'h', 9: 'i', 10: 'j', 11: 'k', 12: 'l', 13: 'm',
 14: 'n', 15: 'o', 16: 'p', 17: 'q', 18: 'r', 19: 's', 20: 't',
 21: 'u', 22: 'v', 23: 'w', 24: 'x', 25: 'y', 26: 'z'}

1.2 - 模型回顧

模型的結構如下：

初始化引數
迴圈：
- 前向傳播計算損失
- 反向傳播計算關於損失的梯度
- 修剪梯度以免梯度爆炸
- 用梯度下降更新規則更新引數。
返回學習後了的引數

2 - 構建模型中的模組

在這部分，我們將來構建整個模型中的兩個重要的模組：

梯度修剪：避免梯度爆炸
取樣:一種用來產生字元的技術

2.1 梯度修剪

在這裡,我們將實現在優化迴圈中呼叫的clip函式.回想一下，整個迴圈結構通常包括前向傳播、成本計算、反向傳播和引數更新。

在更新引數之前,我們將在需要時執行梯度修剪,以確保我們的梯度不是“爆炸”的.

接下來我們將實現一個修剪函式,該函式輸入一個梯度字典輸出一個已經修剪過了的梯度.有很多的方法來修剪梯度,我們在這裡

使用一個比較簡單的方法.梯度向量的每一個元素都被限制在[−N，N] [-N，N][−N，N]的範圍,通俗的說，有一個maxValue(比如10)，

如果梯度的任何值大於10,那麼它將被設定為10,如果梯度的任何值小於-10,那麼它將被設定為-10,如果它在-10與10之間,那麼它將不變。

 1 def clip(gradients, maxValue):
 2     """
 3     使用maxValue來修剪梯度
 4     
 5     引數：
 6         gradients -- 字典型別，包含了以下引數："dWaa", "dWax", "dWya", "db", "dby"
 7         maxValue -- 閾值，把梯度值限制在[-maxValue, maxValue]內
 8         
 9     返回：
10         gradients -- 修剪後的梯度
11     """
12     # 獲取引數
13     dWaa, dWax, dWya, db, dby = gradients['dWaa'], gradients['dWax'], gradients['dWya'], gradients['db'], gradients['dby']
14     
15     # 梯度修剪
16     for gradient in [dWaa, dWax, dWya, db, dby]:
17         np.clip(gradient, -maxValue, maxValue, out=gradient)
18 
19     gradients = {"dWaa": dWaa, "dWax": dWax, "dWya": dWya, "db": db, "dby": dby}
20     
21     return gradients

函式接受最大閾值，並返回修剪後的梯度

 1 def sample(parameters, char_to_is, seed):
 2     """
 3     根據RNN輸出的概率分佈序列對字元序列進行取樣
 4     
 5     引數：
 6         parameters -- 包含了Waa, Wax, Wya, by, b的字典
 7         char_to_ix -- 字元對映到索引的字典
 8         seed -- 隨機種子
 9         
10     返回：
11         indices -- 包含取樣字元索引的長度為n的列表。
12     """
13     
14     # 從parameters 中獲取引數
15     Waa, Wax, Wya, by, b = parameters['Waa'], parameters['Wax'], parameters['Wya'], parameters['by'], parameters['b']
16     vocab_size = by.shape[0]
17     n_a = Waa.shape[1]
18     
19     # 步驟1 
20     ## 建立獨熱向量x
21     x = np.zeros((vocab_size,1))
22     
23     ## 使用0初始化a_prev
24     a_prev = np.zeros((n_a,1))
25     
26     # 建立索引的空列表，這是包含要生成的字元的索引的列表。
27     indices = []
28     
29     # IDX是檢測換行符的標誌，我們將其初始化為-1。
30     idx = -1
31     
32     # 迴圈遍歷時間步驟t。在每個時間步中，從概率分佈中抽取一個字元，
33     # 並將其索引附加到“indices”上，如果我們達到50個字元，
34     #（我們應該不太可能有一個訓練好的模型），我們將停止迴圈，這有助於除錯並防止進入無限迴圈
35     counter = 0
36     newline_character = char_to_ix["\n"]
37     
38     while (idx != newline_character and counter < 50):
39         # 步驟2：使用公式1、2、3進行前向傳播
40         a = np.tanh(np.dot(Wax, x) + np.dot(Waa, a_prev) + b)
41         z = np.dot(Wya, a) + by
42         y = cllm_utils.softmax(z)
43         
44         # 設定隨機種子
45         np.random.seed(counter + seed)
46         
47         # 步驟3：從概率分佈y中抽取詞彙表中字元的索引
48         idx = np.random.choice(list(range(vocab_size)), p=y.ravel())
49         
50         # 新增到索引中
51         indices.append(idx)
52         
53         # 步驟4:將輸入字元重寫為與取樣索引對應的字元。
54         x = np.zeros((vocab_size,1))
55         x[idx] = 1
56         
57         # 更新a_prev為a
58         a_prev = a 
59         
60         # 累加器
61         seed += 1
62         counter +=1
63     
64     if(counter == 50):
65         indices.append(char_to_ix["\n"])
66     
67     return indices
68

3 - 構建語言模型

3.1 - 梯度下降

在這裡，我們將實現一個執行隨機梯度下降的一個步驟的函式（帶有梯度修剪）。我們將一次訓練一個樣本，所以優化演算法將是隨機梯度下降，這裡是RNN的一個通用的優化迴圈的步驟：

前向傳播計算損失
反向傳播計算關於引數的梯度損失
修剪梯度
使用梯度下降更新引數

我們來實現這一優化過程（單步隨機梯度下降），這裡我們提供了一些函式：

1 # 示例，可參照上一篇部落格RNN的前向後向傳播。
 2 def rnn_forward(X, Y, a_prev, parameters):
 3     """
 4     通過RNN進行前向傳播，計算交叉熵損失。
 5 
 6     它返回損失的值以及儲存在反向傳播中使用的“快取”值。
 7     """
 8     ....
 9     return loss, cache
10     
11 def rnn_backward(X, Y, parameters, cache):
12     """ 
13     通過時間進行反向傳播，計算相對於引數的梯度損失。它還返回所有隱藏的狀態
14     """
15     ...
16     return gradients, a
17 
18 def update_parameters(parameters, gradients, learning_rate):
19     """
20     Updates parameters using the Gradient Descent Update Rule
21     """
22     ...
23     return parameters

 1 def optimize(X, Y, a_prev, parameters, learning_rate = 0.01):
 2     """
 3     執行訓練模型的單步優化。
 4     
 5     引數：
 6         X -- 整數列表，其中每個整數對映到詞彙表中的字元。
 7         Y -- 整數列表，與X完全相同，但向左移動了一個索引。
 8         a_prev -- 上一個隱藏狀態
 9         parameters -- 字典，包含了以下引數：
10                         Wax -- 權重矩陣乘以輸入，維度為(n_a, n_x)
11                         Waa -- 權重矩陣乘以隱藏狀態，維度為(n_a, n_a)
12                         Wya -- 隱藏狀態與輸出相關的權重矩陣，維度為(n_y, n_a)
13                         b -- 偏置，維度為(n_a, 1)
14                         by -- 隱藏狀態與輸出相關的權重偏置，維度為(n_y, 1)
15         learning_rate -- 模型學習的速率
16     
17     返回：
18         loss -- 損失函式的值（交叉熵損失）
19         gradients -- 字典，包含了以下引數：
20                         dWax -- 輸入到隱藏的權值的梯度，維度為(n_a, n_x)
21                         dWaa -- 隱藏到隱藏的權值的梯度，維度為(n_a, n_a)
22                         dWya -- 隱藏到輸出的權值的梯度，維度為(n_y, n_a)
23                         db -- 偏置的梯度，維度為(n_a, 1)
24                         dby -- 輸出偏置向量的梯度，維度為(n_y, 1)
25         a[len(X)-1] -- 最後的隱藏狀態，維度為(n_a, 1)
26     """
27     
28     # 前向傳播
29     loss, cache = cllm_utils.rnn_forward(X, Y, a_prev, parameters)
30     
31     # 反向傳播
32     gradients, a = cllm_utils.rnn_backward(X, Y, parameters, cache)
33     
34     # 梯度修剪，[-5 , 5]
35     gradients = clip(gradients,5)
36     
37     # 更新引數
38     parameters = cllm_utils.update_parameters(parameters,gradients,learning_rate)
39     
40     return loss, gradients, a[len(X)-1]

3.2 - 訓練模型

給定恐龍名稱的資料集，我們使用資料集的每一行(一個名稱)作為一個訓練樣本。每100步隨機梯度下降，你將抽樣10個隨機選擇的名字，看看演算法是怎麼做的。

記住要打亂資料集，以便隨機梯度下降以隨機順序訪問樣本。當examples[index]包含一個恐龍名稱（String）時，為了建立一個樣本（X,Y），你可以使用這個：

1         index = j % len(examples)
2         X = [None] + [char_to_ix[ch] for ch in examples[index]] 
3         Y = X[1:] + [char_to_ix["\n"]]

RNN實現字元級語言模型 - 恐龍島_g

問題描述：樣本為所有恐龍名字，為了構建字元級語言模型來生成新的名稱，你的模型將學習不同的名稱模式，並隨機生成新的名字。在這裡你將學習到：如何儲存文字資料以便使用rnn進行處理。如何合成數據，通過每次取樣預測，並將其傳遞給下一個rnn單元。如何構建字元級文字生成迴圈神經網路。為

No.2 Pytorch 實現RNN語言模型

最近使用Pytorch，搭建了一個RNNLM，目的是為了利用詞典中的每個詞的One-Hot編碼（高維的稀疏向量），來生成 Dense Vectors。這篇文章不講解RNN原理以及為什麼使用RNN語言模型，只是對pytorch中的程式碼使用進行講解。目前Pyt

語言模型和RNN CS244n 大作業 Natural Language Processing

語言模型語言模型能夠計算一段特定的字詞組合出現的頻率，比如：”the cat is small” 和 “small the is cat”，前者出現的頻率高同樣的，根據前面所有的字詞序列資訊，我們可以確定下一個位置某個特定詞出現的頻率，豎線左邊表示下一個出現詞

字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

1. one-hot編碼 # 字符集的one-hot編碼 import string samples = ['zzh is a pig','he loves himself very much','pig pig han'] characters

【Language model】使用RNN LSTM訓練語言模型寫出45°角仰望星空的文章

開篇這篇文章主要是實戰內容，不涉及一些原理介紹，原理介紹為大家提供一些比較好的連結： 1. Understanding LSTM Networks : RNN與LSTM最為著名的文章，貼圖和內容都恰到好處，為研究人員提供很好的參考價值。中文漢化版：（譯

輸入一串字元，並判斷其中英文字元和數字字元的個數——C語言實現（C語言練習）

先看程式執行的結果，（文末有該程式的完整程式碼） 1、先寫好框架 #include<stdio.h> void main() { } 2、再定義所需要的變數 char str;//定義一個字元型變數 str int i=0,counte

python實現基於單詞級one-hot編碼和字元級的one-hot編碼

one-hot編碼是將標記轉換為向量的最常用、最基本的方法。它將每個單詞與一個唯一的整數索引相關聯，然後將這個整數索引 i 轉換為長度為N的二進位制向量（N是詞表大小），這個向量只有第i個元素是1，其餘元素都為0. 單詞級的one-hot編碼 import numpy

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

說明：本文為斯坦福大學CS224d課程的中文版內容筆記，已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表 1.語言模型語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度為m的詞彙序列{w1,…,wm}的聯合概率被表示為

CNN字元級中文文字分類-基於TensorFlow實現

本章旨在使用TensorFlow API實現卷積神經網路文字分類。如今，TensorFlow大版本已經升級到了1.3，對很多的網路層實現了更高層次的封裝和實現，甚至還整合瞭如Keras這樣優秀的一些高層次框架，使得其易用性大大提升

C語言下使用iconv函式實現字元編碼轉換

1.iconv相關函式介紹 iconv命令是用來轉換檔案的編碼方式的（Convert encoding of given files from one encoding to another），比如它可以將UTF8編碼的轉換成GB18030的編碼，反過來也行。一般linux下包含iconv指令：格式：ico

TensorFlow 實現基於LSTM的語言模型

一、LSTM的相關概念部落格上有很多講解的很好的博主，我看的是這個博主的關於LSTM的介紹，感覺很全面，如果對LSTM原理不太明白的，可以點選這個連結。LSTM相關概念，這裡就不多做介紹了哈！二、GRU介紹這裡為什麼要介紹下GRU呢！因為在RNN的各種變種中，除了LSTM，另

基於負取樣的skip-garm的語言模型實現－R

基本思路：已知詞w，在文章中統計其上下文u1，u2。。。在負樣本集中選取負樣本u3、u4。。。詞w的詞向量與其對應的每個樣本向量乘積，利用sigmod函式求得概率估計值。與標記值target的殘差求梯度下降，優化輸入詞向量、權值向量、偏置向量。問題：初始化輸入詞向量

Language Model perplexity by using tensorflow使用tensorflow RNN模型計算語言模型的困惑度

LM perplexity by using tensorflow 1、Language model perplexity是衡量語言模型好壞的重要指標，其計算公式P(sentence)^-(1/N) 2、tensorflow的RNN模型如何使用參考API

tensorflow例項：實現word2vec語言模型

版本說明 ———-這次我不會忘記要寫版本了分割線~ python：python3.5 tensorflow：tensorflow-0.12.1 numpy+mkl：numpy-1.11.3+mkl matplotlib：matplotlib-2.0

LightRNN —— 基於RNN的輕量級語言模型

2017年6月我在MSRA實習的時候，在微軟內部的Talk上聽過MSRA主管研究員秦濤博士講過一篇他們團隊在2016年頂會NIPS上發表的最新成果《LightRNN: Memory and Computation-Efficient Recurrent Neur

tensorflow17《TensorFlow實戰Google深度學習框架》筆記-08-02 使用迴圈神經網路實現語言模型 code

tensorflow RNN LSTM語言模型

參考部落格：以上鍊接講解詳細，主要說明以下：（1）資料的總量為 batch_size * num_steps * epoch_size batch_size:一批資料的樣本數 num_steps:LSTM單元的展開步數，即橫向LSTM序列上有幾個單元 epoc

基於RNN的語言模型與機器翻譯NMT

以RNN為代表的語言模型在機器翻譯領域已經達到了State of Art的效果，本文將簡要介紹語言模型、機器翻譯，基於RNN的seq2seq架構及優化方法。語言模型語言模型就是計算一序列詞出現的概率P(w1,w2,...,wT)。語

語言模型與RNN

注：cs224n 語言模型：一個用來預測下一個單詞的系統模型用公式可以表示為： P(x(t+1)=wj|x(t),...,x(1))P(x(t+1)=wj|x(t),...,x(1)) 這裡wjwj是一個位於詞彙表V={w1,...,w|V|w1,..

iconv C++ 實現字元 (語言) 編碼轉換

iconv是linux超強的字元編碼轉換工具，其提供命令列和原始碼兩種方式可以使用。在windows下如果想用，可能需要通過mingw ，一個可能的組合是mingw +　code::blocks + gcc + windows. 不過沒有試過，如果需要，值得一試。 1

RNN實現字元級語言模型 - 恐龍島_g

1 - 問題描述

1.1 - 資料集與預處理

1.2 - 模型回顧

2 - 構建模型中的模組

2.1 梯度修剪

3 - 構建語言模型

3.1 - 梯度下降

3.2 - 訓練模型

相關推薦