深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

阿新 • • 發佈：2019-01-24

感想

這是臺灣大學Speech Processing and Machine Learning Laboratory的李巨集毅 (Hung-yi Lee)的次課的內容，他的課有大量生動的例子，把原理也剖析得很清楚，感興趣的同學可以去看看，這裡是我對它的一次課的筆記，我覺得講得不錯，把語言模型的過程都講清楚了，例子都很好懂，所以分享給大家。

介紹

語言模型：估計單詞序列的概率值,其中單詞序列為：w1,w2,…,wn。我們要求得概率為P(w1,w2,…,wn)
語言模型應用場景：（1）是語音識別，不同的單詞序列可以有相同的發音，我們就可以通過語言模型來進行判斷，如下面的例子

語音識別出現的機率比破壞海灘的機率大，因此輸出就是語音識別。
（2）應用：句子生成（sentence generation），比如你在設計對話系統的時候，現在有好多句子都可以進行迴應，我們就可以用語言模型（language model）選擇文法最對的句子。

傳統的語言模型

N-gram

怎樣估計P(w1,w2,…,wn)？
我們可以收集很大的文字資料作為訓練集，但是有一些單詞序列可能不會出現在訓練集（你自己的語料庫）中。

我們把w1,…,wn拆分成很多個部分，我們計算每一個部分的機率，然後把機率連乘起來，就得到了語言模型序列的概率。其中的start是句子開始的地方認為加上的。例如

然後我們從訓練集中估計，如P(beach)|nice)

如果計算概率考慮前1個字就是2-gram,考慮前兩個字就是3-gram…….

基於神經網路的語言模型

神經網路的訓練過程很簡單，前期收集一個很大的語料庫

神經網路的輸入和輸出為

然後我們最小化交叉熵，有了神經網路以後，我們來算一個句子的機率，先把句子拆成下面的形式,2-gram的形式。如果我們用神經網路的話，這裡的機率就不是統計出來的，是神經網路預測出來的。

P(b|a)：神經網路預測下一個單詞的機率。

我們需要加一個“start”的token，用1-of-N.然後讓它預測下一個是wreck的機率，然後你把wrech拿出來，用1-of-N編碼wreck，來預測下一個是a的機率。
這裡解釋一下1-of-N就是常說的onehot編碼，把資料用一個向量表示，在向量的維數中，target的那一維是1，其它的維都是0的編碼方式。

基於RNN的語言模型

輸入起始後，output就是潮水，輸入潮水後，output就是退了，這樣一直持續下去。
怎樣通過RNN計算P(w1,w2,…,wn)?

把RNN訓練出來以後，你把begin作為輸出，你就得到p(w1)的機率，你把w1輸進去，你就得到P(w2|w1)，以此類推，然後連乘起來，我們就得到句子的機率。RNN可以對long-term資訊進行建模，我們也可以用其它層數更深的RNN或者LSTM模型。

語言模型用神經網路的原因

N-gram的挑戰

最大的問題是，概率估計得不是很精準，特別是n-gram中的n很大的時候，如果需要保證精度的話，那麼我們需要的資料量很大，但是實際上我們不可能活得那麼多訓練資料，資料會變得稀疏。

由於訓練資料集的原因，Dog後面接jumped，cat後面接ran的機率是0，實際上不是真正是0.因為dog是可以jump的，cat是可以ran的。那我們怎麼解決呢？

不要把他們的機率賦值為0，我們給它一個小小的概率，這個叫做smoothing。怎樣把n-gram做好，裡面有很大的學問，不在本文討論範疇，請有興趣的人士查閱相關的資料。

矩陣分解

提到資料稀疏，我們就會想到矩陣分解

如上表格，橫軸代表歷史，縱軸代表詞彙。如圖，cat和jumped對應的單元代表P(jumped|cat)，表格大部分的空格是0，其實不是真正的是0，是因為訓練樣例不夠大，導致和0空格對應樣例的訓練資料沒有的緣故。上表可以類比推薦系統，歷史就是使用者，詞彙就是產品…。空格是0，並不代表它以後不會買，以後還是有機率買的，只是因為你統計的數目不夠多，沒有那方面的資料。

我們把詞彙用v來表示，比如ran就是v1,jumped就是v2等等。History也是一樣用h表示。表格裡的概率值我們用n加兩個下標來表示，第一個就是n11,斜線的第二個就是n22.
V和h是向量，是學出來的。

你想求的是當vi和vj做內積的時候，跟nij越接近越好。比如說v1和h1做內積的時候，跟n11越接近越好。
通過上面的訓練，你就可以把上面table中為0的值算出來，通過如下的計算公式。

這個有什麼好處呢？

Dog和cat有相近的h dog和h cat。如果v jumped 和h cat的內積很大，那麼v jumped h dog的值也就跟著很大。即使我們的訓練資料集裡面沒有dog jumped的語料。矩陣分解也相當於做了smoothming，不過是自動做的，前面的n-gram的smoothing是人為做的。
矩陣分解（Matric Factorization）是可以寫成神經網路的,

假設dog history寫成上圖hdog的形式，h dog和v ran做內積，h dog和v cried做內積，這樣每個vocabulary就可以得到一數值，這些數值的和你不能當成概率來看，因為他們的和可能不是1，甚至有可能是負的。我們就加一個softmax層，這樣我們就可以得到P(ran|dog)和P(cried|dog)。在訓練的時候，p(ran|dog)的機率是0.2，P(cried|dog)的機率是0，這樣就作為你的訓練目標（target）,也就是我們輸入後，網路得到的預測結果和target做cross entropy，我們就最小化這個函式；我們就可以把它想成神經網路。我們的input的就是history,input的大小就是history的大小。Input和上圖h dog相連線的權重，就是h cat, h dog.假設input的編碼方式是1-of-N的編碼。

原因：n-gram是暴力的方法，引數很多，神經網路引數很少。

語言模型用RNN的原因

引數能進一步減少。

考慮前t個詞彙，詞把w1作為輸入產生h1,w2作為輸入產生h2,…,wt輸進去產生ht，最後的ht就是這整個history的表達,不管你的history有多長，rnn引數都不會變多。Ht和Vocabulary裡面的每一個word v相乘，你學習的目標詞彙wt+1=1，其它的詞彙就是0，相當於一個one-hot編碼。

參考文獻

[1]. MLDS Lecture 4: Deep Learning forLanguage Modeling.

https://www.youtube.com/watch?v=Jvigef51rqk&index=4&list=PLJV_el3uVTsPMxPbjeX7PicgWbY7F8wW9

深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

感想

介紹

傳統的語言模型

N-gram

基於神經網路的語言模型

基於RNN的語言模型

語言模型用神經網路的原因

N-gram的挑戰

矩陣分解

語言模型用RNN的原因

參考文獻

深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

MIT 深度學習與自動駕駛公開課 Deep Learning for Self-Driving Cars 講義梗概

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

深度學習之模型fine-tuning（微調網路）

深度學習FPGA實現基礎知識6(Deep Learning（深度學習）學習資料大全及CSDN大牛部落格推薦)

深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

深度學習FPGA實現基礎知識10(Deep Learning（深度學習）卷積神經網路(Convolutional Neural Network，CNN))

DeepLearning.ai作業:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）

DeepLearning.ai筆記:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）

深度學習中的問題彙總（持續更新．．．）

資料結構學習並查集講解（思路，時間複雜度）

深度學習影象分割開原始碼（附連結，超級全）

【吳恩達 Coursera深度學習課程】 Neural Networks and Deep Learning 第一週課後習題

在Caffe中使用 DIGITS（Deep Learning GPU Training System）自定義Python層

深度學習（Deep Learning）讀書思考四：模型訓練優化

深度學習模型調優方法（Deep Learning學習記錄）

目前人工智慧最火的是-深度學習、機器學習、，採用深入淺出的方法，結合例項並配以大量程式碼練習，重點講解深度學習框架模型、科學演算法、訓練過程技巧。

人工智慧深度學習（Deep learning）開源框架

深度學習模型評估指標（http://scikit-learn.org/stable/）

機器學習與深度學習系列連載：第二部分深度學習（七）深度學習技巧4（Deep learning tips- Dropout）

深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

感想

介紹

傳統的語言模型

N-gram

基於神經網路的語言模型

基於RNN的語言模型

語言模型用神經網路的原因

N-gram的挑戰

矩陣分解

語言模型用RNN的原因

參考文獻

相關推薦