NLP：NLM-神經語言模型

阿新 • • 發佈：2019-01-21

文章：自然語言處理模型；經過幾天對nlp的理解，接下來我們說說語言模型，下面還是以PPT方式給出。

一、統計語言模型

1、什麼是統計語言模型？
一個語言模型通常構建為字串s的概率分佈p(s)，這裡的p(s)實際上反映的是s作為一個句子出現的概率。

這裡的概率指的是組成字串的這個組合，在訓練語料中出現的似然，與句子是否合乎語法無關。假設訓練語料來自於人類的語言，那麼可以認為這個概率是的是一句話是否是人話的概率。

2、怎麼建立統計語言模型？
對於一個由T個詞按順序構成的句子，p(s)實際上求解的是字串的聯合概率，利用貝葉斯公式，鏈式分解如下：

$p(s)=p(w_{1},w_{2}\cdot \cdot \cdot w_{T})=p(w_{1})p(w_{2}|w_{1})p(w_{3}|w_{1}w_{2})\cdot \cdot \cdot p(w_{T}|w_{1}\cdot \cdot \cdot w_{T-1})$

從上面可以看到，一個統計語言模型可以表示成，給定前面的的詞，求後面一個詞出現的條件概率。

我們在求p(s)時實際上就已經建立了一個模型，這裡的p(*)就是模型的引數，如果這些引數已經求解得到，那麼很容易就能夠得到字串s的概率。

3、求解的問題
假定字串s為“i want to drink some water”，那麼根據上面所建立的模型：

問題歸結為如何求解上面的每一個概率，比如，一種比較直觀的方法就是分別計算出“I want to”和“I want to drink”在語料中出現的頻數，然後再用除法：

$p(drink|I\; want\; to)=\frac{count(I\; want\; to\; drink)}{count(I\; want\; to)}$

看起來好像很美好，實際上這裡存在兩個問題：

（1）自由引數數目：
假定字串中字元全部來自與大小為V的詞典，上述例子中我們需要計算所有的條件概率，對於所有的條件概率，這裡的w都有V種取值，那麼實際上這個模型的自由引數數目量級是V^6，6為字串的長度。

從上面可以看出，模型的自由引數是隨著字串長度的增加而指數級暴增的，這使我們幾乎不可能正確的估計出這些引數。

（2）資料稀疏性：
從上面可以看到，每一個w都具有V種取值，這樣構造出了非常多的詞對，但實際中訓練語料是不會出現這麼多種組合的，那麼依據最大似然估計，最終得到的概率實際是很可能是0。

4、怎麼解決？
上面提出了傳統統計語言模型的兩個問題，後面分別介紹兩種方法進行求解：N-gram語言模型，神經概率語言模型。

二、N-gram語言模型

1、什麼是N-gram語言模型？
為了解決自由引數數目過多的問題，引入了馬爾科夫假設：隨意一個詞出現的概率只與它前面出現的有限的n個詞有關。基於上述假設的統計語言模型被稱為N-gram語言模型。

2、如何確定N的取值？
通常情況下，n的取值不能夠太大，否則自由引數過多的問題依舊存在：

（1）當n=1時，即一個詞的出現與它周圍的詞是獨立，這種我們稱為unigram，也就是一元語言模型，此時自由引數量級是詞典大小V。

（2）當n=2時，即一個詞的出現僅與它前面的一個詞有關時，這種我們稱為bigram，叫二元語言模型，也叫一階馬爾科夫鏈，此時自由引數數量級是V^2。

（3）當n=3時，即一個詞的出現僅與它前面的兩個詞有關，稱為trigram，叫三元語言模型，也叫二階馬爾科夫鏈，此時自由引數數量級是V^3。

一般情況下只使用上述取值，因為從上面可以看出，自由引數的數量級是n取值的指數倍。

從模型的效果來看，理論上n的取值越大，效果越好。但隨著n取值的增加，效果提升的幅度是在下降的。同時還涉及到一個可靠性和可區別性的問題，引數越多，可區別性越好，但同時單個引數的例項變少從而降低了可靠性。

3、建模與求解
N-gram語言模型的求解跟傳統統計語言模型一致，都是求解每一個條件概率的值，簡單計算N元語法在語料中出現的頻率，然後歸一化。

4、平滑化
我們在傳統統計語言模型提出了兩個問題：自由引數數目和資料稀疏，上述N-gram只是解決了第一個問題，而平滑化就是為了解決第二個問題。

假設有一個片語在訓練語料中沒有出現過，那麼它的頻次就為0，但實際上能不能認為它出現的概率為0呢？顯然不可以，我們無法保證訓練語料的完備性。那麼，解決的方法是什麼？如果我們預設每一個片語都出現1次呢，無論片語出現的頻次是多少，都往上加1，這就能夠解決概率為0的問題了。

上述的方法就是加1平滑，也稱為拉普拉斯平滑。參考：理解樸素貝葉斯中的拉普拉斯平滑；

平滑化還有許多方法，這裡就不展開介紹了：（1）加法平滑；（2）古德-圖靈平滑；（3）K平滑

三、神經概率語言模型

（不同於基於類的n-gram模型，神經語言模型在識別兩個相似的詞的基礎上，而不喪失將每個詞編碼為彼此不同的能力。神經語言模型共享一個詞（及其上下文）和其他類似詞（和上下文之間）的統計強度。模型為每個詞學習的分散式表示，允許模型處理具有類似共同特徵的詞來實現這種共享。例如，如果詞dog 和詞cat 對映到具有許多屬性的表示，則包含詞cat 的句子可以告知模型對包含詞dog 的句子做出預測，反之亦然。因為這樣的屬性很多，所以存在許多泛化的方式，可以將資訊從每個訓練語句傳遞到指數數量的語義相關語句。維數災難需要模型泛化到相對句子長度是指數多的句子。該模型通過將每個訓練句子與指數數量的類似句子相關聯克服這個問題。
我們有時將這些詞表示稱為詞嵌入(word embedding)，《DeepLearning》中文版 p.390 ）

1、前置知識
在N-gram語言模型中，計算條件概率的方法是簡單的用詞頻做除法然後歸一化。

在機器學習的領域中，通用的做法是：對所考慮的問題建模後先為其構造一個目標函式，然後對這個目標函式進行優化，從而求得一組最優的引數，最後再利用這組引數對應的模型來進行預測。

那麼在上述的語言模型中，利用最大化對數似然，將目標函式設為：

$L=\sum log\, p(w|Context(w))$

Context代表詞w的上下文，對應N-gram就是詞w的前N-1個詞。之後對目標函式進行最大化，由上可見，概率實際上是w和的函式：

$p(w|Context(w))=F(w,Context(w),\Theta )$

其中θ為待定引數集，這樣將計算所有的條件概率轉化為了最優化目標函式，求解得到θ的過程。通過選取合適模型可以使得θ引數的個數遠小於N-gram模型中引數的個數。

2、什麼是神經概率語言模型？
Begio等人在2003年發表的A Neural Probabilistic Language Model，裡面詳解了這個方法。

基本的思想其實與上述的前置知識有所聯絡，既然是神經概率語言模型，那麼實現的時候自然有一個神經網路，結構圖如下：

它包括了四個層：輸入層、投影層、隱藏層和輸出層。

2、計算流程
（1）輸入層
這裡就是詞w的上下文，如果用N-gram的方法就是詞w的前n-1個詞了。每一個詞都作為一個長度為V的one-hot向量傳入神經網路中。

（2）投影層
在投影層中，存在一個look-up表C，C被表示成一個V*m的自由引數矩陣，其中V是詞典的大小，而m作為自定義的引數，一般是10^2的倍數。

表C中每一行都作為一個詞向量存在，這個詞向量可以理解為每一個詞的另一種分散式表示。每一個one-hot向量都經過表C的轉化變成一個詞向量。

n-1個詞向量首尾相接的拼起來，轉化為(n-1)m的列向量輸入到下一層。

（3）隱藏層、輸出層
之後再對列向量進行計算，大致如下： $\left\{\begin{matrix} z_{w}=tanh(W_{x_{w}}+p)\\ y_{w}=U_{z_{w}}+q \end{matrix}\right.$

其中tanh是啟用函式，是為歸一化的log概率，之後再用softmax進行歸一化，就得到最終的概率輸出了。

在前置知識中我們提到了引數θ，那麼在神經網路中，實際的引數如下：

詞向量：v(w)，w以及填充向量

神經網路引數：W，p，U，q

3、最後
在傳統統計語言模型中，我們提出兩個問題：自由引數數目和資料稀疏。

這裡在實際上使用引數θ代替了自由引數指數級的求解，而資料稀疏問題，我們在最後使用softmax進行歸一化，求解出來的概率是平滑的，所以也解決了這個問題。

四、結合n-gram和NLM

n-gram模型相對神經網路的主要優點是n-gram模型具有更高的模型容量（通過儲存非常多的元組的頻率），並且處理樣本只需非常少的計算量（通過查詢只匹配當前上下文的幾個元組）。如果我們使用雜湊表或樹來訪問計數，那麼用於n-gram的計算量幾乎與容量無關。相比之下，將神經網路的引數數目加倍通常也大致加倍計算時間。避免每次計算時使用所有引數的模型是例外。嵌入層每次只索引單個嵌入，所以我們可以增加詞彙量，而不會增加每個樣本的計算時間。一些其他模型，例如平鋪卷積網路，可以在減少引數共享程度的同時新增引數以保持相同的計算量。然而，基於矩陣乘法的典型神經網路層需要與引數數量成比例的計算量。

因此，增加容量的一種簡單方法是將兩種方法結合，由神經語言模型和n-gram語言模型組成整合(Bengio et al., 2001b, 2003)。
對於任何整合，如果整合成員產生獨立的錯誤，這種技術可以減少測試誤差。整合的領域提供了許多方法來組合整合成員的預測包括統一加權和在驗證集上選擇權重。Mikolov et al. (2011a) 擴充套件了整合，不是僅包括兩個模型，而是包括大量模型。我們也可以將神經網路與最大熵模型配對並聯合訓練(Mikolov et al., 2011b)。該方法可以被視為訓練具有一組額外輸入的神經網路，額外輸入直接連線到輸出並且不連線到模型的任何其他部分。額外輸入是輸入上下文中特定n-gram是否存在的指示器，因此這些變數是非常高維且非常稀疏的。

模型容量的增加是巨大的（架構的新部分包含高達jsV jn 個引數），但是處理輸入所需的額外計算量是很小的（因為額外輸入非常稀疏）。

NLP：NLM-神經語言模型

一、統計語言模型

二、N-gram語言模型

三、神經概率語言模型

四、結合n-gram和NLM

NLP：NLM-神經語言模型

stanford nlp第四課“語言模型（Language Modeling）”

tensorflow例項：實現word2vec語言模型

NLP底層技術之語言模型

NLP之神經網路語言模型之超級無敵最佳資料

NLP學習記錄：語言模型

NLP（三）_統計語言模型

Familia：百度NLP開源的中文主題模型應用工具包

NLP語言模型

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

《NLP漢語自然語言處理原理與實踐》第四章 NLP中的概率圖模型

神經網路語言模型在語音識別的應用論文整理

NNLM(神經網路語言模型)

【NLP】語言模型和遷移學習

AutoMl及NAS概述：更有效地設計神經網路模型工具

神經概率語言模型

Deep Learning in NLP （一）詞向量和語言模型

NLP中語言模型預訓練方法

NLP：主題模型LDA+SVM進行文字分類

輕量化神經網路模型總結：SqueezeNet、Xception、MobileNet、ShuffleNet

NLP：NLM-神經語言模型

一、統計語言模型

二、N-gram語言模型

三、神經概率語言模型

四、結合n-gram和NLM

相關推薦