0. 寫在前面

這一章我們介紹語言模型。不過要說的是，這裡的語言模型基本上是基於字詞的，但是其思想也是要掌握的，如果以後到句子、段落、篇章的時候，這些思想都是十分有用的。

1. 語言模型

語言模型（LM）在自然語言處理中佔有重要地位，而且像n元語法模型是一個簡單但是比較有效的模型。只能說比較有效，但是想要提高到非常高的地步，還需要繼續改進才行。

1.1 n元語法

我們正常人的思維，肯定是這樣想的，一句話的每個單詞，都會與之前所有出現的詞相關，甚至是與後面出現的詞也相關（雙向RNN）。

而一個語言模型通常構建為字串s的概率分佈p(s)，這裡p(s)試圖反應的是字串s作為一個句子出現的頻率。對於一個由l個基元（基元就是基本單元，這裡一般指字、詞、短語，沒有再大的了）構成的句子s

=w1w2⋅⋅⋅wl其概率計算公式可以表示為：

p(s)=p(w1)p(w2|w1)p(w3|w1w2)⋅⋅⋅p(wl|w1⋅⋅⋅wl−1)
=∏i=1lp(wi|w1⋅⋅⋅wi−1)

上面就是n元語法，它只考慮前n-1個詞與當前詞的關係，而且n的取值一般是1,2,3,…,7等這種比較小的數。之所以這樣做，當然是為了簡化計算，因為如果我們考慮的前n個詞過多的話，那麼我們的自由引數都是幾何式增長，計算機一是訓練不來，二是根本沒有這麼多語料可供我們使用。

1.1.1 一元文法

一元文法就是n=1,也就是隻考慮當前詞，這樣的話，就相當於是統計詞頻了。沒有什麼太大價值。

1.1.2 二元文法

二元文法則是n=2，這就有價值了，我們稱為是一階馬爾科夫鏈。因為有一個概率是我們能夠看到的，但是會影響最終結果的：

p(s)≈∏i=1lp(wi|wi−1)
而p(wi|wi−1)=c(wi−1wi)∑wic(wi−1wi)這時最大似然估計。

如果是這樣子，那麼它就是這樣一個樣子，需要在頭和尾分別新增一個開頭標記和結尾標記w0和wl的內容。

1.1.3 三元文法

三元文法則是n=3，這時平時用的比較多的，我們稱為二階馬爾科夫鏈。同樣的，它的樣子我們也可以寫出來：

p(s)≈∏i=1lp(wi|wi−1wi−2)
但有時候，如果資料太過稀疏的話，我們可能要考慮資料平滑了。
或者說可以使用下面式子來近似：
p

1.2 語言模型評價

評價一個語言模型的效能通常就是使用交叉熵或者困惑度來進行，
一個n元文法，總結來講，可以使用如下公式來統一：

p(s)≈∏i=1l+1p(wi|wi−1i−n+1)
那麼p(wi|wi−1i−n+1)=p(wi|wi−

計算語言學之語言模型

0. 寫在前面

1. 語言模型

1.1 n元語法

1.1.1 一元文法

1.1.2 二元文法

1.1.3 三元文法

1.2 語言模型評價

計算語言學之語言模型

卷積新用之語言模型

NLP底層技術之語言模型

自然語言處理之語言模型綜述

計算語言學概論複習筆記（分詞、語言模型、隱馬爾科夫、POS、ML、DL、MT）

讀《數學之美》第三章統計語言模型

（待續）科學計算與MATLAB語言之資料分析

科學計算與MATLAB語言之基礎知識

服務計算學習之路-CentOS7 安裝 Go 語言開發環境

語言模型中用到的幾種取樣之不全版

NLP之神經網路語言模型之超級無敵最佳資料

R語言時間序列之ARIMA模型

深度學習課程之文字預處理、詞袋模型、word2vec、語言模型（1.9）

Language Model perplexity by using tensorflow使用tensorflow RNN模型計算語言模型的困惑度

數學之美第3章統計語言模型

SRILM使用之訓練無平滑語言模型

1《數學之美》第3章統計語言模型

計算廣告之CTR預測--PNN模型

5Python全棧之路系列之Django模型續

多路I/O轉接之select模型

計算語言學之語言模型

0. 寫在前面

1. 語言模型

1.1 n元語法

1.1.1 一元文法

1.1.2 二元文法

1.1.3 三元文法

1.2 語言模型評價

相關推薦