n-gram

阿新 • • 發佈：2018-10-26

一行正是講解圖片 sea 童鞋問題等等機器翻譯

n-gram

介紹語言模型
什麽是N-gram模型
N-Gram模型詳解
應用n-gram模型語言來評估
n-gram 模型其他應用舉例
總結

介紹語言模型

什麽是語言模型？簡單地說，語言模型就是用來計算一個句子的概率的模型，也就是判斷一句話是否合理的概率？說說其應用，一直以來，如何讓計算機可以理解我們人類的語言，都是人工智能領域的大問題。而機器翻譯，問答系統，語音識別，分詞，輸入法，搜索引擎的自動補全等也都應用到了語言模型。當然，一開始人們都是進行基於規則的語言模型的研究，但這樣往往有很大的問題，後來有人發明了基於統計的語言模型，並發現了其巨大的效果，而今天我們要講的N-gram語言模型，也正是一種於基於統計的語言模型

N-gram語言模型可以說是當下應用最廣的語言模型，當然了，隨著深度學習的發展，現在也有用RNN/LSTM這樣的神經網絡語言模型，效果比N-gram有時候要更好一些，但RNN解碼出每一個詞都得現算語言模型分數，有較慢的劣勢。

N-Gram模型詳解

既然要做語言模型，基於統計概率來說，我們需要計算句子的概率大小:，這個也就是最終要求的一句話的概率了，概率大，說明更合理，概率小，說明不合理，不是人話。。。。

因為是不能直接計算，所以我們先應用條件概率得到

中間插入下條件概率： P(B|A)：A 條件下 B 發生的概率。從一個大的空間進入到一個子空間（切片），計算在子空間中的占比。

技術分享圖片

然而，如果直接算條件概率轉化後的式子的話，對每個詞要考慮它前面的所有詞，這在實際中意義不大，顯然並不好算。那這個時候我們可以添加什麽假設來簡化嗎？可以的，我們可以基於馬爾科夫假設來做簡化。

什麽是馬爾科夫假設？

馬爾科夫假設是指，每個詞出現的概率只跟它前面的少數幾個詞有關。比如，二階馬爾科夫假設只考慮前面兩個詞，相應的語言模型是三元模型。引入了馬爾科夫假設的語言模型，也可以叫做馬爾科夫模型。

馬爾可夫鏈（Markov chain）為狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備"無記憶"的性質：下一狀態的概率分布只能由當前狀態決定，在時間序列中它前面的事件均與之無關。

也就是說，應用了這個假設表明了當前這個詞僅僅跟前面幾個有限的詞相關，因此也就不必追溯到最開始的那個詞，這樣便可以大幅縮減上述算式的長度。即式子變成了這樣：

註：這裏的m表示前m個詞相關

然後，我們就可以設置m=1，2，3，....得到相應的一元模型，二元模型，三元模型了，關於

當 m=1, 一個一元模型（unigram model)即為：

技術分享圖片

當 m=2, 一個二元模型（bigram model)即為：

技術分享圖片

當 m=3, 一個三元模型（trigram model)即為

技術分享圖片

而N-Gram模型也就是這樣，當m=1，叫1-gram或者unigram ；m=2，叫2-gram或者bigram ；當 m=3叫3-gram或者trigram ；當m=N時，就表示的是N-gram啦。

說明了什麽是N-Gram模型之後，下面說說N-Gram經典應用，同時更深入的理解下：

利用N-Gram模型評估語句是否合理

假設現在有一個語料庫，我們統計了下面的一些詞出現的數量

技術分享圖片

下面的這些概率值作為已知條件：

技術分享圖片

p(want|<s>) = 0.25

下面這個表給出的是基於Bigram模型進行計數之結果

技術分享圖片

例如，其中第一行，第二列表示給定前一個詞是 "i" 時，當前詞為"want"的情況一共出現了827次。據此，我們便可以算得相應的頻率分布表如下。

技術分享圖片

比如說，我們就以表中的p(eat|i)=0.0036這個概率值講解，從表一得出"i"一共出現了2533次，而其後出現eat的次數一共有9次，p(eat|i)=p(eat,i)/p(i)=count(eat,i)/count(i)=9/2533 = 0.0036

下面我們通過基於這個語料庫來判斷s1="<s> i want english food</s>" 與s2 = "<s> want i english food</s>"哪個句子更合理：

首先來判斷p(s1)

=0.25×0.33×0.0011×0.5×0.68=0.000031

再來求p(s2)？

=0.25*0.0022*0.0011*0.5*0.68 = 0.00000002057

通過比較我們可以明顯發現0.00000002057<0.000031,也就是說s1= "i want english food</s>"更合理。

當然，以上是對於二元語言模型（bigram model）的，大家也可以算下三元，或者1元語言模型的概率，不過結果都應該是一樣的，

再深層次的分析，我們可以發現這兩個句子的概率的不同，主要是由於順序i want還是want i的問題，根據我們的直覺和常用搭配語法，i want要比want i出現的幾率要大很多。所以兩者的差異，第一個概率大，第二個概率小，也就能說的通了。

註意，以上的例子來自：自然語言處理中的N-Gram模型詳解 - 白馬負金羈 - CSDN博客

n-gram 模型其他應用舉例

n-gram模型也有其他很多應用，以下一一舉例：

1.研究人類文明：n-gram模型催生了一門新學科(Culturomics)的成立，通過數字化的文本，來研究人類行為和文化趨勢。《可視化未來》這本書有詳細介紹，也可以通過知乎上的詳細介紹，還有就是TED上的視頻：what_we_learned_from_5_million_books 。

2.搜索引擎：當你在谷歌或者百度的時候，輸入一個或幾個詞，搜索框通常會以下拉菜單的形式給出幾個像下圖一樣的備選，這些備選其實是在猜想你想要搜索的那個詞串。如下圖：

技術分享圖片

實際上這些都是根據語言模型得出。比如使用的是二元語言模型預測下一個單詞：排序的過程就是：

p("不一樣"|"我們")>p("的愛"|"我們")>p("相愛吧"|"我們")>.......>p("這一家"|"我們")，這些概率值的求法和上面提到的完全一樣，數據的來源可以是用戶搜索的log。

3.輸入法：比如輸入"zhongguo"，可能的輸出有：中國，種過，中過等等....這背後的技術就要用到n-gram語言模型了。item就是每一個拼音對應的可能的字。

.......(還有很多，只有有關語言模型，都可以應用)

總結

以上就是今天我們了解的所有內容了。當然，對於n-gram，我們可能需要知道語料庫的規模越大，做出的n-gram對統計語言模型才更有用，或者n-gram的n大小對性能的影響也是很大的，比如n更大的時候對下一個詞出現的約束性信息更多，有更大的辨別力，n更小的時候在訓練語料庫中出現的次數更多，有更高的可靠性，等等，這些有興趣的童鞋就自己去查查吧，最後推薦一些書籍：

吳軍. 2012. 《數學之美》.

關毅. 2007. 哈工大：統計自然語言處理.

fandywang, 2012,《NLP&統計語言模型》.

等等，都有對n-gram或者語言模型的講述，值得一看的！

n-gram

n-gram

n-gram

介紹語言模型

N-Gram模型詳解

利用N-Gram模型評估語句是否合理

n-gram 模型其他應用舉例

總結

2017MySQL中文索引解決辦法自然語言處理(N-gram parser)

N-Gram模型

N-gram的簡單的介紹

通俗理解N-gram語言模型。（轉）

n-gram

ElasticSearch - 輸入即搜尋 edge n-gram

pytorch：詞嵌入和n-gram

n-gram語言模型及平滑演算法

對語言模型N-gram的理解

詞向量的Distributed Representation與n元語法模型(n-gram model)

python 自然語言處理統計語言建模 - （n-gram模型）

(五)N-gram語言模型的資料處理

(四)N-gram語言模型與馬爾科夫假設

python處理文字使用n-gram方法

快速熟悉one-hot，N-gram，word2vec模型

一種基於CNN的自動化提取n-gram feanture的文字分類模型

N-Gram語言模型

N-Gram 演算法用來做相似度比較

自然語言處理中的N-Gram模型詳解

N-gram語言模型與馬爾科夫假設

n-gram

n-gram

介紹語言模型

N-Gram模型詳解

利用N-Gram模型評估語句是否合理

n-gram 模型其他應用舉例

總結

相關推薦