N-gram統計語言模型(總結)

阿新 • • 發佈：2019-01-18

為了解決引數空間過大的問題，引入了馬爾科夫假設：任意一個詞的出現的概率僅僅與它前面出現的有限的一個或者幾個詞有關。如果一個詞的出現的概率僅於它前面出現的一個詞有關，那麼我們就稱之為bigram model(二元模型)。即

如果一個詞的出現僅依賴於它前面出現的兩個詞，那麼我們就稱之為trigram（三元模型）。

在實踐中用的最多的就是bigram和trigram了，而且效果很不錯。高於四元的用的很少，因為訓練它（求出引數）需要更龐大的語料，而且資料稀疏嚴重，時間複雜度高，精度卻提高的不多。當然，也可以假設一個詞的出現由前面N-1個詞決定，對應的模型稍微複雜些，被稱為N元模型。

5.如何估計條件概率問題

條件概率推導在《數學之美》第30頁有詳細講解，在此講述一個簡單的條件概率。一種簡單的估計方法就是最大似然估計(Maximum Likelihood Estimate）了，即P(Wn|W1,W2,…,Wn-1) = (C(W1,W2,…,Wn)) / (C(W1, W2,…,Wn-1)) 。C(w1,w2,...,wn)即序列w1,w2,...,wn在語料庫中出現的次數。對於二元模型P(Wi|Wi-1)=C(Wi-1,Wi)/C(Wi-1) （最大似然估計是一種統計方法，它用來求一個樣本集的相關概率密度函式的引數，詳細的講解點選開啟連結）。

6.在一個語料庫例子

注：這個語料庫是英文的，而對於漢字語料庫，需要對句子分詞，才能做進一步的自然語言處理。

在訓練語料庫中統計序列C(W1 W2…Wn) 出現的次數和C(W1 W2…Wn-1)出現的次數。

下面我們用bigram舉個例子。假設語料庫總詞數為13,748

對與 I to Chinese want food eat 的概率遠低於I want to eat Chinese food，所以後者句子結構更合理。

注：P(wang|I)=C(I want)|C(I)=1087/3437

網上很多資料中，表1 詞與詞頻和表2 詞序列頻度是沒有的，所以造成文章表意不清。

對於 1).高階語言模型 2).模型的訓練、零概率問題和平滑方法 3).語料庫的選取等問題，《數學之美》中都有詳細講解，在此不再概述。

N-gram統計語言模型(總結)

5.如何估計條件概率問題

6.在一個語料庫例子

在訓練語料庫中統計序列C(W1 W2…Wn) 出現的次數和C(W1 W2…Wn-1)出現的次數。

N-gram統計語言模型(總結)

讀《數學之美》第三章統計語言模型

NLP（三）_統計語言模型

統計語言模型

快速熟悉one-hot，N-gram，word2vec模型

數學之美第3章統計語言模型

n-gram統計計算句子概率 SRILM安裝使用

Statistical language model 統計語言模型

NLP-統計語言模型

1《數學之美》第3章統計語言模型

python 自然語言處理統計語言建模 - （n-gram模型）

通俗理解N-gram語言模型。（轉）

n-gram語言模型及平滑演算法

對語言模型N-gram的理解

(五)N-gram語言模型的資料處理

(四)N-gram語言模型與馬爾科夫假設

N-Gram語言模型

自然語言處理中的N-Gram模型詳解

N-gram語言模型與馬爾科夫假設

N-gram語言模型 & Perplexity & 平滑

N-gram統計語言模型(總結)

5.如何估計條件概率問題

6.在一個語料庫例子

在訓練語料庫中統計序列C(W1 W2…Wn) 出現的次數和C(W1 W2…Wn-1)出現的次數。

相關推薦