SRILM使用之訓練無平滑語言模型

阿新 • • 發佈：2019-02-12

【語料準備】
訓練語料

wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/corpus.txt

測試語料

wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/test_corpus.txt

訓練語料內容

$ cat corpus.txt

dogs chase cats
dogs bark
cats meow
dogs chase birds
cats chase birds
dogs chase the cats
the birds chirp

【計數檔案生成】此步在實際應用中不需要

ngram-count -text corpus.txt -order 2 -write1 corpus_1gram.count -write2 corpus_2gram.count

將計數檔案分別輸出到1-gram檔案和2-gram檔案

【模型檔案生成】

ngram-count -text corpus.txt -debug 2 -order 2 -addsmooth 0 -lm corpus.lm

這裡使用-addsmooth 0 引數，使模型不進行平滑處理
對模型檔案的分析此處省略了一些資料，詳見excel
第1部分
這裡寫圖片描述

第2部分
這裡寫圖片描述

這裡寫圖片描述
第3部分

這裡寫圖片描述

【計算測試檔案困惑度】

ngram -lm corpus.lm -ppl test_corpus.txt -debug 2

這裡寫圖片描述

其中：每一行代表可以從lm檔案中查到的條件概率，第1列概率表示，第2列說明是幾元條件概率，第3列概率值，第4列為概率值取對數。
logprob為整個句子的概率，它是由所有行概率值相加得到的。
ppl為困惑度，它是由公式10^-logprob/(#sen+#words)計算得到的。
以第1句話為例：ppl=10^-(-1.44716)/(1+4)=1.94729。
ppl1為困惑度，它是由公式 10^-logprob/#words計算得到的。
以第1句話為例：ppl1=10^-(-1.44716)/4=2.30033。

SRILM使用之訓練無平滑語言模型

SRILM使用之訓練無平滑語言模型

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

tensorflow學習之訓練自己的CNN模型（簡單二分類）

語言模型訓練工具SRILM

srilm語言模型中的平滑演算法——Good-Turing平滑演算法

語言模型訓練工具：SRILM的使用

Mac OSX下安裝配置SRILM語言模型訓練工具

語言模型訓練工具SRILM詳解

讀《數學之美》第三章統計語言模型

SRILM語言模型格式解讀

自然語言處理中的語言模型預訓練方法

語音識別系統語言模型的訓練和聲學模型的改進

MIT開發新型無監督語言翻譯模型，又快又精準

n-gram語言模型及平滑演算法

【Language model】使用RNN LSTM訓練語言模型寫出45°角仰望星空的文章

Bert-一種基於深度雙向Transform的語言模型預訓練策略

NLP中語言模型預訓練方法

語言模型中用到的幾種取樣之不全版

NLP之神經網路語言模型之超級無敵最佳資料

Spark之訓練分類模型練習（1）

SRILM使用之訓練無平滑語言模型

相關推薦