使用kenLM訓練語言模型

阿新 • • 發佈：2019-02-16

算是我自己安裝使用過程的一個記錄，中間也遇到一些問題。

下載與安裝

下載

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz

安裝

下載之後在kenlm目錄下有一個readme.md檔案。裡面介紹了相關操作。按步驟輸入如下命令：

mkdir -p build

cd build

cmake ..

這一步出瞭如下問題：

CMake Error at /usr/share/cmake-3.5/Modules/FindBoost.cmake:1677 (message):
  Unable to find the 
 requested Boost libraries.

說明沒有安裝Boost庫。

安裝Boost

tar --bzip2 -xf boost_1_67_0.tar.bz2
cd boost_1_67/
./bootstrap.sh --prefix=/usr/local#引數制定安裝的位置
sudo ./b2 install --with=all#編譯安裝所有的庫,根據前面設定的安裝位置的不同，這裡可能需要使用sudo許可權

安裝完成。重新執行cmake ..，出現如下資訊：

-- Could NOT find BZip2 (missing:  BZIP2_LIBRARIES BZIP2_INCLUDE_DIR) 
-- Could NOT find LibLZMA (missing: 
  LIBLZMA_INCLUDE_DIR LIBLZMA_LIBRARY LIBLZMA_HAS_AUTO_DECODER LIBLZMA_HAS_EASY_ENCODER LIBLZMA_HAS_LZMA_PRESET)

採用如下命令解決：

sudo apt install libbz2-dev
sudo apt install liblzma-dev

然後重新執行cmake ..命令。
繼續安裝：

make -j 4

到這裡，安裝就結束了。

訓練英語語言模型

資料下載

開始訓練

在build目錄下執行如下命令：

bin/lmplz -o 3 
 --verbose_header --text ../text-18-03/text_18-03-AU.txt --arpa MyModel/log.arpa

上述引數需要根據自己的檔案位置來調整。各個引數的含義：

-o n:最高採用n-gram語法
-verbose_header:在生成的檔案頭位置加上統計資訊
--text text_file:指定存放預料的txt檔案
--arpa:指定輸出的arpa檔案

在python中使用訓練的模型

安裝kenlm的python包

pip3 install https://github.com/kpu/kenlm/archive/master.zip

將arpa檔案轉換為binary檔案

bin/build_binary -s log.arpa log.bin

使用訓練的模型預測句子的概率

#encoding:utf8
import kenlm
model = kenlm.Model('log.arpa')
print(model.score('this is a sentence.',bos = True,eos = True))

在上述小程式中，把log.arpa替換成為log.bin是一樣的結果，但是速度會加快。

使用kenLM訓練語言模型

算是我自己安裝使用過程的一個記錄，中間也遇到一些問題。下載與安裝下載 wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz 安裝下載之後在kenlm目錄下有一個read

【Language model】使用RNN LSTM訓練語言模型寫出45°角仰望星空的文章

開篇這篇文章主要是實戰內容，不涉及一些原理介紹，原理介紹為大家提供一些比較好的連結： 1. Understanding LSTM Networks : RNN與LSTM最為著名的文章，貼圖和內容都恰到好處，為研究人員提供很好的參考價值。中文漢化版：（譯

NLP預訓練語言模型

最近，在自然語言處理（NLP）領域中，使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升，廣泛受到了各界的關注。就此，我將最近看的一些相關論文進行總結，選取了幾個代表性模型（包括ELMo [1]，OpenAI GPT [2]和BERT [3]）和大家一起學習分享。 1. 引言

預訓練語言模型整理（ELMo/GPT/BERT...）

目錄簡介預訓練任務簡介自迴歸語言模型自編碼語言模型預訓練模型的簡介與對比 ELMo 細節 ELMo的下游使用

自然語言處理中的語言模型預訓練方法

16px 預測網絡語言緩解 lang 大數一中標準小數自然語言處理中的語言模型預訓練方法最近，在自然語言處理（NLP）領域中，使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升，廣泛受到了各界的關註。就此，我將最近看的一些相關論文進行總結，選取了幾

語音識別系統語言模型的訓練和聲學模型的改進

10個 ext 個數靜音介紹準備上下詞匯表數據一、訓練語言模型詞與詞之間存在著合乎句法與否的約束，語言模型就是用來表示這些約束的，它可以提供字與字之間的上下文信息和語義信息。N-gram模型，即對訓練音頻文件所對應的文本文件進行統計，提取不同字

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

我們都知道，在自然語言處理的語言模型裡面，最核心的就是計算得到一個句子的概率，為了得到這個概率，我們需要計算得到一系列的條件概率。這些條件概率就是整個語言模型的引數。為了得到條件概率，我們可以有兩種不同的方法。第一種就是使用統計概率方法，通過統計的方法得到不同的詞對的條件概率。這種方

Bert-一種基於深度雙向Transform的語言模型預訓練策略

今天的部落格主要參考了論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。這篇paper是Google公司下幾個研究員發表的，而且在NLP領域引起了很大的轟動（在多個NLP任

NLP中語言模型預訓練方法

最近，在自然語言處理（NLP）領域中，使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升，廣泛受到了各界的關注。就此，我將最近看的一些相關論文進行總結，選取了幾個代表性模型（包括ELMo [1]，OpenAI GPT [2]和BERT [3]）和大家一起學習分享。

語言模型訓練工具SRILM

　 SRILM是著名的約翰霍普金斯夏季研討會（Johns Hopkins Summer Workshop）的產物，誕生於1995年，由SRI實驗室的Andreas Stolcke負責開發維護。　　關於SRILM的安裝，我已經在前面關於moses平臺搭建的文章（參見：《Mo

語言模型1-word2vec為什麼能訓練出相似向量

導語由於接到一點語言模型的任務，自然也就看到了word2vec這個比較火的課題。網上的課程和材料相對都比較多，一般一開始都會說word2vec的優點能描述出單詞的相似關係，然後就是理論或者程式碼。但是都沒有解釋或者沒有清楚地解釋為什麼word2vec能為功能性差不多的單詞

概率語言模型 Probabilistic Language Modeling (三) --- 訓練工具彙總

傳統演算法 1） BerkeleyLM 是用java寫的，號稱跟KenLM差不多，記憶體比srilm小 https://github.com/adampauls/berkeleylm 2）MITLM (The MIT Language Modeling toolkit) 引

語言模型訓練工具：SRILM的使用

一、小資料假設有去除特殊符號的訓練文字trainfile.txt，以及測試文字testfile.txt，那麼訓練一個語言模型以及對其進行評測的步驟如下： 1：詞頻統計 ngram-count -text trainfile.txt -order 3 -writ

Mac OSX下安裝配置SRILM語言模型訓練工具

1.安裝依賴軟體包 C/C++ compiler：編譯器gcc 3.4.3及以上版本; Tcl toolkit: 可嵌入式指令碼語言。用於指令碼程式設計和測試，這裡是為了SRILM的測試。此處需要7.3及以上版本，本例用的是tcl8.5（貌似是系統自帶的，安

語言模型訓練工具SRILM詳解

SRILM是著名的約翰霍普金斯夏季研討會（Johns Hopkins Summer Workshop）的產物，誕生於1995年，由SRI實驗室的Andreas Stolcke負責開發維護。關於SRILM的安裝，我已經在前面關於moses平臺搭建的文章（參見：《Moses相關

SRILM使用之訓練無平滑語言模型

【語料準備】訓練語料 wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/corpus.txt 測試語料 wg

讀《數學之美》第三章統計語言模型

其它 bigram 利用理解 googl track 推斷 art google 自然語言從產生開始。逐漸演變為一種基於上下文相關的信息表達和傳遞方式，在計算機處理自然語言時，一個最主要的問題就是為自然語言上下文相關的特性建立數學模型，叫做統計語言模型（Statist

SRILM語言模型格式解讀

highlight use ref ron 概率出現 5.1 srilm tag 先看一下語言模型的輸出格式 [html] view plain copy \data\ ngram 1=64000 ngram 2=522530 ngram 3

Word2Vec-語言模型的前世今生

ace 分析相關性語音集中媒體任務統計語言模型 pascal 引言在機器學習領域，語言識別和圖像識別都比較容易做到。語音識別的輸入數據可以是音頻頻譜序列向量所構成的matrix，圖像識別的輸入數據是像素點向量構成的矩陣。但是文本是一種抽象的東西，顯然不能直接

NLP（三）_統計語言模型

完全概念精度馬爾科夫編輯距離一定的角度等於 nsh 概念統計語言模型：是描述自然語言內在的規律的數學模型。廣泛應用於各種自然語言處理問題，如語音識別、機器翻譯、分詞、詞性標註，等等。簡單地說，語言模型就是用來計算一個句子的概率的模型即P(W1,W2,W3.

使用kenLM訓練語言模型

下載與安裝

下載

安裝

安裝Boost

訓練英語語言模型

資料下載

開始訓練

在python中使用訓練的模型

安裝kenlm的python包

將arpa檔案轉換為binary檔案

使用訓練的模型預測句子的概率

相關推薦