用CRF做命名實體識別

阿新 • • 發佈：2018-06-16

裏的以及命名語料庫 images AD 之前 .dll alt

摘要

本文主要講述了關於人民日報標註語料的預處理，利用CRF++工具包對模型進行訓練以及測試

新   O
世   O
紀   O
—   O
—   O
一   B_TIME
九   M_TIME
九   M_TIME
八   M_TIME
年   E_TIME
新   B_TIME
年   E_TIME
講   O
話   O
(   O
附   O
圖   O
片   O
1   O
張   O
)   O

中   B_ORGANIZATION
共   M_ORGANIZATION
中   M_ORGANIZATION
央   E_ORGANIZATION
總   O
書   O
記   O

CRF++訓練的數據格式如上圖所示

4.3 特征模板
特征模板template如下

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]

# Bigram
B

4.4 CRF++包的使用說明
下載工具包之後，打開文件夾

技術分享圖片
1.在此處新建一個文件夾chinese

2.我們復制crf_learn.exe，crf_test.exe和libcrfpp.dll這三個文件到我們新建的chinese文件夾裏面，然後再把之前生成的CRF++數據格式的數據文件train.data放到chinese裏面，再把我們自己定義的特征模板文件放到chinese文件夾裏面(一共五個文件)

3.在chinese裏面打開cmd
敲入以下代碼，這便是開始訓練模型

crf_learn -a MIRA template train.data model

template就是我們上面定義的特征模板
訓練好之後會產生一個model文件

4.自己寫幾個測試文本，並將其轉為CRF++的數據格式，註意標簽要全部一樣，如下圖所示

揚   B
帆   B
遠   B
東   B
做   B
與   B
中   B
國   B
合   B
作   B
的   B
先   B
行   B

希   B
臘   B
的   B
經   B
濟   B
結   B
構   B
較   B
特   B
殊   B
。   B

同樣把這個測試數據的文件test.data放到chinese文件夾裏面

5.在chinese裏面打開cmd
敲入以下代碼，這便是開始模型預測

crf_test -m model test.data >> output.txt

打開output.txt文件你就會看到預測的結果

揚   B   O
帆   B   O
遠   B   O
東   B   O
做   B   O
與   B   O
中   B   B_LOCATION
國   B   E_LOCATION
合   B   O
作   B   O
的   B   O
先   B   O
行   B   O

希   B   B_LOCATION
臘   B   E_LOCATION
的   B   O
經   B   O
濟   B   O
結   B   O
構   B   O
較   B   O
特   B   O
殊   B   O
。   B   O

5.總結與展望

現在僅僅只是粗暴的把這個流程實現了一遍，測試的效果並不是很好，有部分的人名沒有識別出來，還需要再添加特征，以及更改template特征模板，這些還在學習。CRF的原理也不是很懂，也需要去完整的學習一下。後續還會更新

也歡迎大家看看我的簡書[https://www.jianshu.com/p/12f2cdd86679]

用CRF做命名實體識別

裏的以及命名語料庫 images AD 之前 .dll alt 摘要本文主要講述了關於人民日報標註語料的預處理，利用CRF++工具包對模型進行訓練以及測試目錄明確我們的標註任務語料和工具數據預處理 1.數據說明 2.數據預處理模型訓練及測試 1.流程 2

用CRF做命名實體識別

摘要

目錄

正文

1.明確我們的標註任務

2.語料和工具

3.數據預處理

4.模型訓練及測試

5.總結與展望

用CRF做命名實體識別

用深度學習做命名實體識別(七)-CRF介紹

用深度學習做命名實體識別(一)：文字資料標註

用深度學習做命名實體識別(三)：文字資料標註過程

用深度學習做命名實體識別(四)——模型訓練

用深度學習做命名實體識別(六)-BERT介紹

基於深度學習做命名實體識別

BILSTM+CRF實現命名實體識別NER

NLP入門（八）使用CRF++實現命名實體識別(NER)

BiLSTM-CRF模型做基於字的中文命名實體識別

基於CRF的中文命名實體識別模型

BiLSTM+CRF(三）命名實體識別實踐與總結

BiLSTM+CRF(二）命名實體識別

自然語言處理 crf++命名實體識別

NLP入門（五）用深度學習實現命名實體識別（NER）

零基礎入門--中文命名實體識別（BiLSTM+CRF模型，含程式碼）

基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

【NLP】基於CRF條件隨機場的命名實體識別原理詳解

CRF++進行自定義命名實體識別

用深度神經網路處理NER命名實體識別問題

用CRF做命名實體識別

摘要

目錄

正文

1.明確我們的標註任務

2.語料和工具

3.數據預處理

4.模型訓練及測試

5.總結與展望

相關推薦