基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

阿新 • • 發佈：2019-01-09

下面是用python的pycrfsuite庫實現的命名實體識別，是我最初為了感知命名實體識別到底是什麼，調研命名實體識別時跑的案例，記錄在下面，為了以後查閱。

案例說明：

內容：在通用語料庫CoNLL2002上，用crf方法做命名實體識別（地點、組織和人名）。	
工具：Anaconda2
	
語料庫介紹：
 - 通用語料庫：	CoNLL2002
 - 語言：		西班牙語
 - 訓練集：		8323句
 - 測試集：		1517句
 - 語料格式：	三列，分別表示詞彙、詞性、實體型別；使用Bakeoff-3評測中所採用的的BIO標註集，即B-PER、I-PER代表人名首字、人名非首字，
				B-LOC、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表組織機構名首字、組織機構名非首字，O代表該字不屬於命名實體的一部分。
				如：EFE NC B-ORG
			
特徵處理：
主要選擇處理了如下幾個特徵：
 - 當前詞的小寫格式 
 - 當前詞的字尾
 - 當前詞是否全大寫 isupper
 - 當前詞的首字母大寫，其他字母小寫判斷 istitle
 - 當前詞是否為數字 isdigit
 - 當前詞的詞性
 - 當前詞的詞性字首
 
演算法選擇：crf
 
預測效果：
 
             precision    recall  f1-score   support

      B-LOC       0.78      0.75      0.76      1084
      I-LOC       0.66      0.60      0.63       325
     B-MISC       0.69      0.47      0.56       339
     I-MISC       0.61      0.49      0.54       557
      B-ORG       0.79      0.81      0.80      1400
      I-ORG       0.80      0.79      0.80      1104
      B-PER       0.82      0.87      0.84       735
      I-PER       0.87      0.93      0.90       634

avg / total       0.77      0.76      0.76      6178

指令碼：

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
@author:
@contact:
@time:
@context: makes a simple example of NER.
"""

from itertools import chain
import nltk,pycrfsuite
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import LabelBinarizer

#通用語料conll2002下載 

nltk.download("conll2002", "E:/nltk_data/")
print(nltk.corpus.conll2002.fileids())

#讀取測試集和訓練集
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
# print(len(train_sents))
# print(len(test_sents))

#特徵處理
"""
特徵處理流程，主要選擇處理了如下幾個特徵：
 - 當前詞的小寫格式
 - 當前詞的字尾
 - 當前詞是否全大寫 isupper
 - 當前詞的首字母大寫，其他字母小寫判斷 istitle
 - 當前詞是否為數字 isdigit
 - 當前詞的詞性
 - 當前詞的詞性字首
 - 還有就是與之前後相關聯的詞的上述特徵（類似於特徵模板的定義）
""" 

def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    features = [
        'bias',
        'word.lower=' + word.lower(),
        'word[-3:]=' + word[-3:],
        'word[-2:]=' + word[-2:],
        'word.isupper=%s' % word.isupper(),
        'word.istitle=%s' % word.istitle(),
        'word.isdigit=%s' % word.isdigit(),
        'postag=' + postag,
        'postag[:2]=' + postag[:2],
    ]
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.extend([
            '-1:word.lower=%s' % word1.lower(),
            '-1:word.istitle=%s' % word1.istitle(),
            '-1:word.issupper=%s' % word1.isupper(),
            '-1:postag=%s' % postag1,
            '-1:postag[:2]=%s' % postag1[:2],
        ])
    else:
        features.append('BOS')

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.extend([
            '+1:word.lower=%s' % word1.lower(),
            '+1:word.istitle=%s' % word1.istitle(),
            '+1:word.issupper=%s' % word1.isupper(),
            '+1:postag=%s' % postag1,
            '+1:postag[:2]=%s' % postag1[:2],
        ])
    else:
        features.append('EOS')

    return features

#測試效果
# sent=train_sents[0]
# print(len(sent))
# for i in range (len(sent)):
# 	print(word2features(sent,i))
# 	print("======================================")

# 完成特徵轉化
def sent2features(sent):
    return [word2features(sent,i) for i in range(len(sent))]
#獲取類別，即標籤
def sent2labels(sent):
    return [label for token,postag,label in sent]
#獲取詞
def sent2tokens(sent):
    return [token for token,postag,label in sent]

#特徵如上轉化完成後，可以檢視下一行特徵內容
#print(sent2features(train_sents[0])[0])

#構造特徵訓練集和測試集
X_train = [sent2features(s) for s in train_sents]
Y_train = [sent2labels(s) for s in train_sents]
# print(len(X_train))
# print(len(Y_train))
X_test = [sent2features(s) for s in test_sents]
Y_test = [sent2labels(s) for s in test_sents]
# print(len(X_test))
# print(X_train[0])
# print(Y_train[0])
print(len(Y_test))
print(type(Y_test))

# 模型訓練
#1) 建立pycrfsuite.Trainer
trainer = pycrfsuite.Trainer(verbose=False)
#載入訓練特徵和分類的類別（label)
for xseq,yseq in zip(X_train,Y_train):
    trainer.append(xseq,yseq)
    
#2)設定訓練引數，選擇 L-BFGS 訓練演算法(預設)和 Elastic Net 迴歸模型
trainer.set_params({
    'c1' : 1.0, #coefficient for L1 penalty
    'c2' : 1e-3, #coefficient for L2 penalty
    'max_iterations':50, #stop earlier
    # include transitions that are possible, but not observed
    'feature.possible_transitions':True
})
#print(trainer.params())

#3)開始訓練
#含義是訓練出的模型名為：conll2002-esp.crfsuite
# trainer.train('conll2002-esp.crfsuite')

#使用訓練後的模型，建立用於測試的標註器。
tagger = pycrfsuite.Tagger()
tagger.open('conll2002-esp.crfsuite')
example_sent = test_sents[0]
#檢視這句話的內容
# print(type(sent2tokens(example_sent)))
# print(sent2tokens(example_sent))
# print(''.join(sent2tokens(example_sent)))
# print('\n\n')
# print("Predicted:", ' '.join(tagger.tag(sent2features(example_sent))))
# print("Predicted:", ' '.join(tagger.tag(X_test[0])))
# print("Correct: ", ' '.join(sent2labels(example_sent)))

#檢視模型在訓練集上的效果
def bio_classification_report(y_true, y_pred):
    
    lb = LabelBinarizer()
    y_true_combined = lb.fit_transform(list(chain.from_iterable(y_true)))
    y_pred_combined = lb.transform(list(chain.from_iterable(y_pred)))

    tagset = set(lb.classes_) - {'O'}
    tagset = sorted(tagset, key=lambda tag: tag.split('-', 1)[::-1])
    class_indices = {cls: idx for idx, cls in enumerate(lb.classes_)}

    return classification_report(
        y_true_combined,
        y_pred_combined,
        labels = [class_indices[cls] for cls in tagset],
        target_names = tagset,
    )

#標註所有資訊
Y_pred = [tagger.tag(xseq) for xseq in X_test]
print(type(Y_pred))
print(type(Y_test))
#打印出評測報告
print(bio_classification_report(Y_test, Y_pred))

報錯

下載資料時出現了報錯，需要加“nltk.download(“conll2002”, “E:/nltk_data/”)”這一行指令碼。
下載資料出現報錯如何解決的資料

參考資料：

1.[Python]How to use CRFSuite ? (2)
2.Let’s use CoNLL 2002 data to build a NER system

基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

下面是用python的pycrfsuite庫實現的命名實體識別，是我最初為了感知命名實體識別到底是什麼，調研命名實體識別時跑的案例，記錄在下面，為了以後查閱。案例說明：內容：在通用語料庫CoNLL2002上，用crf方法做命名實體識別（地點、組織和人名）。工具：Anacond

基於CRF的中文命名實體識別模型

條件隨機場（Conditional Random Fields，簡稱 CRF）是給定一組輸入序列條件下另一組輸出序列的條件概率分佈模型，在自然語言處理中得到了廣泛應用。新建corpus_process類 import re import sklearn_crfsuite from

BiLSTM-CRF模型做基於字的中文命名實體識別

在MSRA的簡體中文NER語料（我是從這裡下載的，非官方出品，可能不是SIGHAN 2006 Bakeoff-3評測所使用的原版語料）上訓練NER模型，識別人名、地名和組織機構名。嘗試了兩種模型：一種是手工定義特徵模板後再用CRF++開源包訓練CRF模型；另一種是

基於深度學習做命名實體識別

note 深度學習以及效果數據集 pre 之前得到高達基於CRF做命名實體識別系列用CRF做命名實體識別(一) 用CRF做命名實體識別(二) 用CRF做命名實體識別(三) 摘要 1. 之前用CRF做了命名實體識別，效果還可以，最高達到0.9293，當然這是自己

基於自制資料集的MobileNet-SSD模型訓練

基於自制資料集的MobileNet-SSD模型訓練來源：QQ快報責任編輯:小易 “本文主要內容：基於自制的仿VOC資料集，利用caffe框架下的MobileNet-SSD模型訓練。” 本文的base是https://github.com/chuanqi305

Keras —— 基於Mnist資料集建立神經網路模型

一、變數初始化 batch_size = 128 nb_classes = 10 nb_epoch = 20 二、準備資料 (X_train, y_train), (X_test, y

基於Anchor的 ner 命名實體識別醫療實體

賽題說明本次大賽旨在通過糖尿病相關的教科書、研究論文來做糖尿病文獻挖掘並構建糖尿病知識圖譜。參賽選手需要設計高準確率，高效的演算法來挑戰這一科學難題。第一賽季課題為“基於糖尿病臨床指南和研究論文的實體標註構建”，第二賽季課題為“基於糖尿病臨床指南和研究論文的實體間關係構建”

機器學習Tensorflow基於MNIST資料集識別自己的手寫數字（讀取和測試自己的模型）

更新：以下為原博：廢話不多說，先上效果圖整體來看，效果是非常不錯的，模型的訓練，參照官方程式碼mnist_deep.py，準確率是高達99.2% 那麼，我是怎麼實現的呢？一.讀懂卷積神經網路程式碼（至少得把程式跑通）首先參照Tensorfl

第十二次作業——基於波士頓資料集的迴歸模型與房價預測0.0

任務：匯入boston房價資料集一元線性迴歸模型，建立一個變數與房價之間的預測模型，並圖形化顯示。多元線性迴歸模型，建立13個變數與房價之間的預測模型，並檢測模型好壞，並圖形化顯示檢查結果。一元多項式迴歸模

神經網路模型的儲存和讀取(基於Mnist資料集)

#Import MNIST data from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("data/",one_hot=True) impo

基於BERT命名實體識別程式碼的理解

我一直做的是有關實體識別的任務，BERT已經火了有一段時間，也研究過一點，今天將自己對bert對識別實體的簡單認識記錄下來，希望與大家進行來討論 BERT官方Github地址：https://github.com/google-research/bert ，其中對BERT模型進行了

基於條件隨機場的命名實體識別

一. 理論基礎 1. 條件隨機場簡介條件隨機場（conditional random fields，CRF） 2. 二. 具體實現 1. 資料預處理 2. 特徵選取 3. 模型訓練和測試 4. 實體識別

零基礎入門--中文命名實體識別（BiLSTM+CRF模型，含程式碼）

自己也是一個初學者，主要是總結一下最近的學習，大佬見笑。中文分詞說到命名實體抽取，先要了解一下基於字標註的中文分詞。比如一句話 "我愛北京天安門”。分詞的結果可以是 “我/愛/北京/天安門”。那什麼是基於字標註呢？ “我/O 愛/O 北/B

命名實體識別訓練集彙總（一直更新）

在學習過程中，整理了一些已標準好的訓練集，彙總如下：連結: https://pan.baidu.com/s/1BU0XS-I5qZIA7Y9trGxc8w 提取碼: gnqt 來源：https://github.com/zjy-ucas/ChineseNER 連結: https:/

人臉特徵提取模型（細緻分析對比分析）-基於LFW資料集

動機總所周知，LFW資料在人臉特徵提取模型的驗證上是一個基本的標杆，目前大部分的方法在上面的效果已經都超過了99%的驗證準確度，但是單純的測試模型在上面的準確度，並不能分析出模型的效能到底好多少？到底好在什

【NLP】基於CRF條件隨機場的命名實體識別原理詳解

1. 命名實體用來做什麼？在自然語言處理應用領域中，命名實體識別是資訊檢索、知識圖譜、機器翻譯、情感分析、問答系統等多項自然語言處理應用的基礎任務，例如，我們需要利用命名實體識別技術自動識別使用者的查詢，然後將查詢中的實體連結到知識圖譜對應的結點上其識別的準確率將會直接影

基於深層神經網路的命名實體識別技術

引言命名實體識別（Named Entity Recognition，後文簡稱NER）是指從文字中識別具有特定類別的實體（通常是名詞），例如人名、地名、機構名、專有名詞等。命名實體識別是資訊檢索，查詢分類，自動問答等問題的基礎任務，其效果直接影響後續處理的效果，因此是自然語言處理研究的一個基礎問題。傳統

BiLSTM-CRF 模型實現中文命名實體識別

三個月之前 NLP 課程結課，我們做的是命名實體識別的實驗。在MSRA的簡體中文NER語料（我是從這裡下載的，非官方出品，可能不是SIGHAN 2006 Bakeoff-3評測所使用的原版語料）上訓練NER模型，識別人名、地名和組織機構名。嘗試了兩種模型：一種是手工定義特徵模板後再用CRF++開源包訓練CR

基於結構化感知機的詞性標註與命名實體識別框架

開發十年，就只剩下這套架構體系了！ >>>

用深度學習做命名實體識別(一)：文字資料標註

“ 本文是用深度學習做命名實體識別系列的第一篇，通過本文，你將瞭解如何用brat做文字資料標註。” 一、什麼是命名實體識別？從一句話中識別出人名，地名，組織名，日期時間，這就是命名實體識別的一個例子，而人名，地名等這些被識別的目標就是命名實體。當然命名實體還可以是很多其它有

基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

案例說明：

指令碼：

報錯

參考資料：

相關推薦