8.HanLP實現--命名實體識別

筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP

8. 命名實體識別

8.1 概述

命名實體

文字中有一些描述實體的詞彙。比如人名、地名、組織機構名、股票基金、醫學術語等，稱為命名實體。具有以下共性:
- 數量無窮。比如宇宙中的恆星命名、新生兒的命名不斷出現新組合。
- 構詞靈活。比如中國工商銀行，既可以稱為工商銀行，也可以簡稱工行。
- 類別模糊。有一些地名本身就是機構名，比如“國家博物館”
命名實體識別

識別出句子中命名實體的邊界與類別的任務稱為命名實體識別。由於上述難點，命名實體識別也是一個統計為主、規則為輔的任務。

對於規則性較強的命名實體，比如網址、E-mail、IBSN、商品編號等，完全可以通過正則表示式處理，未匹配上的片段交給統計模型處理。

命名實體識別也可以轉化為一個序列標註問題。具體做法是將命名實體識別附著到{B,M,E,S}標籤，比如，構成地名的單詞標註為“B/ME/S- 地名”，以此類推。對於那些命名實體邊界之外的單詞，則統一標註為0 ( Outside )。具體實施時，HanLP做了一個簡化，即所有非複合詞的命名實體都標註為S，不再附著類別。這樣標註集更精簡，模型更小巧。

命名實體識別實際上可以看作分詞與詞性標註任務的整合: 命名實體的邊界可以通過{B,M,E,S}確定，其類別可以通過 B-nt 等附加類別的標籤來確定。

HanLP內部提供了語料庫轉換工序，使用者無需關心，只需要傳入 PKU 格式的語料庫路徑即可。

8.2 基於隱馬爾可夫模型序列標註的命名實體識別

之前我們就介紹過隱馬爾可夫模型，詳細見: 4.隱馬爾可夫模型與序列標註

隱馬爾可夫模型命名實體識別程式碼見(自動下載 PKU 語料庫): hmm_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/hmm_ner.py

執行程式碼後結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v 美國紐約/ns 現代/ntc 藝術/n 博物館/n 參觀/v

其中機構名“華北電力公司”、人名“譚旭光”“胡花蕊”全部識別正確。但是地名“美國紐約現代藝術博物館”則無法識別。有以下兩個原因:

PKU 語料庫中沒有出現過這個樣本。

隱馬爾可夫模型無法利用詞性特徵。

對於第一個原因，只能額外標註一些語料。對於第二個原因可以通過切換到更強大的模型來解決。

8.3 基於感知機序列標註的命名實體識別

之前我們就介紹過感知機模型，詳細見: 5.感知機分類與序列標註

感知機模型詞性標註程式碼見(自動下載 PKU 語料庫): perceptron_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/perceptron_ner.py

執行會有些慢，結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v [美國紐約/ns 現代/ntc 藝術/n 博物館/n]/ns 參觀/v

與隱馬爾可夫模型相比，已經能夠正確識別地名了。

8.4 基於條件隨機場序列標註的命名實體識別

之前我們就介紹過條件隨機場模型，詳細見: 6.條件隨機場與序列標註

條件隨機場模型詞性標註程式碼見(自動下載 PKU 語料庫): crf_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/crf_ner.py

執行時間會比較長，結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v [美國紐約/ns 現代/ntc 藝術/n 博物館/n]/ns 參觀/v

得到了結果是一樣的。

8.5 命名實體識別標準化評測

各個命名實體識別模組的準確率如何，並非只能通過幾個句子主觀感受。任何監督學習任務都有一套標準化評測方案，對於命名實體識別，按照慣例引入P、R 和 F1 評測指標。

在1998年1月《人民日報》語料庫上的標準化評測結果如下:

模型	P	R	F1
隱馬爾可夫模型	79.01	30.14	43.64
感知機	87.33	78.98	82.94
條件隨機場	87.93	73.75	80.22

值得一提的是，準確率與評測策略、特徵模板、語料庫規模息息相關。通常而言，當語料庫較小時，應當使用簡單的特徵模板，以防止模型過擬合；當語料庫較大時，則建議使用更多特徵，以期更高的準確率。當特徵模板固定時，往往是語料庫越大，準確率越高。

8.6 自定義領域命名實體識別

以上我們接觸的都是通用領域上的語料庫，所含的命名實體僅限於人名、地名、機構名等。假設我們想要識別專門領域中的命名實體，這時，我們就要自定義領域的語料庫了。

標註領域命名實體識別語料庫

首先我們需要收集一些文字，作為標註語料庫的原料，稱為生語料。由於我們的目標是識別文字中的戰鬥機名稱或型號，所以生語料的來源應當是些軍事網站的報道。在實際工程中，求由客戶提出，則應當由該客戶提供生語料。語料的量級越大越好，一般最低不少於數千個句子。

生語料準備就緒後，就可以開始標註了。對於命名實體識別語料庫，若以詞語和詞性為特徵的話，還需要標註分詞邊界和詞性。不過我們不必從零開始標註，而可以在HanLP的標註基礎上進行校正，這樣工作量更小。

樣本標註了數千個之後，生語料就被標註成了熟語料。下面程式碼自動下載語料庫。

訓練領域模型

選擇感知機作為訓練演算法(自動下載戰鬥機語料庫): plane_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/plane_ner.py

執行結果如下:

下載 http://file.hankcs.com/corpus/plane-re.zip 到 /usr/local/lib/python3.7/site-packages/pyhanlp/static/data/test/plane-re.zip
100.00%, 0 MB, 552 KB/s, 還有 0 分  0 秒   
米高揚/nrf 設計/v [米格/nr -/w 17/m PF/nx]/np ：/w [米格/nr -/w 17/m]/np PF/n 型/k 戰鬥機/n 比/p [米格/nr -/w 17/m P/nx]/np 效能/n 更好/l 。/w
[米格/nr -/w 阿帕奇/nrf -/w 666/m S/q]/np 橫空出世/l 。/w

這句話已經在語料庫中出現過，能被正常識別並不意外。我們可以偽造一款“米格-阿帕奇-666S”戰鬥機，試試模型的繁華能力，發現依然能夠正確識別。

8.7 GitHub

HanLP何晗--《自然語言處理入門》筆記：

https://github.com/NLP-LOVE/Introduction-NLP

專案持續更新中......

8.HanLP實現--命名實體識別

筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP 8. 命名實體識別 8.1 概述命名實體文字中有一些描述實體的詞彙。比如人名、地名、組織機構名、股票基金、醫學術語等，稱為命名實體。具有以下共性: 數量無窮。比如宇宙中的恆星命名、新生

BILSTM+CRF實現命名實體識別NER

#第一步：資料處理 #pikle是一個將任意複雜的物件轉成物件的文字或二進位制表示的過程。 #同樣，必須能夠將物件經過序列化後的形式恢復到原有的物件。 #在 Python 中，這種序列化過程稱為 pickle， #可以將物件 pickle 成字串、磁碟上的檔案或者任何類似於檔案的物件， #也可以

NLP入門（五）用深度學習實現命名實體識別（NER）

前言在文章：NLP入門（四）命名實體識別（NER）中，筆者介紹了兩個實現命名實體識別的工具——NLTK和Stanford NLP。在本文中，我們將會學習到如何使用深度學習工具來自己一步步地實現NER，只要你堅持看完，就一定會很有收穫的。 OK，話不多說，讓我們進入正題。幾乎所有的NLP都依賴一

cs224d 作業 problem set2 (二) TensorFlow 實現命名實體識別

WARNING:tensorflow:From C:\Users\weizhen\Documents\GitHub\TflinearClassifier\q2_NER.py:291: initialize_all_variables (from tensorflow.python.ops.variables

python呼叫Hanlp進行命名實體識別

1 python與jdk版本位數一致 2 pip install jpype1（python3.5） 3 類庫hanlp.jar包、模型data包、配置檔案hanlp.properties放在一個新

NLP入門（八）使用CRF++實現命名實體識別(NER)

CRF與NER簡介 CRF，英文全稱為conditional random field, 中文名為條件隨機場，是給定一組輸入隨機變數條件下另一組輸出隨機變數的條件概率分佈模型，其特點是假設輸出隨機變數構成馬爾可夫（Markov）隨機場。較為簡單的條件隨機場是定義線上性鏈上的條件隨機場，稱為線性鏈條件

NLP（二十四）利用ALBERT實現命名實體識別

本文將會介紹如何利用ALBERT來實現`命名實體識別`。如果有對`命名實體識別`不清楚的讀者，請參考筆者的文章[NLP入門（四）命名實體識別（NER）](https://blog.csdn.net/jclian91/article/details/84073265) 。本文的專案結構如下： ![專案

使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)實現中文命名實體識別

簡介 Stanford NER是命名實體識別（NER，Named Entity Recognizer）的一個Java實現。NER可以標記文字中詞的序列，如人名、公司名、基因名或者蛋白質名等。它自帶精心設計的用於NER的特徵提取器，和用於定義特徵提取器的許多選項

基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

下面是用python的pycrfsuite庫實現的命名實體識別，是我最初為了感知命名實體識別到底是什麼，調研命名實體識別時跑的案例，記錄在下面，為了以後查閱。案例說明：內容：在通用語料庫CoNLL2002上，用crf方法做命名實體識別（地點、組織和人名）。工具：Anacond

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

轉自：http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天

BiLSTM-CRF 模型實現中文命名實體識別

三個月之前 NLP 課程結課，我們做的是命名實體識別的實驗。在MSRA的簡體中文NER語料（我是從這裡下載的，非官方出品，可能不是SIGHAN 2006 Bakeoff-3評測所使用的原版語料）上訓練NER模型，識別人名、地名和組織機構名。嘗試了兩種模型：一種是手工定義特徵模板後再用CRF++開源包訓練CR

使用Stanford NLP工具實現中文命名實體識別

一、系統配置 Eclipseluna、 JDK 1.8+ 二、分詞介紹 data目錄下有兩個gz壓縮檔案，分別是ctb.gz和pku.gz，其中CTB：賓州大學的中國樹庫訓練資料，PKU：中國北京大學提供的訓練資料。三、 NER 使用斯坦福大學

Day14：使用斯坦福 NER 軟體包實現你自己的命名實體識別器

我並不是一個機器學習（Machine Learning）、自然語言處理（Natural Text Processing，NLP）等的狂熱者，但我總會想到一些需要用到它們的主意。我們今天在這篇博文中要實現的目標是：利用 Twitter 資料建立一個實時的職位搜尋。每個單獨的搜

用foolnltk工具包實現中文分詞和命名實體識別

由於需要做中文的命名實體識別，網上搜到foolnltk是一個比較好用的工具，安裝和使用的過程 1、安裝由於網路問題指定清華的源安裝 pip3 install foolnltk -i https://pypi.tuna.tsinghua.edu.cn/si

HanLP-命名實體識別總結

人名識別在HanLP中，基於角色標註識別了中國人名。首先系統利用隱馬爾可夫模型標註每個詞語的角色，之後利用最大

神經網絡結構在命名實體識別（NER）中的應用

field edi most 好的向量後來目標領域 png 神經網絡結構在命名實體識別（NER）中的應用近年來，基於神經網絡的深度學習方法在自然語言處理領域已經取得了不少進展。作為NLP領域的基礎任務—命名實體識別（Named Entity Recogni

命名實體識別---入門

med ner rec 例如處理 strong sequence 檢索方法命名實體識別（Named Entity Recognition，後文簡稱NER）是指從文本中識別具有特定類別的實體（通常是名詞），例如人名、地名、機構名、專有名詞等。命名實體識別是信息檢索，

用CRF做命名實體識別

裏的以及命名語料庫 images AD 之前 .dll alt 摘要本文主要講述了關於人民日報標註語料的預處理，利用CRF++工具包對模型進行訓練以及測試目錄明確我們的標註任務語料和工具數據預處理 1.數據說明 2.數據預處理模型訓練及測試 1.流程 2

基於深度學習做命名實體識別

note 深度學習以及效果數據集 pre 之前得到高達基於CRF做命名實體識別系列用CRF做命名實體識別(一) 用CRF做命名實體識別(二) 用CRF做命名實體識別(三) 摘要 1. 之前用CRF做了命名實體識別，效果還可以，最高達到0.9293，當然這是自己

NLP之中文命名實體識別

在MUC-6中首次使用了命名實體（named entity）這一術語，由於當時關注的焦點是資訊抽取（information extraction）問題，即從報章等非結構化文字中抽取關於公司活動和國防相關活動的結構化資訊，而人名、地名、組織機構名、時間和數字表達（包括時間、日期、貨幣量和百分數等）是結

章節
第 1 章：新手上路
第 2 章：詞典分詞
第 3 章：二元語法與中文分詞
第 4 章：隱馬爾可夫模型與序列標註
第 5 章：感知機分類與序列標註
第 6 章：條件隨機場與序列標註
第 7 章：詞性標註
第 8 章：命名實體識別
第 9 章：資訊抽取
第 10 章：文字聚類
第 11 章：文字分類
第 12 章：依存句法分析
第 13 章：深度學習與自然語言處理

8.HanLP實現--命名實體識別

8. 命名實體識別

8.1 概述

8.2 基於隱馬爾可夫模型序列標註的命名實體識別

8.3 基於感知機序列標註的命名實體識別

8.4 基於條件隨機場序列標註的命名實體識別

8.5 命名實體識別標準化評測

8.6 自定義領域命名實體識別

8.7 GitHub

相關推薦