python呼叫Hanlp進行命名實體識別

阿新 • • 發佈：2019-01-22

1 python與jdk版本位數一致
2 pip install jpype1（python3.5）
3 類庫hanlp.jar包、模型data包、配置檔案hanlp.properties放在一個新建目錄
4 修改hanlp.properties中root根目錄，找到data

程式碼呼叫如下：

#coding:utf-8
'''
Created on 2017-11-21

@author: 劉帥
'''


from jpype import *

startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\hanlp\hanlp-1.3.4.jar;D:\hanlp" 
, "-Xms1g", "-Xmx1g") # 啟動JVM，Linux需替換分號;為冒號:
HanLP = JClass('com.hankcs.hanlp.HanLP')
# 中文分詞
print(HanLP.segment('你好，歡迎在Python中呼叫HanLP的API'))
testCases = [
    "商品和服務",
    "結婚的和尚未結婚的確實在干擾分詞啊",
    "買水果然後來世博園最後去世博會",
    "中國的首都是北京",
    "歡迎新老師生前來就餐",
    "工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作",
    "隨著頁遊興起到現在的頁遊繁盛，依賴於存檔進行邏輯判斷的設計減少了，但這塊也不能完全忽略掉。" 
]
for sentence in testCases: print(HanLP.segment(sentence))
# 命名實體識別與詞性標註
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment('中國科學院計算技術研究所的宗成慶教授正在教授自然語言處理課程'))
# 關鍵詞提取
document = "水利部水資源司司長陳明忠9月29日在國務院新聞辦舉行的新聞釋出會上透露，" \
           "根據剛剛完成了水資源管理制度的考核，有部分省接近了紅線的指標，" 
 \
           "有部分省超過紅線的指標。對一些超過紅線的地方，陳明忠表示，對一些取用水專案進行區域的限批，" \
           "嚴格地進行水資源論證和取水許可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自動摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標。"))
shutdownJVM()

結果如下：

[你好/vl, ，/w, 歡迎/v, 在/p, Python/nx, 中/f, 呼叫/v, HanLP/nx, 的/ude1, API/nx]
[商品/n, 和/cc, 服務/vn]
[結婚/vi, 的/ude1, 和/cc, 尚未/d, 結婚/vi, 的/ude1, 確實/ad, 在/p, 干擾/vn, 分詞/n, 啊/y]
[買/v, 水果/n, 然後/c, 來/vf, 世博園/n, 最後/f, 去/vf, 世博會/n]
[中國/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
[歡迎/v, 新/a, 老/a, 師生/n, 前來/vi, 就餐/vi]

python呼叫Hanlp進行命名實體識別

1 python與jdk版本位數一致 2 pip install jpype1（python3.5） 3 類庫hanlp.jar包、模型data包、配置檔案hanlp.properties放在一個新

8.HanLP實現--命名實體識別

筆記轉載於GitHub專案：https://github.com/NLP-LOVE/Introduction-NLP 8. 命名實體識別 8.1 概述命名實體文字中有一些描述實體的詞彙。比如人名、地名、組織機構名、股票基金、醫學術語等，稱為命名實體。具有以下共性: 數量無窮。比如宇宙中的恆星命名、新生

CRF++進行自定義命名實體識別

CRF++官方文件 https://taku910.github.io/crfpp/ windows下下載二進位制檔案下載地址如下： https://drive.google.com/drive/folders/0B4y35FiV1wh7fngte

HanLP-命名實體識別總結

人名識別在HanLP中，基於角色標註識別了中國人名。首先系統利用隱馬爾可夫模型標註每個詞語的角色，之後利用最大

神經網絡結構在命名實體識別（NER）中的應用

field edi most 好的向量後來目標領域 png 神經網絡結構在命名實體識別（NER）中的應用近年來，基於神經網絡的深度學習方法在自然語言處理領域已經取得了不少進展。作為NLP領域的基礎任務—命名實體識別（Named Entity Recogni

命名實體識別---入門

med ner rec 例如處理 strong sequence 檢索方法命名實體識別（Named Entity Recognition，後文簡稱NER）是指從文本中識別具有特定類別的實體（通常是名詞），例如人名、地名、機構名、專有名詞等。命名實體識別是信息檢索，

用CRF做命名實體識別

裏的以及命名語料庫 images AD 之前 .dll alt 摘要本文主要講述了關於人民日報標註語料的預處理，利用CRF++工具包對模型進行訓練以及測試目錄明確我們的標註任務語料和工具數據預處理 1.數據說明 2.數據預處理模型訓練及測試 1.流程 2

基於深度學習做命名實體識別

note 深度學習以及效果數據集 pre 之前得到高達基於CRF做命名實體識別系列用CRF做命名實體識別(一) 用CRF做命名實體識別(二) 用CRF做命名實體識別(三) 摘要 1. 之前用CRF做了命名實體識別，效果還可以，最高達到0.9293，當然這是自己

NLP之中文命名實體識別

在MUC-6中首次使用了命名實體（named entity）這一術語，由於當時關注的焦點是資訊抽取（information extraction）問題，即從報章等非結構化文字中抽取關於公司活動和國防相關活動的結構化資訊，而人名、地名、組織機構名、時間和數字表達（包括時間、日期、貨幣量和百分數等）是結

NLP入門（四）命名實體識別（NER）

本文將會簡單介紹自然語言處理（NLP）中的命名實體識別（NER）。命名實體識別（Named Entity Recognition，簡稱NER）是資訊提取、問答系統、句法分析、機器翻譯等應用領域的重要基礎工具，在自然語言處理技術走向實用化的過程中佔有重要地位。一般來說，命名實體識

python呼叫百度圖片文字識別介面

# 登入百度api應用頁面獲取下面三相內容 APP_ID = 'xxxxx' API_KEY = 'xxxxxxx' SECRET_KEY = 'xxxxxxx' class BaiduImg(): def __init__(self, img_path): self.im

中文電子病例命名實體識別專案

MedicalNamedEntityRecognition Medical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2018中文電

自然語言處理基礎技術之命名實體識別實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84592596 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之命名實體識別簡介

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84571654 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

基於CRF的中文命名實體識別模型

條件隨機場（Conditional Random Fields，簡稱 CRF）是給定一組輸入序列條件下另一組輸出序列的條件概率分佈模型，在自然語言處理中得到了廣泛應用。新建corpus_process類 import re import sklearn_crfsuite from

HMM與分詞、詞性標註、命名實體識別

HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天根據天氣{下雨，天晴}決定當天的活動{公園散步,購物,清理房間}中的一種，我每天只能在twitter上看到她發的推“啊，我前天公園散步、昨天購物、今天清理房間了！”，那麼我可以根據她

一文詳解深度學習在命名實體識別(NER)中的應用

近幾年來，基於神經網路的深度學習方法在計算機視覺、語音識別等領域取得了巨大成功，另外在自然語言處理領域也取得了不少進展。在NLP的關鍵性基礎任務—命名實體識別（Named Entity Recognition，NER）的研究中，深度學習也獲得了不錯的效果。最近，筆者閱讀了一系列基於深度學習的NE

利用python呼叫hanlp實現依存句法視覺化

環境：Windows、python3.6 2、安裝python的pyhanlp包：pip install pyhanlp 3、Windows使用者如果遇到： building '_jpype' extension error: Microsoft Visual C

簡單NLP分析套路（2）----分詞，詞頻，命名實體識別與關鍵詞抽取

文章大綱中文分詞技術評測參考雲服務哈工大語言云 ltp 基於深度學習方法的中文分詞資訊檢索與關鍵詞提取 tf-idf TEXTRANK word2vector

BILSTM+CRF實現命名實體識別NER

#第一步：資料處理 #pikle是一個將任意複雜的物件轉成物件的文字或二進位制表示的過程。 #同樣，必須能夠將物件經過序列化後的形式恢復到原有的物件。 #在 Python 中，這種序列化過程稱為 pickle， #可以將物件 pickle 成字串、磁碟上的檔案或者任何類似於檔案的物件， #也可以

python呼叫Hanlp進行命名實體識別

相關推薦