【python 走進NLP】pyhanlp 自然語言處理包

阿新 • • 發佈：2018-11-03

安裝：

pip install pyhanlp

若安裝失敗：
從這裡下載JPype allows full access to Java class libraries.
https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

開源地址：

https://github.com/hankcs/pyhanlp

HanLP是一系列模型與演算法組成的NLP工具包，由大快搜索主導並完全開源，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。

HanLP提供下列功能：

中文分詞
HMM-Bigram（速度與精度最佳平衡；一百兆記憶體）
最短路分詞、N-最短路分詞
由字構詞（側重精度，全世界最大語料庫，可識別新詞；適合NLP任務）
感知機分詞、CRF分詞
詞典分詞（側重速度，每秒數千萬字元；省記憶體）
極速詞典分詞
所有分詞器都支援：
索引全切分模式
使用者自定義詞典
相容繁體中文
訓練使用者自己的領域模型
詞性標註
HMM詞性標註（速度快）
感知機詞性標註、CRF詞性標註（精度高）
命名實體識別
基於HMM角色標註的命名實體識別 （速度快）
中國人名識別、音譯人名識別、日本人名識別、地名識別、實體機構名識別
基於線性模型的命名實體識別（精度高）
感知機命名實體識別、CRF命名實體識別
關鍵詞提取
TextRank關鍵詞提取
自動摘要
TextRank自動摘要
短語提取
基於互資訊和左右資訊熵的短語提取
拼音轉換
多音字、聲母、韻母、聲調
簡繁轉換
簡繁分歧詞（簡體、繁體、臺灣正體、香港繁體）
文字推薦
語義推薦、拼音推薦、字詞推薦
依存句法分析
基於神經網路的高效能依存句法分析器
MaxEnt依存句法分析
文字分類
情感分析
word2vec
詞向量訓練、載入、詞語相似度計算、語義運算、查詢、KMeans聚類
文件語義相似度計算
語料庫工具
部分預設模型訓練自小型語料庫，鼓勵使用者自行訓練。所有模組提供訓練介面，語料可參考OpenCorpus。
在提供豐富功能的同時，HanLP內部模組堅持低耦合、模型堅持惰性載入、服務堅持靜態提供、詞典堅持明文釋出，使用非常方便。預設模型訓練自全世界最大規模的中文語料庫，同時自帶一些語料處理工具，幫助使用者訓練自己的模型。

python 使用

# encoding: utf-8

from pyhanlp import *

# 中文分詞
print(HanLP.segment('皇家鹽湖城梅西煤球王c羅費城聯合'))



# 詞性標註
for term in HanLP.segment('徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標。'):
    print('{}\t{}'.format(term.word, term.nature)) # 獲取單詞與詞性

# 關鍵詞提取
document = "水利部水資源司司長陳明忠9月29日在國務院新聞辦舉行的新聞釋出會上透露，" \
           "根據剛剛完成了水資源管理制度的考核，有部分省接近了紅線的指標，" \
           "有部分省超過紅線的指標。對一些超過紅線的地方，陳明忠表示，對一些取用水專案進行區域的限批，" \
           "嚴格地進行水資源論證和取水許可的批准。"
print(HanLP.extractKeyword(document, 5))
# 自動摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標。"))

執行結果：

[皇家, 鹽湖城, 梅西, 煤球王, c, 羅, 費城, 聯合]
徐先生	nr
還	d
具體	a
幫助	v
他	rr
確定	v
了	ule
把	pba
畫	v
雄鷹	n
、	w
松鼠	n
和	cc
麻雀	n
作為	p
主攻	vn
目標	n
。	w
[水資源, 陳明忠, 進行, 紅線, 部分]
[嚴格地進行水資源論證和取水許可的批准, 有部分省超過紅線的指標, 水利部水資源司司長陳明忠9月29日在國務院新聞辦舉行的新聞釋出會上透露]
1	徐先生	徐先生	nh	nr	_	4	主謂關係	_	_
2	還	還	d	d	_	4	狀中結構	_	_
3	具體	具體	a	ad	_	4	狀中結構	_	_
4	幫助	幫助	v	v	_	0	核心關係	_	_
5	他	他	r	r	_	4	兼語	_	_
6	確定	確定	v	v	_	4	動賓關係	_	_
7	了	了	u	u	_	6	右附加關係	_	_
8	把	把	p	p	_	15	狀中結構	_	_
9	畫	畫	v	v	_	8	介賓關係	_	_
10	雄鷹	雄鷹	n	n	_	9	動賓關係	_	_
11	、	、	wp	w	_	12	標點符號	_	_
12	松鼠	松鼠	n	n	_	10	並列關係	_	_
13	和	和	c	c	_	14	左附加關係	_	_
14	麻雀	麻雀	n	n	_	10	並列關係	_	_
15	作為	作為	v	v	_	6	動賓關係	_	_
16	主攻	主攻	v	vn	_	17	定中關係	_	_
17	目標	目標	n	n	_	15	動賓關係	_	_
18	。	。	wp	w	_	4	標點符號	_	_


Process finished with exit code 0

java 使用：
Maven 構建專案
pom.xml 載入依賴：

 <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;

import java.util.List;

public class HanNLP {
    public static void main(String[] args) {

        /*詞性標註*/
        List<Term> termList = StandardTokenizer.segment("皇家鹽湖城梅西煤球王c羅");
        System.out.println(termList);

        /*關鍵詞提取*/
        String content = "皇家鹽湖城梅西煤球王c羅";
        List<String> keywordList = HanLP.extractKeyword(content, 6);
        System.out.println(keywordList);
    }
}

執行結果：

[皇家/n, 鹽湖城/ns, 梅西/nrf, 煤球/n, 王/nr, c/nx, 羅/j]
[皇家, 煤球, 梅西, 鹽湖城]

Process finished with exit code 0

【python 走進NLP】pyhanlp 自然語言處理包

安裝： pip install pyhanlp 若安裝失敗：從這裡下載JPype allows full access to Java class libraries. https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 開

【python 走進NLP】兩種高效過濾敏感詞演算法--DFA演算法和AC自動機演算法

一道bat面試題：快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？有十億個標題，存在一個檔案中，一行一個標題。有5萬個敏感詞，存在另一個檔案。寫一個程式過濾掉所有標題中的所有敏感詞，儲存到另一個檔案中。 1、DFA過濾敏感詞演算法在實現文字過濾的演算法中，DFA是

【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫

介紹 SnowNLP是一個python寫的類庫，可以方便的處理中文文字內容。可以做很多事情，如：中文分詞（Character-Based Generative Model）詞性標註（TnT 3-gram 隱馬）情感分析（現在訓練資料主要是買賣東西時的評價，所以對其他的一些可能效

【python 走進NLP】英文敏感詞過濾演算法改進版本

中文DFA演算法過濾敏感詞改進版本 # 中文DFA演算法過濾敏感詞改進版本 class Chinese_DFAFilter(): def __init__(self): self.keyword_chains = {} s

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

【NLP】基於自然語言處理角度談談CRF(二)

作者：白寧超 2016年8月2日21:25:35 【摘要】：條件隨機場用於序列標註，資料分割等自然語言處理中，表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中，對條件隨機場的瞭解，逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

【python 走進NLP】標籤別名語義相似度匹配演算法

標籤別名語義相似度匹配演算法： # -*- encoding=utf-8 -*- import pandas as pd import numpy as np import time time1

【自然語言處理】論述自然語言處理的技術範疇

文章目錄論述自然語言處理的技術範疇一、前言二、主要技術範疇 1、語音合成(Speech Synthesis) 2、語音識別(Speech Recognition) 3、中

Python呼叫自然語言處理包HanLP

Python呼叫自然語言處理包HanLP3.png一句話安裝pyhanlp，全自動下載安裝配置，還支援升級。 pip install pyhanlp 呼叫方法參考專案主頁：https://github.com/hankcs/pyhanlp Windows使用者如果遇到： building

【python gensim使用】word2vec詞向量處理中文語料

word2vec介紹 word2vec官網：https://code.google.com/p/word2vec/ word2vec是google的一個開源工具，能夠根據輸入的詞的集合計算出詞與詞之間的距離。它將term轉換成向量形式，可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向

跳躍NLP曲線：自然語言處理研究綜述（三）（翻譯）

3. 重疊NLP曲線隨著網際網路時代的到來，文明經歷了深刻的影響，我們現在比以往任何時候都經歷的快很多。即使是適應、發展和創新技術，也會讓人感到恍惚，即淘汰就在眼前。特別是NLP研究在過去15年中並沒有像其它技術那樣發展。雖然NLP研究在執行人工智慧行為

跳躍NLP曲線：自然語言處理研究綜述（五）（翻譯）

6. 展望語義曲線敘事理解和生成是推理，決策和“意識形成”的核心。除了作為人與人交流的關鍵部分之外，敘事也是構建現實和進行規劃的手段。解讀人類大腦如何生成和處理敘事可能最終導致我們真正理解和解釋人類的智慧和意識。計算機建模是研究敘事理解的有效方法。在知識表達

hanlp自然語言處理包的基本使用--python

hanlp擁有：中文分詞、命名實體識別、摘要關鍵字、依存句法分析、簡繁拼音轉換、智慧推薦。這裡主要介紹一下hanlp的中文分詞、命名實體識別、依存句法分析，這裡就不介紹具體的hanlp的安裝了，百度教程很多，可以看這裡：http://hanlp.com/ 裡面也有相關的一

HanLP自然語言處理包初步安裝與使用

HanLP是由一系列模型與演算法組成的Java工具包，目標是促進自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 &nb

ubuntu下使用pycharm呼叫Hanlp自然語言處理包

首先點選File,選擇Settings，在Project 下點選Project Interpreter，並通過點選右邊的加號：搜尋JPype,根據python版本選擇你需要的JPype版本安裝。之後,在https://github.com/hankcs/Ha

GitHub十週歲HanLP自然語言處理包使用者量超越CoreNLP

在本週，GitHub終於度過了屬於它自己的十週歲生日。這個在2008年由3個來自舊金山的年輕人建立的基於Git的程式碼託管網站，先後超越了元老級的SourceForge和背景強大的Google Code，成為了全世界範圍內最受歡迎的程式碼託管網站。 “十年前的今天，GitHu

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

【NLP漢語自然語言處理與實踐】分詞_筆記

統計 The 計算分詞其余雙向 name -c max 一、兩種分詞標準： 1. 粗粒度。將詞作為最小基本單位。比如：浙江大學。主要用於自然語言處理的各種應用。 2. 細粒度。不僅對詞匯繼續切分，也對詞匯內部的語素進行切分。比如：浙江/大學。主要用於搜索

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

讓我們使用Reddit API獲取新聞標題並執行情感分析在我上一篇文章中，使用Python進行K-Means聚類，我們只是抓取了一些預編譯資料，但是對於這篇文章，我想更深入地瞭解一些實時資料。使用Reddit API，我們可以從各種新聞subreddit獲得成千上萬的

【自然語言處理】python中的jieba分詞使用手冊

這篇文章是轉載的，但是我沒找到出處啊，宣告一下～ jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b

【python 走進NLP】pyhanlp 自然語言處理包

相關推薦