pyhanlp進行關鍵詞提取,融入自定義詞表
阿新 • • 發佈:2021-01-16
技術標籤:python程式設計
# 加入詞表前
from pyhanlp import *
if __name__ == '__main__':
text = "基於知識融合的資料探勘與分析技術"
keyword_list = HanLP.extractKeyword(text, 5)
print(keyword_list)
'''
["融合","知識","資料探勘","技術"]
'''
- 1、首先定義自己的詞表new_add.txt,格式為:一行一個詞語,可以沒有詞性和頻率;
- 2、將詞表放在pyhanlp的路徑下lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom資料夾下
- 3、修改hanlp.properties檔案內容,路徑為lib/python3.7/site-packages/pyhanlp/static/hanlp.properties
具體做法:在檔案第20行,將new_add.txt新增到自定義詞典路徑中,
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; new_add.txt; 現代漢語補充詞庫.txt …
- 4、刪除快取檔案,lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin
- 5、重新執行程式
# 加入詞表後
'''
詞表命名為new_add.txt
內容只有一個詞語:
資料探勘與分析
結果如下所示
'''
from pyhanlp import *
if __name__ == '__main__':
text = "基於知識融合的資料探勘與分析技術"
keyword_list = HanLP.extractKeyword(text, 5)
print(keyword_list)
'''
["融合","知識","資料探勘與分析","技術"]
'''