1. 程式人生 > 其它 >pyhanlp進行關鍵詞提取,融入自定義詞表

pyhanlp進行關鍵詞提取,融入自定義詞表

技術標籤:python程式設計

# 加入詞表前
from pyhanlp import *
if __name__ == '__main__':
  text = "基於知識融合的資料探勘與分析技術"
  keyword_list = HanLP.extractKeyword(text, 5)
  print(keyword_list)
  '''
  	["融合","知識","資料探勘","技術"]
  '''
  • 1、首先定義自己的詞表new_add.txt,格式為:一行一個詞語,可以沒有詞性和頻率;
  • 2、將詞表放在pyhanlp的路徑下lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom資料夾下
  • 3、修改hanlp.properties檔案內容,路徑為lib/python3.7/site-packages/pyhanlp/static/hanlp.properties
    具體做法:在檔案第20行,將new_add.txt新增到自定義詞典路徑中,
    CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; new_add.txt; 現代漢語補充詞庫.txt …
  • 4、刪除快取檔案,lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin
  • 5、重新執行程式
# 加入詞表後
'''
詞表命名為new_add.txt
內容只有一個詞語:
資料探勘與分析
結果如下所示
'''
from pyhanlp import *
if __name__ == '__main__':
  text = "基於知識融合的資料探勘與分析技術"
  keyword_list = HanLP.extractKeyword(text, 5)
  print(keyword_list)
  '''
  	["融合","知識","資料探勘與分析","技術"]
  '''