結巴分詞jieba新增自定義詞典
阿新 • • 發佈:2021-02-09
結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話:
test_text = """
我們的健康碼也是綠色的,
這憑什麼就限制我們的就醫!
"""
如果使用預設的分詞,那麼,“健康碼”這個詞會分成“健康”和“碼”
這裡可以使用詞典方式,新增自定義詞典。
新建一個txt檔案,在檔案裡輸入“健康碼”
以utf-8形式儲存,這裡使用pycharm,預設就是utf8.不用管。
然後使用
jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))
wk_dir是詞典放置的目錄,詞典檔名預設為jiebaDict.txt.
再一次分詞,就可以得到這個結果。
如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那麼就使用
jieba.del_word("健康碼")
那麼自定義詞典的檔案就沒有這個詞。下次分詞還是會按照預設的方式,分成“健康”,“碼”
如果還想新增其他的,那麼可以開啟jiebaDict.txt檔案,一行一行新增想要新增的自定義詞典。
或者使用
jieba.add_word("憑什麼")
:
自定義詞典,應該是每次使用都需要手動載入,不然不會發揮作用。