1. 程式人生 > 其它 >結巴分詞jieba新增自定義詞典

結巴分詞jieba新增自定義詞典

技術標籤:pythonpython

結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話:

test_text = """
我們的健康碼也是綠色的,
 這憑什麼就限制我們的就醫!

"""

如果使用預設的分詞,那麼,“健康碼”這個詞會分成“健康”和“碼”

這裡可以使用詞典方式,新增自定義詞典。

新建一個txt檔案,在檔案裡輸入“健康碼”

以utf-8形式儲存,這裡使用pycharm,預設就是utf8.不用管。

然後使用

jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))

wk_dir是詞典放置的目錄,詞典檔名預設為jiebaDict.txt.

再一次分詞,就可以得到這個結果。

如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那麼就使用

jieba.del_word("健康碼")

那麼自定義詞典的檔案就沒有這個詞。下次分詞還是會按照預設的方式,分成“健康”,“碼”

如果還想新增其他的,那麼可以開啟jiebaDict.txt檔案,一行一行新增想要新增的自定義詞典。

或者使用

jieba.add_word("憑什麼")

自定義詞典,應該是每次使用都需要手動載入,不然不會發揮作用。