1. 程式人生 > 其它 >人工智慧——LTP分詞中外部詞典的使用

人工智慧——LTP分詞中外部詞典的使用

人工智慧——LTP分詞中外部詞典的使用

人工智慧——LTP分詞中外部詞典的使用


不使用外部詞典時,程式碼一般這麼寫:

segmentor = Segmentor()          # 初始化例項
segmentor.load(cws_model_path)   # 載入模型
words = segmentor.segment(text)  # 分詞

使用外部詞典時,程式碼一般這麼寫:

#外部字典——./ltp_data/lexicon.txt
segmentor = Segmentor()                                        #初始化例項
segmentor.load_with_lexicon(ldir, './ltp_data/lexicon.txt')    #載入模型
words = segmentor.segment(text)                                #分詞

外部詞典格式:

具體格式為:為txt檔案,每行指定一個詞。

這裡需要指出的是,在網路查詢時,我發現有人提出:LTP引用的外部詞典,檔案的型別一定是純txt,也就是字尾沒有.txt,且其他人在介紹外部詞典用法時,同樣引用了這樣的說法。如:LTP語言技術平臺引用外部字典
但是,在實際的應用中,我發現並非如此。我引用的便是以.txt為字尾的檔案,
所以,我得出結論:

外部詞典的引入,只需要為一個純txt檔案就好,字尾沒有特定,包含中文時編碼為UTF-8。