1. 程式人生 > >jieba分詞器

jieba分詞器

映射 pre ner 搬運工 div 索引 utf 每一個 bsp

始終覺得官方文檔是最好的學習途徑。嗯,我只是一個大自然的搬運工。

  1. 分詞

  • jieba.cut 方法接受三個輸入參數: 需要分詞的字符串;cut_all 參數用來控制是否采用全模式;HMM 參數用來控制是否使用 HMM 模型
  • jieba.cut_for_search 方法接受兩個參數:需要分詞的字符串;是否使用 HMM 模型。該方法適合用於搜索引擎構建倒排索引的分詞,粒度比較細
  • 待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。註意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8
  • jieba.cut 以及 jieba.cut_for_search
    返回的結構都是一個可叠代的 generator,可以使用 for 循環來獲得分詞後得到的每一個詞語(unicode),或者用
  • jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器,可用於同時使用不同詞典。jieba.dt 為默認分詞器,所有全局分詞相關函數都是該分詞器的映射。
 1 # encoding=utf-8
 2 import jieba
 3 
 4 seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
5 print("Full Mode: " + "/ ".join(seg_list)) # 全模式 6 7 seg_list = jieba.cut("我來到北京清華大學", cut_all=False) 8 print("Default Mode: " + "/ ".join(seg_list)) # 精確模式 9 10 seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式 11 print(", ".join(seg_list)) 12 13 seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造
") # 搜索引擎模式 14 print(", ".join(seg_list))

結果:

1 【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
2 
3 【精確模式】: 我/ 來到/ 北京/ 清華大學
4 
5 【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈    (此處,“杭研”並沒有在詞典中,但是也被Viterbi算法識別出來了)
6 
7 【搜索引擎模式】: 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

傳送門https://github.com/fxsjy/jieba

jieba分詞器