Python第三方庫____jieba
阿新 • • 發佈:2018-05-02
列表 AR 定義 安裝 索引 第三方 模式 三方庫 文本
jieba是優秀的中文分詞第三方庫
中文文本需要通過分詞獲得單個詞語
jieba是優秀的中文分詞第三方庫,需要額外安裝 (pip install jieba)
jieba庫提供三種分詞模式,最簡單只需掌握一個函數
jieba分詞原理
利用一個中文詞庫,確定漢字之間的關系概率
漢字之間概率大的組成詞組,形成分詞結果
除了分詞,用戶還可以添加自定義詞組
jieba分詞三種模式
精確模式、全模式、搜索引擎模式
精確模式:把文本精確的切分開,不存在冗余單詞 (最常用)
全模式:把文本中所有可能的詞語都掃描出來,有冗余
搜索引擎模式:在精確模式基礎上,對長詞再次切分
jieba庫常用函數:
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果 l--> list cut -- 分詞類型 精確模式
jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞,存在冗余
jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余
jieba.add_word(w) 向分詞詞典增加新詞w
Python第三方庫____jieba