1. 程式人生 > >Python第三方庫____jieba

Python第三方庫____jieba

列表 AR 定義 安裝 索引 第三方 模式 三方庫 文本

jieba是優秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個詞語

jieba是優秀的中文分詞第三方庫,需要額外安裝 (pip install jieba)

jieba庫提供三種分詞模式,最簡單只需掌握一個函數

jieba分詞原理

利用一個中文詞庫,確定漢字之間的關系概率

漢字之間概率大的組成詞組,形成分詞結果

除了分詞,用戶還可以添加自定義詞組

jieba分詞三種模式

精確模式、全模式、搜索引擎模式

精確模式:把文本精確的切分開,不存在冗余單詞 (最常用)

全模式:把文本中所有可能的詞語都掃描出來,有冗余

搜索引擎模式:在精確模式基礎上,對長詞再次切分

jieba庫常用函數:

jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果 l--> list cut -- 分詞類型 精確模式

jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞,存在冗余

jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余

jieba.add_word(w) 向分詞詞典增加新詞w

Python第三方庫____jieba