041 模組5-jieba庫的使用
阿新 • • 發佈:2020-12-13
目錄
一、jieba庫基本介紹
1.1 jieba庫概述
jieba是優秀的中文分詞第三方庫
- 中文文字需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單隻需掌握一個函式
1.2 jieba庫的安裝
pip install jieba
(cmd命令列)
1.3 jieba分詞的原理
Jieba分詞依靠中文詞庫
- 利用一箇中文詞庫,確定漢字之間的關聯概率
- 漢字間概率大的組成片語,形成分詞結果
- 除了分詞,使用者還可以新增自定義的片語
二、jieba庫使用說明
2.1 jieba分詞的三種模式
精確模式、全模式、搜尋引擎模式
- 精確模式:把文字精確的切分開,不存在冗餘單詞
- 全模式:把文字中所有可能的詞語都掃描出來,有冗餘
- 搜尋引擎模式:在精確模式基礎上,對長詞再次切分
2.2 jieba庫常用函式
函式 | 描述 |
---|---|
jieba.lcut(s) | 精確模式,返回一個列表型別的分詞結果 |
jieba.lcut(s, cut_all=True) | 全模式,返回一個列表型別的分詞結果,存在冗餘 |
jieba.lcut_for_search(s) | 搜尋引擎模式,返回一個列表型別的分詞結果,存在冗餘 |
jieba.add_word(w) | 向分詞詞典增加新詞w |
import jieba
jieba.lcut("中國是一個偉大的國家")
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.
['中國' , '是', '一個', '偉大', '的', '國家']
jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']
jieba.lcut("中華人民共和國是偉大的")
['中華人民共和國', '是', '偉大', '的']
jieba.lcut("中華人民共和國是偉大的",cut_all=True)
['中華', '中華人民', '中華人民共和國', '華人', '人民', '人民共和國', '共和', '共和國', '國是', '偉大', '的']
jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
jieba.add_word("蟒蛇語言")
2.3 分詞要點
jieba.lcut(s)