1. 程式人生 > 實用技巧 >041 模組5-jieba庫的使用

041 模組5-jieba庫的使用

目錄

一、jieba庫基本介紹

1.1 jieba庫概述

jieba是優秀的中文分詞第三方庫

  • 中文文字需要通過分詞獲得單個的詞語
  • jieba是優秀的中文分詞第三方庫,需要額外安裝
  • jieba庫提供三種分詞模式,最簡單隻需掌握一個函式

1.2 jieba庫的安裝

pip install jieba(cmd命令列)

1.3 jieba分詞的原理

Jieba分詞依靠中文詞庫

  • 利用一箇中文詞庫,確定漢字之間的關聯概率
  • 漢字間概率大的組成片語,形成分詞結果
  • 除了分詞,使用者還可以新增自定義的片語

二、jieba庫使用說明

2.1 jieba分詞的三種模式

精確模式、全模式、搜尋引擎模式

  • 精確模式:把文字精確的切分開,不存在冗餘單詞
  • 全模式:把文字中所有可能的詞語都掃描出來,有冗餘
  • 搜尋引擎模式:在精確模式基礎上,對長詞再次切分

2.2 jieba庫常用函式

函式 描述
jieba.lcut(s) 精確模式,返回一個列表型別的分詞結果
jieba.lcut(s, cut_all=True) 全模式,返回一個列表型別的分詞結果,存在冗餘
jieba.lcut_for_search(s) 搜尋引擎模式,返回一個列表型別的分詞結果,存在冗餘
jieba.add_word(w) 向分詞詞典增加新詞w
import jieba

jieba.lcut("中國是一個偉大的國家")

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.





['中國'
, '是', '一個', '偉大', '的', '國家']
jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']
jieba.lcut("中華人民共和國是偉大的")
['中華人民共和國', '是', '偉大', '的']
jieba.lcut("中華人民共和國是偉大的",cut_all=True)
['中華', '中華人民', '中華人民共和國', '華人', '人民', '人民共和國', '共和', '共和國', '國是', '偉大', '的']
jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
jieba.add_word("蟒蛇語言")

2.3 分詞要點

jieba.lcut(s)