Python 中的 jieba 庫

阿新 • • 發佈：2022-03-25

jieba庫
- 一、簡介
  - 1、是什麼
  - 2、安裝
- 二、基本使用
  - 1、三種模式
  - 2、使用語法

jieba庫

一、簡介

1、是什麼

（1）jieba是優秀的中文分詞第三方庫

中文文字需要通過分詞獲得單個的詞語
jieba是優秀的中文分詞第三方庫，需要額外安裝
jieba庫提供三種分詞模式，最簡單隻需掌握一個函式

（2）jieba分詞的原理

jieba分詞依靠中文詞庫
利用一箇中文詞庫，確定漢字之間的關聯概率
漢字間概率大的組成片語，形成分詞結果
除了分詞，使用者還可以新增自定義的片語

2、安裝

pip install jieba
匯入
import jieba

官方文件【https://github.com/fxsjy/jieba】

二、基本使用

1、三種模式

精確模式：

就是把一段文字精確地切分成若干個中文單詞，若干個中文單詞之間經過組合，就精確地還原之前的文字。其中不存在冗餘單詞

str = "你好呀，我叫李華！多多關照！"
print(jieba.lcut(str))

全模式：

將一段文字中所有可能的詞語都掃描出來，可能有一段文字，它可以切分成不同的模式，或者有不同的角度來切分變成不同的詞語，在全模式下，jieba庫會將各種不同的組合都挖掘出來。分詞後的資訊組合起來會有冗餘，不再是原來的文字

str = "你好呀，我叫李華！多多關照！"
print(jieba.lcut(str, cut_all=True))

搜尋引擎模式：

在精確模式的基礎上，對發現的那些長的詞語，我們會對它再次切分，進而適合搜尋引擎對短詞語的索引和搜尋。也有冗餘

str = "你好呀，我叫李華！多多關照！"
print(jieba.lcut_for_search(str))

2、使用語法

2.1 對片語的基本操作

新增

str = "你好呀，我叫李華！多多關照！"
jieba.add_word("你")
print(jieba.lcut(str))

刪除

str = "你好呀，我叫李華！多多關照！"
jieba.del_word("李華")
print(jieba.lcut(str))

載入自定義詞典

str = "你好呀，我叫李華！多多關照！"
jieba.load_userdict("./dict.txt")  # 檔案編碼必須為 utf-8
print(jieba.lcut(str))

調整詞出現的頻率

str = "你好呀，我叫李華！多多關照！"
jieba.suggest_freq(("李", "華"), True)
print(jieba.lcut(str))

2.2 關鍵字提取

TFIDF演算法

import jieba.analyse  # 導包

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
                           allowPOS=())
jieba.analyse.TFIDF(idf_path=None)  # 建立一個新的 TFIDF 例項，idf_path是指指定 IDF 頻率檔案的路徑

引數：

sentence：要提取的文字

topK：返回多少個具有最高TF/IDF權重的關鍵字。預設值為 20

withWeight：是否返回關鍵字的TF/IDF權重。預設為假

allowPOS：過濾包含POS（詞性）的單詞。空無過濾，可以選擇['ns', 'n', 'vn', 'v','nr']

TextRank演算法

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))  # 有預設詞性
jieba.analyse.TextRank()  # 新建自定義 TextRank 例項

2.3 詞性標註

jieba.posseg.POSTokenizer(tokenizer=None)

新建自定義分詞器，tokenizer 引數可指定內部使用的 jieba.Tokenizer 分詞器

jieba.posseg.dt 為預設詞性標註分詞器

import jieba.posseg

str = "你好呀，我叫李華！多多關照！"
pt = jieba.posseg.POSTokenizer()
print(pt.lcut(str))  # 得到 pair鍵值對，使用遍歷取值
# print(jieba.posseg.cut(str))  # 作用一樣
for i, k in ps.lcut(str):
    print(i, k)

2.4 返回詞語在原文的起止位置

jieba.tokenize(arg, mode=None)

mode有搜尋模式（search）和預設模式（default）

import jieba

str = "你好呀，我叫李華！多多關照！"
g = jieba.tokenize(str, mode="search")  # 生成器
for i in g:
    print(i)

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

Python中BeautifuSoup庫的用法使用詳解

BeautifulSoup簡介 Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：

詳解python中docx庫的安裝過程

python中docx庫的簡介 python-docx包，這是一個很強大的包，可以用來建立docx文件，包含段落、分頁符、表格、圖片、標題、樣式等幾乎所有的word文件中能常用的功能都包含了，這個包的主要功能便是用來建立文件，相對

python中time庫的例項使用方法

time是python中處理時間的標準庫計算機時間的表達提供獲取系統時間並格式化輸出功能

Python中turtle庫的使用例項

Turtle庫是Python內建的圖形化模組，屬於標準庫之一，位於Python安裝目錄的lib資料夾下，常用函式有以下幾種：

詳解Python中pyautogui庫的最全使用方法

在使用Python做指令碼的話，有兩個庫可以使用，一個為PyUserInput庫，另一個為pyautogui庫。就本人而言，我更喜歡使用pyautogui庫，該庫功能多，使用便利。下面給大家介紹一下pyautogui庫的使用方法。在cmd命令框中輸

python中sympy庫求常微分方程的用法

問題1：程式，如下 from sympy import * f = symbols(\'f\',cls=Function) x = symbols(\'x\') eq = Eq(f(x).diff(x,x) - 2*f(x).diff(x) + f(x),sin(x))

python中pandas庫中DataFrame對行和列的操作使用方法示例

用pandas中的DataFrame時選取行或列： import numpy as np import pandas as pd from pandas import Sereis,DataFrame

python 中easydict庫解析json檔案

easydict的作用：可以使得以屬性的方式去訪問字典的值！ from easydict import EasyDict as edict

Python中Selenium庫使用教程詳解

selenium介紹 selenium最初是一個自動化測試工具,而爬蟲中使用它主要是為了解決requests無法直接執行JavaScript程式碼的問題 selenium本質是通過驅動瀏覽器，完全模擬瀏覽器的操作，比如跳轉、輸入、點選、下拉等，來

python中selenium庫的基本使用詳解

什麼是selenium selenium 是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE（7,8,9,10,11），Mozilla Firefox，Safari，Google Chrome，Opera等

python中random庫的基本介紹

python中random庫的基本介紹 random庫是使用隨機數的Python標準庫 random庫包含兩類函式，常用的共8個

詳解Python中第三方庫Faker

專案開發初期，為了測試方便，我們總要造不少假資料到系統中，儘量模擬真實環境。

使用Python中tkinter庫簡單gui介面製作及打包成exe的操作方法（二）

上一篇我們寫了怎麼將xmind轉換成想要的excel格式，這篇再講一下用Python自帶的tkinter庫設計一個簡單的gui介面，讓我們的xmind路徑，用例版本執行等都通過這個gui介面來輸入，生成我們需要的excel檔案。

python中requests庫的post請求 4種類型引數

用python來驗證介面正確性，主要流程有4步： 1 設定url 2 設定訊息頭 3 設定訊息體

python中turtle庫的簡單使用教程

python的turtle庫的簡單使用 Python的turtle庫是一個直觀有趣的圖形繪製函式庫，是python的標準庫之一。

Python 基礎 jieba庫——詞性標註與篩選

技術標籤：python 基礎自然語言處理python 詞性，指以詞的特點作為劃分詞類的根據，主要用來描述一個詞在上下文中的作用。中文常見的有，a形容詞，d副詞，n名詞等等。

基於python中jieba包的中文分詞中詳細使用之一

基於python中jieba包的中文分詞中詳細使用（一） 01.前言之前的文章中也是用過一些jieba分詞但是基本上都是處於皮毛，現在就現有的python環境中對其官方文件做一些自己的理解以及具體的介紹。本文主要內容也是從官網

python中Pandas 庫函式DataFrame的基本屬性詳解

技術標籤：Python import pandas as pd DataFrame是一個結構體 class DataFrame(data=None, index: Optional[Axes]=None, columns: Optional[Axes]=None, dtype: Optional[Dtype]=None, copy: bool=False)

[每天一個python小技巧]Python中標準庫OS的常用方法總結

技術標籤：python處理python 前言：最近使用的資料相關的操作比較多，所以對於os的操作使用頻繁，為了避免點開N個瀏覽器進行檢視不同的方法，現將自己常用以及網上所提及的總結歸納如下。

Python 中的 jieba 庫

jieba庫

一、 簡介

1、 是什麼

2、 安裝

二、 基本使用

1、 三種模式

2、 使用語法