Python jieba庫用法及例項解析

阿新 • • 發佈：2020-01-09

1、jieba庫基本介紹

(1)、jieba庫概述

jieba是優秀的中文分詞第三方庫

- 中文文字需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫，需要額外安裝
- jieba庫提供三種分詞模式，最簡單隻需掌握一個函式

(2)、jieba分詞的原理

Jieba分詞依靠中文詞庫

- 利用一箇中文詞庫，確定漢字之間的關聯概率
- 漢字間概率大的組成片語，形成分詞結果

- 除了分詞，使用者還可以新增自定義的片語

jieba庫使用說明

(1)、jieba分詞的三種模式

精確模式、全模式、搜尋引擎模式

- 精確模式：把文字精確的切分開，不存在冗餘單詞
- 全模式：把文字中所有可能的詞語都掃描出來，有冗餘

- 搜尋引擎模式：在精確模式基礎上，對長詞再次切分

(2)、jieba庫常用函式

2.jieba應用例項

3.利用jieba庫統計三國演義中任務的出場次數

import jieba

txt = open("D:\\三國演義.txt","r",encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精確模式對文字進行分詞
counts = {}   # 通過鍵值對的形式儲存詞語及其出現的次數

for word in words:
  if len(word) == 1:  # 單個詞語不計算在內
    continue
  else:
    counts[word] = counts.get(word,0) + 1  # 遍歷所有詞語，每出現一次其對應的值加 1
    
items = list(counts.items())#將鍵值對轉換成列表
items.sort(key=lambda x: x[1],reverse=True)  # 根據詞語出現的次數進行從大到小排序

for i in range(15):
  word,count = items[i]
  print("{0:<5}{1:>5}".format(word,count))

統計了次數對多前十五個名詞，曹操不愧是一代梟雄，第一名當之無愧，但是我們會發現得到的資料還是需要進一步處理，比如一些無用的詞語，一些重複意思的詞語。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python jieba庫用法及例項解析

1、jieba庫基本介紹 (1)、jieba庫概述 jieba是優秀的中文分詞第三方庫 - 中文文字需要通過分詞獲得單個的詞語

Python上下文管理器用法及例項解析

這篇文章主要介紹了Python上下文管理器用法及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

oracle中merge into用法及例項解析

merge into的形式： MERGE INTO [target-table] A USING [source-table sql] B ON([conditional expression] and [...]...)

Python assert關鍵字原理及例項解析

這篇文章主要介紹了Python assert關鍵字原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python getpass模組用法及例項詳解

getpass import getpass username = input(\"username:\") password = getpass.getpass(\"password:\") print(username,password)

Python reduce函式作用及例項解析

語法在python3中，內建函式中已經沒有reduce了。要使用reduce，需要從functools模組裡引入

Python jieba庫分詞模式例項用法

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大

python中對_init_的理解及例項解析

一、self的位置是出現在哪裡？首先，self是在類的方法中的，在呼叫此方法時，不用給self賦值，Python會自動給他賦值，而且這個值就是類的例項--物件本身。也可以將self換成別的叫法例如seef，但不建議，因為大家習慣

PYTHON EVAL的用法及注意事項解析

前言 eval是Python的一個內建函式，這個函式的作用是，返回傳入字串的表示式的結果。想象一下變數賦值時，將等號右邊的表示式寫成字串的格式，將這個字串作為eval的引數，eval的返回值就是這個表示式的結果。

Python reshape的用法及多個二維數組合併為三維陣列的例項

reshape(shape) ：不改變陣列元素，返回一個shape形狀的陣列，原陣列不變。是對每行元素進行處理

python匿名函式lambda原理及例項解析

這篇文章主要介紹了python匿名函式lambda原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python閉包與裝飾器原理及例項解析

一、閉包閉包相當於函式中，巢狀另一個函式，並返回。程式碼如下： def func(name): # 定義外層函式

Python定時任務APScheduler原理及例項解析

定時任務： 1、執行緒睡眠函式 sleep() ——粗暴！一直佔有 CPU 資源，導致後續操作無法執行

Python Tkinter圖形工具使用方法及例項解析

Tkinter 常用元件按鈕 Button 按鈕元件 RadioButton 單選框元件 CheckButton 選擇按鈕元件

Python DES加密實現原理及例項解析

加密流程首先說一下置換的意思，比如說有5678這個字串，置換表為2143，置換表中的數表示的是位置，所以字串變成6587。所有的置換表在程式中。（S盒置換不一樣，會另外說明）

Python pathlib模組使用方法及例項解析

pathlib 模組中包含的是一些類，它們的繼承關係如圖 1 所示。圖 1 pathlib模組中類的組織結構

python爬蟲排程器用法及例項程式碼

我們一般使用爬蟲看到的都是最後的資料結果，對於整個的獲取過程沒有過多瞭解過。對於初學python的小夥伴們來說，不光是程式碼的練習，還是原理的分析都是必不可少的。

Java原子變數類原理及例項解析

這篇文章主要介紹了Java原子變數類原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java記憶體模型原子性原理及例項解析

這篇文章主要介紹了Java記憶體模型原子性原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java HashMap原理及例項解析

這篇文章主要介紹了Java HashMap原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下