041 模組5-jieba庫的使用

阿新 • • 發佈：2020-12-13

一、jieba庫基本介紹
二、jieba庫使用說明

一、jieba庫基本介紹

1.1 jieba庫概述

jieba是優秀的中文分詞第三方庫

中文文字需要通過分詞獲得單個的詞語
jieba是優秀的中文分詞第三方庫，需要額外安裝
jieba庫提供三種分詞模式，最簡單隻需掌握一個函式

1.2 jieba庫的安裝

pip install jieba(cmd命令列)

1.3 jieba分詞的原理

Jieba分詞依靠中文詞庫

利用一箇中文詞庫，確定漢字之間的關聯概率

漢字間概率大的組成片語，形成分詞結果
除了分詞，使用者還可以新增自定義的片語

二、jieba庫使用說明

2.1 jieba分詞的三種模式

精確模式、全模式、搜尋引擎模式

精確模式：把文字精確的切分開，不存在冗餘單詞
全模式：把文字中所有可能的詞語都掃描出來，有冗餘
搜尋引擎模式：在精確模式基礎上，對長詞再次切分

2.2 jieba庫常用函式

函式	描述
jieba.lcut(s)	精確模式，返回一個列表型別的分詞結果
jieba.lcut(s, cut_all=True)	全模式，返回一個列表型別的分詞結果，存在冗餘
jieba.lcut_for_search(s)	搜尋引擎模式，返回一個列表型別的分詞結果，存在冗餘
jieba.add_word(w)	向分詞詞典增加新詞w

import jieba
jieba.lcut("中國是一個偉大的國家")

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.





['中國' 
, '是', '一個', '偉大', '的', '國家']

jieba.lcut("中國是一個偉大的國家",cut_all=True)

['中國', '國是', '一個', '偉大', '的', '國家']

jieba.lcut("中華人民共和國是偉大的")

['中華人民共和國', '是', '偉大', '的']

jieba.lcut("中華人民共和國是偉大的",cut_all=True)

['中華', '中華人民', '中華人民共和國', '華人', '人民', '人民共和國', '共和', '共和國', '國是', '偉大', '的']

jieba.lcut_for_search("中華人民共和國是偉大的")

['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

jieba.add_word("蟒蛇語言")

2.3 分詞要點

jieba.lcut(s)

041 模組5-jieba庫的使用

目錄一、jieba庫基本介紹1.1 jieba庫概述1.2 jieba庫的安裝1.3 jieba分詞的原理二、jieba庫使用說明2.1 jieba分詞的三種模式2.2 jieba庫常用函式2.3 分詞要點

Python jieba庫用法及例項解析

1、jieba庫基本介紹 (1)、jieba庫概述 jieba是優秀的中文分詞第三方庫 - 中文文字需要通過分詞獲得單個的詞語

python 輿情分析 nlp主題分析（2）-結合snownlp與jieba庫，提高分詞與情感判斷待續

python 輿情分析 nlp主題分析（1）待續:https://www.cnblogs.com/cycxtz/p/13663895.html 前文摘要：

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

利用jieba庫對紅樓夢進行分詞統計

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

使用者登入模組 - 5 勾選：記住使用者名稱

JavaWeb綜合案例 - 使用者登入：6 勾選 - 記住使用者名稱勾選後再次訪問顯示使用者名稱

Python 基礎 jieba庫——詞性標註與篩選

技術標籤：python 基礎自然語言處理python 詞性，指以詞的特點作為劃分詞類的根據，主要用來描述一個詞在上下文中的作用。中文常見的有，a形容詞，d副詞，n名詞等等。

012 模組1-turtle庫的使用

目錄一、概述二、turtle庫基本介紹 2.1 turtle庫概述 2.2 標準庫 2.3 turtle的原（wan）理（fa）

019 模組2-time庫的使用

目錄一、概述二、time庫基本介紹 2.1 time庫概述三、時間獲取四、時間格式化 4.1 格式化控制符

026 模組3-random庫的使用

目錄一、random庫基本介紹 1.1 random庫概述二、基本隨機數函式 2.1 隨機數種子三、擴充套件隨機數函式

033 模組4-PyInstaller庫的使用

目錄一、PyInstaller庫基本介紹 1.1 PyInstaller庫概述 1.2 pip的使用 1.3 pip install pyinstaller (cmd命令列)

049 模組6-wordcloud庫的使用

目錄一、wordcloud庫基本介紹 1.1 wordcloud庫概述 1.2 wordcloud庫的安裝二、wordcloud庫使用說明

056 模組7-os庫的基本使用

目錄一、os庫基本介紹二、os庫之路徑操作 2.1 路徑操作三、os庫之程序管理 3.1 程序管理

Python jieba庫分詞模式例項用法

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大

python 爬蟲學習入門5 requests庫

技術標籤：爬蟲python Requests庫 requests庫為我們提供了一個封裝好的庫函式，使用更為簡便

5.4Irvine32庫

技術標籤：組合語言一、建立這個庫的原因目前為止還沒有微軟官方支援的組合語言程式設計庫。當程式設計師在1980年代開始在x86處理器上編寫組合語言時，MS-DOS是最常用的作業系統。當時的16位的程式能夠呼叫MS-

在centos7上安裝python3以及python模組和python庫

技術標籤：linux 在Centos 7 上安裝python3的兩種方法 1、Python原始碼編譯安裝安裝必要工具 yum-utils ，它的功能是管理repository及擴充套件包的工具 (主要是針對repository)

糖豆人確定聯動迪士尼《創：戰紀》新模組5月24日上線

超人氣遊戲《糖豆人》Mediatonic日前宣佈，旗下超人氣遊戲《糖豆人》將於迪士尼合作，推出經典科幻電影《創：戰紀》新模組，於5月24日正式上線，屆時各種迷幻未來風格面板等都將登場，敬請期待。

jieba庫——紅樓夢名字分詞

1 import jieba 2 txt = open(\"D:\\作業\\python 作業\\jieba分詞\\紅樓夢.txt\",\"r\",encoding = \'ansi\').read()

Qt編寫視覺化大屏電子看板系統27-模組5負荷分佈

一、前言負荷分佈模組包括工序計劃負荷、當日負荷、負荷百分比三個子模組，工序計劃負荷用表格的形式展示不同工序在不同日期的負荷工作時長，比如組裝工序在 2022-02-10 運行了88小時，一般表格顯示最近的一星期的資

041 模組5-jieba庫的使用

一、jieba庫基本介紹

1.1 jieba庫概述

1.2 jieba庫的安裝

1.3 jieba分詞的原理

二、jieba庫使用說明

2.1 jieba分詞的三種模式

2.2 jieba庫常用函式

2.3 分詞要點

相關推薦