Python jieba庫分詞模式例項用法

阿新 • • 發佈：2021-01-15

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大家例項操作這些分詞模式，以及方法的使用，一起來了解下吧。

全模式：

import jieba
seg_list = jieba.cut("南京市長江大橋歡迎你。",cut_all=True)
print(type(seg_list),seg_list)

精確模式：

seg_list1 = jieba.lcut("南京市長江大橋歡迎你。",cut_all=False)
print(type(seg_list1),seg_list1)

搜尋模式：

seg_list2 = jieba.cut_for_search("南京市長江大橋歡迎你。")
print(type(seg_list2),seg_list2)
print("全模式：" + "/ ".join(seg_list))
print("精確模式：" + "/ ".join(seg_list1))
print("搜尋引擎模式：" + "/ ".join(seg_list2))

輸出結果：

全模式：南京/ 南京市/ 京市/ 市長/ 長江/ 長江大橋/ 大橋/ 歡迎/ 你/ 。

精確模式：南京市/ 長江大橋/ 歡迎/ 你/ 。

搜尋引擎模式：南京/ 京市/ 南京市/ 長江/ 大橋/ 長江大橋/ 歡迎/ 你/ 。

內容擴充套件：

獲取詞性

我們還可以通過jiaba這個庫把詞性進行區分，比如動詞，名詞等

import jieba.posseg as psg

seg_list = psg.cut("我要進行關鍵詞提取")
print([(s.word,s.flag) for s in seg_list])
# [('我','r'),('要','v'),('進行',('關鍵詞','n'),('提取','v')]

我們還可以提取動詞或者名詞,我們來提取下里面的動詞

import jieba.posseg as psg

seg_list = psg.cut("我要進行關鍵詞提取")
print([(s.word,s.flag) for s in seg_list if s.flag.startswith('v')])

到此這篇關於Python jieba庫分詞模式例項用法的文章就介紹到這了,更多相關Python jieba庫分詞模式怎麼用內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

Python jieba庫分詞模式例項用法

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大

Python jieba結巴分詞原理及用法解析

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba[結巴分詞]

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba庫用法及例項解析

1、jieba庫基本介紹 (1)、jieba庫概述 jieba是優秀的中文分詞第三方庫 - 中文文字需要通過分詞獲得單個的詞語

python爬蟲庫scrapy簡單使用例項詳解

最近因為專案需求，需要寫個爬蟲爬取一些題庫。在這之前爬蟲我都是用node或者php寫的。一直聽說python寫爬蟲有一手，便入手了python的爬蟲框架scrapy.

Python中return函式返回值例項用法

在學習return函式時候，還是要知道了解它最主要的函式作用，比如，怎麼去實現返回一個值，另外還有就是我們經常會用到的使用return能夠進行多值輸出，這才是我們需要抓住知識的重點，針對上述所提及的內容，都可以來

python利用結巴分詞做新聞地圖

應用語言學的期末Pre花了差不多一個月零零碎碎的時間完成了。最初的打算爬取網易、新浪、騰訊的國內新聞，再通過提取關鍵詞，比較這三個網站社會新聞報道的內容的傾向性。使用結巴分詞進行切分，再統計地名詞頻，進而

python中文分詞庫jieba使用方法詳解

安裝python中文分詞庫jieba 法1：Anaconda Prompt下輸入conda install jieba 法2：Terminal下輸入pip3 install jieba

Python中文分詞庫jieba,pkusegwg效能準確度比較

中文分詞(Chinese Word Segmentation)，將中文語句切割成單獨的片語。英文使用空格來分開每個單詞的，而中文單獨一個漢字跟詞有時候完全不是同個含義，因此，中文分詞相比英文分詞難度高很多。

python 輿情分析 nlp主題分析（2）-結合snownlp與jieba庫，提高分詞與情感判斷待續

python 輿情分析 nlp主題分析（1）待續:https://www.cnblogs.com/cycxtz/p/13663895.html 前文摘要：

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

python同義詞替換的實現（jieba分詞）

TihuanWords.txt文件格式注意：同一行的詞用單個空格隔開，每行第一個詞為同行詞的替換詞。

新聞網頁Python爬蟲（jieba分詞+關鍵詞搜尋排序）

前言最近做了一個python3作業題目，涉及到：網頁爬蟲網頁中文文字提取建立文字索引

jieba分詞庫介紹-關鍵字提取

jieba 介紹 jieba是優秀的中文分詞第三方庫-中文文字需要通過分詞獲得單個的詞語-jieba是優秀的中文分詞第三方庫，需要額外安裝-jieba庫提供三種分詞模式，最簡單隻需掌握一個函式

利用jieba庫對紅樓夢進行分詞統計

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

python 正則表示式貪婪模式與非貪婪模式原理、用法例項分析

本文例項講述了python 正則表示式貪婪模式與非貪婪模式原理、用法。分享給大家供大家參考，具體如下：

python 用jieba分詞統計關於紅樓夢的高頻詞

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

將使用jieba分詞的語料庫轉化成TFIDF向量

技術標籤：jieba分詞TF-IDF向量文字分類自然語言處理python文字分類jieba分詞TF-IDF向量

基於python中jieba包的中文分詞中詳細使用之一

基於python中jieba包的中文分詞中詳細使用（一） 01.前言之前的文章中也是用過一些jieba分詞但是基本上都是處於皮毛，現在就現有的python環境中對其官方文件做一些自己的理解以及具體的介紹。本文主要內容也是從官網

python中doctest庫例項用法

doctest庫就是一個測試用的標準庫，從意義上我們可以看出是關於測試有關係的，基本上就是測試是否和自己想要的結果是否一致，經常能在編寫文件時候進行使用，之前也給大家介紹過開發工具中unittest單元測試的使用，同

Python jieba庫分詞模式例項用法

全模式：

精確模式：

搜尋模式：

相關推薦