python jieba分詞模組的基本用法

阿新 • • 發佈：2018-12-22

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞，本文對其基本用法做一個簡要總結。

安裝jieba

pip install jieba

簡單用法

結巴分詞分為三種模式：精確模式（預設）、全模式和搜尋引擎模式，下面對這三種模式分別舉例介紹：

精確模式

import jieba
s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'

cut = jieba.cut(s)

print '【Output】'
print cut
print ','.join(cut)

【Output】
<generator object cut at 0x7f8dbc0efc30>
我,想,和,女朋友,一起,去,北京故宮博物院,參觀,和,閒逛,。

可見分詞結果返回的是一個生成器（這對大資料量資料的分詞尤為重要）。

全模式

print '【Output】'
print ','.join(jieba.cut(s,cut_all = True))

【Output】
我,想,和,女朋友,朋友,一起,去,北京,北京故宮,北京故宮博物院,故宮,故宮博物院,博物,博物院,參觀,和,閒逛,,

可見全模式就是把文字分成儘可能多的詞。

搜尋引擎模式

print '【Output】'
print ','.join(jieba.cut_for_search(s))

【Output】
我,想,和,朋友,女朋友,一起,去,北京,故宮,博物,博物院,北京故宮博物院,參觀,和,閒逛,。

獲取詞性

每個詞都有其詞性，比如名詞、動詞、代詞等，結巴分詞的結果也可以帶上每個詞的詞性，要用到jieba.posseg，舉例如下：

import jieba.posseg as psg
print '【Output】'
print [(x.word,x.flag) for x in psg.cut(s)]

# 輸出：
'''[(u'我', u'r'), (u'想', u'v'), (u'和', u'c'), (u'女朋友', u'n'), (u'一起', u'm'), (u'去', u'v'), (u'北京故宮博物院', u'ns'), (u'參觀', u'n'), (u'和', u'c'), (u'閒逛', u'v'), (u'。', u'x')] 
'''

可以看到成功獲取到每個詞的詞性，這對於我們對分詞結果做進一步處理很有幫助，比如只想獲取分詞結果列表中的名詞，那麼就可以這樣過濾：

print [(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')]

# 輸出：
'''[(u'女朋友', u'n'), (u'北京故宮博物院', u'ns'), (u'參觀', u'n')]'''

至於詞性的每個字母分別表示什麼詞性，jieba分詞的結果可能有哪些詞性，就要去查閱詞性對照表了，本文結尾附了一份從網上搜到的詞性對照表，想了解更詳細的詞性分類資訊，可以到網上搜索"結巴分詞詞性對照"。

並行分詞

在文字資料量非常大的時候，為了提高分詞效率，開啟並行分詞就很有必要了。jieba支援並行分詞，基於python自帶的multiprocessing模組，但要注意的是在Windows環境下不支援。

用法：

# 開啟並行分詞模式，引數為併發執行的程序數
jieba.enable_parallel(5)

# 關閉並行分詞模式
jieba.disable_parallel()

舉例：開啟並行分詞模式對三體全集文字進行分詞

santi_text = open('./santi.txt').read()
print len(santi_text)

可以看到三體全集的資料量還是非常大的，有260多萬字節的長度。

jieba.enable_parallel(100)
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()

獲取出現頻率Top n的詞

還是以上面的三體全集文字為例，假如想要獲取分詞結果中出現頻率前20的詞列表，可以這樣獲取：

from collections import Counter
c = Counter(santi_words).most_common(20)
print c

# 輸出：
'''[(u'\r\n', 21805), (u'一個', 3057), (u'沒有', 2128), (u'他們', 1690), (u'我們', 1550), (u'這個', 1357), (u'自己', 1347), (u'程心', 1320), (u'現在', 1273), (u'已經', 1259), (u'世界', 1243), (u'羅輯', 1189), (u'可能', 1177), (u'什麼', 1176), (u'看到', 1114), (u'知道', 1094), (u'地球', 951), (u'人類', 935), (u'太空', 930), (u'三體', 883)]'''

可以看到結果中'\r\n'居然是出現頻率最高的詞，還有'一個'、'沒有'、'這個'等這種我們並不想要的無實際意義的詞，那麼就可以根據前面說的詞性來進行過濾，這個以後細講。

使用使用者字典提高分詞準確性

不使用使用者字典的分詞結果：

txt = u'歐陽建國是創新辦主任也是歡聚時代公司雲端計算方面的專家'
print ','.join(jieba.cut(txt))

歐陽,建國,是,創新,辦,主任,也,是,歡聚,時代,公司,雲,計算,方面,的,專家

使用使用者字典的分詞結果：

jieba.load_userdict('user_dict.txt')
print ','.join(jieba.cut(txt))

歐陽建國,是,創新辦,主任,也,是,歡聚時代,公司,雲端計算,方面,的,專家

可以看出使用使用者字典後分詞準確性大大提高。

注：其中user_dict.txt的內容如下：

歐陽建國 5

創新辦 5 i

歡聚時代 5

雲端計算 5

使用者字典每行一個詞，格式為：

詞語詞頻詞性

其中詞頻是一個數字，詞性為自定義的詞性，要注意的是詞頻數字和空格都要是半形的。

附：結巴分詞詞性對照表（按詞性英文首字母排序）

形容詞(1個一類，4個二類)

a 形容詞

ad 副形詞

an 名形詞

ag 形容詞性語素

al 形容詞性慣用語

區別詞(1個一類，2個二類)

b 區別詞

bl 區別詞性慣用語

連詞(1個一類，1個二類)

c 連詞

cc 並列連詞

副詞(1個一類)

d 副詞

嘆詞(1個一類)

e 嘆詞

方位詞(1個一類)

f 方位詞

字首(1個一類)

h 字首

字尾(1個一類)

k 字尾

數詞(1個一類，1個二類)

m 數詞

mq 數量詞

名詞 (1個一類，7個二類，5個三類)

名詞分為以下子類：

n 名詞

nr 人名

nr1 漢語姓氏

nr2 漢語名字

nrj 日語人名

nrf 音譯人名

ns 地名

nsf 音譯地名

nt 機構團體名

nz 其它專名

nl 名詞性慣用語

ng 名詞性語素

擬聲詞(1個一類)

o 擬聲詞

介詞(1個一類，2個二類)

p 介詞

pba 介詞“把”

pbei 介詞“被”

量詞(1個一類，2個二類)

q 量詞

qv 動量詞

qt 時量詞

代詞(1個一類，4個二類，6個三類)

r 代詞

rr 人稱代詞

rz 指示代詞

rzt 時間指示代詞

rzs 處所指示代詞

rzv 謂詞性指示代詞

ry 疑問代詞

ryt 時間疑問代詞

rys 處所疑問代詞

ryv 謂詞性疑問代詞

rg 代詞性語素

處所詞(1個一類)

s 處所詞

時間詞(1個一類，1個二類)

t 時間詞

tg 時間詞性語素

助詞(1個一類，15個二類)

u 助詞

uzhe 著

ule 了嘍

uguo 過

ude1 的底

ude2 地

ude3 得

usuo 所

udeng 等等等云云

uyy 一樣一般似的般

udh 的話

uls 來講來說而言說來

uzhi 之

ulian 連（“連小學生都會”）

動詞(1個一類，9個二類)

v 動詞

vd 副動詞

vn 名動詞

vshi 動詞“是”

vyou 動詞“有”

vf 趨向動詞

vx 形式動詞

vi 不及物動詞（內動詞）

vl 動詞性慣用語

vg 動詞性語素

標點符號(1個一類，16個二類)

w 標點符號

wkz 左括號，全形：（〔［｛《【〖〈半形：( [ { <

wky 右括號，全形：）〕］｝》】〗〉半形： ) ] { >

wyz 左引號，全形：“ ‘ 『

wyy 右引號，全形：” ’ 』

wj 句號，全形：。

ww 問號，全形：？半形：?

wt 歎號，全形：！半形：!

wd 逗號，全形：，半形：,

wf 分號，全形：；半形： ;

wn 頓號，全形：、

wm 冒號，全形：：半形： :

ws 省略號，全形：…… …

wp 破折號，全形：—— －－ ——－半形：--- ----

wb 百分號千分號，全形：％ ‰ 半形：%

wh 單位符號，全形：￥＄￡ ° ℃ 半形：$

字串(1個一類，2個二類)

x 字串

xx 非語素字

xu 網址URL

語氣詞(1個一類)

y 語氣詞(delete yg)

狀態詞(1個一類)

z 狀態詞

python jieba分詞模組的基本用法

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞，本文對其基本用法做一個簡要總結。安裝jieba pip install jieba 簡單用法結巴分詞分為三種模式：精確模式（預設）、全模式和搜尋引擎模式，下面對這三種模式分別舉例介紹：精確模式 import jieba s = u'我想

python jieba分詞模組

這篇部落格就是為了方便我自己看。有興趣的可以看下別人的這篇部落格：https://www.cnblogs.com/jiayongji/p/7119065.html 1獲取詞 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。 cut = jieba.cu

Python中的CSV模組基本用法

CSV模組提供一種非常便捷的方式操作CSV檔案。本文只是展現最基本的csv檔案的讀寫操作，因為使用的是Python2.7 所以open接受引數少，整個csv讀寫例子如下 import csv fname = 'testcsv.csv' with open(fname,'wb') as

python jieba 分詞自定義字典

python中結巴分詞的準確性比較高，網上有詳細的教程，包括自字義字典的使用方法。最近在做實驗室的一個小專案，其中有很多實體名不規則，需要使用自定義的字典，按照網上某些教程的方法，建立了自定義字典，該方法說只有詞性是可選的，我就設定了詞頻，發現不管是提高還是降低數值，自己

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

轉載請註明出處歡迎加入Python快速進階QQ群：867300100 “結巴”中文分詞：做最好的 Python 中文分片語件,分詞模組jieba，它是python比較好用的分詞模組, 支援中文簡體，繁體分詞，還支援自定義詞庫。 jieba的分詞，提取關鍵詞，

jieba分詞模組中如何新增自己準備的詞典

jieba分詞的詞典一般是C:\Users\Administrator\AppData\Local\Programs\Python\Python36\Lib\site-packages\jieba的目錄下的dict.txt檔案，如果自己想新增詞典，比如新增dic

對Python中文分詞模組結巴分詞演算法過程的理解和分析

結巴分詞是國內程式設計師用python開發的一箇中文分詞模組, 原始碼已託管在github, 地址在: https://github.com/fxsjy/jieba 作者的文件寫的不是很全, 只寫了怎麼用, 有一些細節的文件沒有寫. 以下是作者說明檔案中提到的結巴分

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。執行環境：具體程式碼如下： #!/usr/bin/python # -*- coding:utf-8

python jieba分詞（新增停用詞，使用者字典取詞頻

中文分詞一般使用jieba分詞 1.安裝 1 pip install jieba 2.大致瞭解jieba分詞包括jieba分詞的3種模式全模式 1 import jieba 2 3 seg_list = jieba.cut("我來到北京清華大學", cut_all=True, HMM=False

python——jieba分詞過程

print -- training 空字符串交通 jieba分詞 imp ini jieba 1 import jieba 2 """函數2：分詞函數""" 3 def fenci(training_data): 4 """-----------

python︱六款中文分詞模組嘗試:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

**公眾號“素質雲筆記”定期更新部落格內容：** ![這裡寫圖片描述](https://img-blog.csdn.net/20180226155348545?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2lu

Python中文分詞--jieba的基本使用

中文分詞的原理 1、中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程 2、現有的分詞演算法可分為三大類：基於字串匹配的分詞方法、基於理解的分詞方法

中文分詞的基本原理以及jieba分詞的用法

結巴分詞是國內程式設計師用Python開發的一箇中文分詞模組，可能是最好的Python中文分片語件？中文分詞的原理 – 1、中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的

python結巴(jieba)分詞

pytho 最大的 parallel img 權重模型 python 應用 port python結巴(jieba)分詞一、特點 1、支持三種分詞模式：　　(1)精確模式：試圖將句子最精確的切開，適合文本分析。　　(2)全模式：把句子中所有可以成詞的詞語都掃描出來

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

nbsp cnblogs code utf-8 col type callback 結果處理接上一章，抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

python基礎===jieba模塊，Python 中文分詞組件

word cut 用法地址 api mas 精確 == com api參考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安裝自行百度基本用法： import jieba #全模式 word = jie

Python中文分詞 jieba

問題 turn Coding windows 停用分享圖片詞典 ces text1 三種分詞模式與一個參數以下代碼主要來自於jieba的github,你可以在github下載該源碼 import jieba seg_list = jieba.cut("我來到北京清

python的jieba分詞

str lov clas true read .py 日本 pri 技術 # 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

python 結巴分詞(jieba)詳解

【轉自：https://www.cnblogs.com/jackchen-Net/p/8207009.html】 “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation:

python jieba分詞模組的基本用法

安裝jieba

簡單用法

精確模式

全模式

搜尋引擎模式

獲取詞性

並行分詞

獲取出現頻率Top n的詞

使用使用者字典提高分詞準確性

附：結巴分詞詞性對照表（按詞性英文首字母排序）

形容詞(1個一類，4個二類)

區別詞(1個一類，2個二類)

連詞(1個一類，1個二類)

副詞(1個一類)

嘆詞(1個一類)

方位詞(1個一類)

字首(1個一類)

字尾(1個一類)

數詞(1個一類，1個二類)

名詞 (1個一類，7個二類，5個三類)

擬聲詞(1個一類)

介詞(1個一類，2個二類)

量詞(1個一類，2個二類)

代詞(1個一類，4個二類，6個三類)

處所詞(1個一類)

時間詞(1個一類，1個二類)

助詞(1個一類，15個二類)

動詞(1個一類，9個二類)

標點符號(1個一類，16個二類)

字串(1個一類，2個二類)

語氣詞(1個一類)

狀態詞(1個一類)

相關推薦