1. 程式人生 > >python jieba模組基本命令講解

python jieba模組基本命令講解

1、分詞
精確模式:
import jieba
s="fdsfdsfsdfds"
s_cut_jq=jieba.cut(s)
#可見分詞結果返回的是一個生成器,可實現拼接
cut_jq=','.join(s_cut_jq)
全模式:
s_cut_qms=jieba.cut(s,cut_all=True)
cut_qms=','.join(s_cut_qms)
搜尋引擎模式:
s_cut_ssyqms=jieba.cut_for_search(s)
cut_ssyqms=','.join(s_cut_ssyqms)

2、詞性
每個詞都有其詞性,比如名詞、動詞、代詞等,結巴分詞的結果也可以帶上每個詞的詞性,要用到jieba.posseg,舉例如下:
import jieba.posseg as psg
s_psg_cut=psg.cut(s)
for word,flag in s_psg_cut:
    print('%s 的詞性是 %s'%(word,flag))
#word是詞語  flag是詞語的詞性

3、提取關鍵字
#基於 TextRank 演算法的關鍵詞抽取
#jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))

 直接使用,介面相同,注意預設過濾詞性
#jieba.analyse.TextRank() 新建自定義 TextRank 例項
'''

基本思想:

  • 將待抽取關鍵詞的文字進行分詞
  • 以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖
  • 計算圖中節點的PageRank,注意是無向帶權圖

'''

keywords =jieba.analyse.extract_tags(s,topK=3,withWeight=True,allowPOS=('n','nr','ns'))
#keywords型別是list
for item in keywords:
    print(item[0],item[1])
##詞性對照表
 

詞性對照表

名詞 (1個一類,7個二類,5個三類) 
名詞分為以下子類: 
n 名詞 
nr 人名 
nr1 漢語姓氏 
nr2 漢語名字 
nrj 日語人名 
nrf 音譯人名 
ns 地名 
nsf 音譯地名 
nt 機構團體名 
nz 其它專名 
nl 名詞性慣用語 
ng 名詞性語素
時間詞(1個一類,1個二類) 
t 時間詞 
tg 時間詞性語素
處所詞(1個一類) 
s 處所詞
方位詞(1個一類) 
f 方位詞
動詞(1個一類,9個二類) 
v 動詞 
vd 副動詞 
vn 名動詞 
vshi 動詞“是” 
vyou 動詞“有” 
vf 趨向動詞 
vx 形式動詞 
vi 不及物動詞(內動詞) 
vl 動詞性慣用語 
vg 動詞性語素
形容詞(1個一類,4個二類) 
a 形容詞 
ad 副形詞 
an 名形詞 
ag 形容詞性語素 
al 形容詞性慣用語
區別詞(1個一類,2個二類) 
b 區別詞 
bl 區別詞性慣用語
狀態詞(1個一類) 
z 狀態詞
代詞(1個一類,4個二類,6個三類) 
r 代詞 
rr 人稱代詞 
rz 指示代詞 
rzt 時間指示代詞 
rzs 處所指示代詞 
rzv 謂詞性指示代詞 
ry 疑問代詞 
ryt 時間疑問代詞 
rys 處所疑問代詞 
ryv 謂詞性疑問代詞 
rg 代詞性語素
數詞(1個一類,1個二類) 
m 數詞 
mq 數量詞
量詞(1個一類,2個二類) 
q 量詞 
qv 動量詞 
qt 時量詞
副詞(1個一類) 
d 副詞
介詞(1個一類,2個二類) 
p 介詞 
pba 介詞“把” 
pbei 介詞“被”
連詞(1個一類,1個二類) 
c 連詞 
cc 並列連詞
助詞(1個一類,15個二類) 
u 助詞 
uzhe 著 
ule 了 嘍 
uguo 過 
ude1 的 底 
ude2 地 
ude3 得 
usuo 所 
udeng 等 等等 云云 
uyy 一樣 一般 似的 般 
udh 的話 
uls 來講 來說 而言 說來 
uzhi 之 
ulian 連 (“連小學生都會”)
嘆詞(1個一類) 
e 嘆詞
語氣詞(1個一類) 
y 語氣詞(delete yg)
擬聲詞(1個一類) 
o 擬聲詞
字首(1個一類) 
h 字首
字尾(1個一類) 
k 字尾
字串(1個一類,2個二類) 
x 字串 
xx 非語素字 
xu 網址URL
標點符號(1個一類,16個二類) 
w 標點符號 
wkz 左括號,全形:( 〔 [ { 《 【 〖 〈 半形:( [ { < 
wky 右括號,全形:) 〕 ] } 》 】 〗 〉 半形: ) ] { > 
wyz 左引號,全形:“ ‘ 『 
wyy 右引號,全形:” ’ 』 
wj 句號,全形:。 
ww 問號,全形:? 半形:? 
wt 歎號,全形:! 半形:! 
wd 逗號,全形:, 半形:, 
wf 分號,全形:; 半形: ; 
wn 頓號,全形:、 
wm 冒號,全形:: 半形: : 
ws 省略號,全形:…… … 
wp 破折號,全形:—— -- ——- 半形:— —- 
wb 百分號千分號,全形:% ‰ 半形:% 
wh 單位符號,全形:¥ $ £ ° ℃ 半形:$