1. 程式人生 > >Python的jieba模塊簡介

Python的jieba模塊簡介

分詞 txt img pri class port 清華大學 pan sse

現如今,詞雲技術遍地都是,分詞模塊除了jieba也有很多,主要介紹一下jieba的基本使用

import jieba
import jieba.posseg as psg
from os import path
from collections import Counter

s=u我想和女朋友一起去北京天安門閑逛。。

cut = jieba.cut(s)

print(精確模式)
print(cut)
print(,.join(cut))

print (全模式)
print(,.join(jieba.cut(s,cut_all = True)))

print(搜索引擎模式
) print(,.join(jieba.cut_for_search(s))) print(詞性) print([(x.word,x.flag) for x in psg.cut(s)]) print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith(n)]) print(--*--*10) seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full Mode:", "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("
我來到北京清華大學", cut_all=False) print("Default Mode:", "/ ".join(seg_list)) # 精確模式 seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式 print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜索引擎模式 print(", ".join(seg_list)) d=path.dirname(__file__) sanguo_text=open(path.join(d,"
data//sanguo.txt"),encoding=utf-8).read() print(len(sanguo_text)) sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2] c = Counter(sanguo_words).most_common(20) print(c)

運行結果

技術分享圖片

其中精確模式比較好用,全模式就是盡量將所有的詞拿出來

Python的jieba模塊簡介