1. 程式人生 > >jieba分詞學習總結

jieba分詞學習總結

1、jieba.cut()
引數1 需要分詞的字串
引數2 是否採用全模式,預設是精確模式

seg_list=jieba.cut(‘這是一個測試’,cut_all=False)
可以用’/’.join(seg_list)

2、新增自定義詞典
jieba.load_userdict(filename) filename為自定義詞典的路徑和檔名
格式為:一個詞一行 每行分為三部分 一部分詞語 另一部分詞頻 最後為詞性 以空格分開

3、關鍵詞提取
jieba.analyse.extract_tags(sentence,topk)
提取topk個tfidf值最大的關鍵詞

4、詞性標註
import jieba.posseg as pseg
words=pseg.cut(sentence)
for w in words
print w.word,w.flag

5、去停用詞
stopwords=[line.strip().decode(‘utf-8’) for line in open(‘stop_words.txt’)]
seglist=jieba.cut(sen)
print ‘/’.join(set(seglist)-set(stopwords))
這裡用到了set函式,set函式返回的是去重後的無序集合,”-“號表示差集