1. 程式人生 > >NLP分詞

NLP分詞

網絡語言 pri 默認 搜索引擎 eba sea tokenize 中國 bsp

英文分詞:

#英文分詞
import nltk
sentence="hello,world"
tokens=nltk.word_tokenize(sentence)
print(tokens)

#[‘hello‘, ‘,‘, ‘world‘]

#中文分詞

import jieba
seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print ("Full Mode:", "/ ".join(seg_list))
seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print ("Default Mode:", "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式
print (", ".join(seg_list))
seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都留學深造") # 搜索引擎模式
print (", ".join(seg_list))

#Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
#Default Mode: 我/ 來到/ 北京/ 清華大學
#他, 來到, 了, 網易, 杭研, 大廈
#小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, ,, 後, 在, 日本, 京都, 留學, 深造

#社交網絡語言的tokenize【正則表達式】

NLP分詞