NLP分詞
阿新 • • 發佈:2017-10-18
網絡語言 pri 默認 搜索引擎 eba sea tokenize 中國 bsp
英文分詞:
#英文分詞 import nltk sentence="hello,world" tokens=nltk.word_tokenize(sentence) print(tokens) #[‘hello‘, ‘,‘, ‘world‘]
#中文分詞
import jieba seg_list = jieba.cut("我來到北京清華大學",cut_all=True) print ("Full Mode:", "/ ".join(seg_list)) seg_list = jieba.cut("我來到北京清華大學", cut_all=False) print ("Default Mode:", "/ ".join(seg_list)) # 精確模式 seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式 print (", ".join(seg_list)) seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都留學深造") # 搜索引擎模式 print (", ".join(seg_list)) #Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學 #Default Mode: 我/ 來到/ 北京/ 清華大學 #他, 來到, 了, 網易, 杭研, 大廈 #小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, ,, 後, 在, 日本, 京都, 留學, 深造
#社交網絡語言的tokenize【正則表達式】
NLP分詞