python機器學習——分詞
阿新 • • 發佈:2017-06-02
word tokenize 一個 tle ken mar 自然語言 詞頻 pan
使用jieba庫進行分詞
安裝jieba就不說了,自行百度!
import jieba
將標題分詞,並轉為list
seg_list = list(jieba.cut(result.get("title"), cut_all=False))
所有標題使用空格連接,方便後面做自然語言處理
para = para + " ".join(seg_list)
將分詞後的標題(使用空格分割的標題)放到一個list裏面
summaryList.insert(0," ".join(seg_list))
統計詞頻
from nltk.tokenize importWordPunctTokenizer import nltk tokenizer = WordPunctTokenizer() #統計詞頻 sentences = tokenizer.tokenize(para)#此處將para轉為list(16進制字符) wordFreq=nltk.FreqDist(sentences) for i in wordFreq:print i,wordFreq[i]
python機器學習——分詞