1. 程式人生 > >python機器學習——分詞

python機器學習——分詞

word tokenize 一個 tle ken mar 自然語言 詞頻 pan

使用jieba庫進行分詞

安裝jieba就不說了,自行百度!

import jieba

將標題分詞,並轉為list

seg_list = list(jieba.cut(result.get("title"), cut_all=False))

所有標題使用空格連接,方便後面做自然語言處理

para = para + " ".join(seg_list)

將分詞後的標題(使用空格分割的標題)放到一個list裏面

summaryList.insert(0," ".join(seg_list))

統計詞頻

from nltk.tokenize import
WordPunctTokenizer import nltk tokenizer = WordPunctTokenizer() #統計詞頻 sentences = tokenizer.tokenize(para)#此處將para轉為list(16進制字符) wordFreq=nltk.FreqDist(sentences) for i in wordFreq:print i,wordFreq[i]

python機器學習——分詞