1. 程式人生 > >jieba分詞學習

jieba分詞學習

name mysq githut exce 寫入 mys word xtra 數據

具體項目在githut裏面:

應用jieba庫分詞
1)利用jieba分詞來統計詞頻:
對應文本為我們隊伍的介紹:jianjie.txt:
項目名稱:碎片

項目描述:制作一個網站,拾起日常碎片,記錄生活點滴!

項目成員:孔潭活、何德新、吳淑瑤、蘇詠梅

成員風采:

孔潭活:2015034643032

何德新:

學號:2015034643017

風格:鹹魚王

擅長技術:設計

編程興趣:機器學習、人工智能。希望的軟工角色:項目經理。

一句話宣言:持而盈之,不如其已。揣而銳之,不可常保。道可道非常道;名可名非常名

吳淑謠:

學號:2015034643018

風格:細水長流

擅長技術:無,對C++比較熟悉

編程興趣:對數據進行處理和分析

希望的軟工角色:代碼能力比較薄弱,希望負責技術含量不是很高的模塊

一句話宣言:推陳出新,永無止境。

蘇詠梅:

學號:2015034643025

風格:越挫越勇

擅長技術:沒有比較擅長的,對MySQL與Java感興趣

希望的軟工角色:需求分析員

一句話宣言:要成功,先發瘋,頭腦簡單向前沖

課程目標
一個小而美記錄生活碎片的網站

代碼:

import jieba
import jieba.analyse
import xlwt #寫入Excel表的庫
if name == "main":
wbk = xlwt.Workbook(encoding=‘ascii‘)
sheet = wbk.add_sheet("wordCount") # Excel單元格名字
word_lst = []
key_list = []
for line in open(‘jianjie.txt‘): # jianjie.txt是需要分詞統計的文檔
item = line.strip(‘\n\r‘).split(‘\t‘) # 制表格切分
# print item
tags = jieba.analyse.extract_tags(item[0]) # jieba分詞
for t in tags:
word_lst.append(t)
word_dict = {}
with open("wordCount.txt", ‘w‘) as wf2: # 打開文件
for item in word_lst:
if item not in word_dict: # 統計數量
word_dict[item] = 1
else:
word_dict[item] += 1
for item in word_lst:
if word_dict[item]==1:
del word_dict[item]
orderList = list(word_dict.values())
orderList.sort(reverse=True)
# print orderList
for i in range(len(orderList)):
for key in word_dict:
if word_dict[key] == orderList[i]:
wf2.write(key + ‘ ‘ + str(word_dict[key]) + ‘\n‘) # 寫入txt文檔
key_list.append(key)
word_dict[key] = 0
for i in range(len(key_list)):
sheet.write(i, 1, label=orderList[i])
sheet.write(i, 0, label=key_list[i])
wbk.save(‘wordCount.xls‘) # 保存為 wordCount.xls文件

?

2)統計的詞頻會輸出兩個文件一個是txt文件另外一個是xls文件名字都是wordCount
我們利用excel來繪圖
技術分享圖片

技術分享圖片

jieba分詞學習