python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

阿新 • • 發佈：2019-02-09

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。

讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。

執行環境：

具體程式碼如下：

#!/usr/bin/python  
# -*- coding:utf-8 -*-  

import sys
reload(sys)

sys.setdefaultencoding('utf-8')

import jieba
import jieba.analyse
import xlwt #寫入Excel表的庫

if __name__=="__main__":

    wbk = xlwt.Workbook(encoding = 'ascii')
    sheet = wbk.add_sheet("wordCount")#Excel單元格名字
    word_lst = []
    key_list=[]
    for line in open('1.txt'):#1.txt是需要分詞統計的文件

        item = line.strip('\n\r').split('\t') #製表格切分
        # print item
        tags = jieba.analyse.extract_tags(item[0]) #jieba分詞
        for t in tags:
            word_lst.append(t)

    word_dict= {}
    with open("wordCount.txt",'w') as wf2: #開啟檔案

        for item in word_lst:
            if item not in word_dict: #統計數量
                word_dict[item] = 1
            else:
                word_dict[item] += 1

        orderList=list(word_dict.values())
        orderList.sort(reverse=True)
        # print orderList
        for i in range(len(orderList)):
            for key in word_dict:
                if word_dict[key]==orderList[i]:
                    wf2.write(key+' '+str(word_dict[key])+'\n') #寫入txt文件
                    key_list.append(key)
                    word_dict[key]=0
    
    
    for i in range(len(key_list)):
        sheet.write(i, 1, label = orderList[i])
        sheet.write(i, 0, label = key_list[i])
    wbk.save('wordCount.xls') #儲存為 wordCount.xls檔案

1.txt是你需要分詞統計的文字內容，最後會生成wordCount.txt和wordCount.xls兩個檔案。下圖是最後結果

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。執行環境：具體程式碼如下： #!/usr/bin/python # -*- coding:utf-8

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

轉載請註明出處歡迎加入Python快速進階QQ群：867300100 “結巴”中文分詞：做最好的 Python 中文分片語件,分詞模組jieba，它是python比較好用的分詞模組, 支援中文簡體，繁體分詞，還支援自定義詞庫。 jieba的分詞，提取關鍵詞，

python jieba分詞（新增停用詞，使用者字典取詞頻

中文分詞一般使用jieba分詞 1.安裝 1 pip install jieba 2.大致瞭解jieba分詞包括jieba分詞的3種模式全模式 1 import jieba 2 3 seg_list = jieba.cut("我來到北京清華大學", cut_all=True, HMM=False

使用jieba分詞並去除停用詞流程程式

準備工作 ① 構建未分詞檔案、已分詞檔案兩個資料夾，將未分詞資料夾按類目定義檔名，各個類目的資料夾下可放置多個需要分詞的檔案。 ② 準備一份停用詞（jieba自身應該是沒有停用詞的） ③ 根據業務需要自定義詞典（此處使用jieba自帶字典）分詞去停詞.py

python jieba分詞模組

這篇部落格就是為了方便我自己看。有興趣的可以看下別人的這篇部落格：https://www.cnblogs.com/jiayongji/p/7119065.html 1獲取詞 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。 cut = jieba.cu

python jieba分詞模組的基本用法

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞，本文對其基本用法做一個簡要總結。安裝jieba pip install jieba 簡單用法結巴分詞分為三種模式：精確模式（預設）、全模式和搜尋引擎模式，下面對這三種模式分別舉例介紹：精確模式 import jieba s = u'我想

python jieba 分詞自定義字典

python中結巴分詞的準確性比較高，網上有詳細的教程，包括自字義字典的使用方法。最近在做實驗室的一個小專案，其中有很多實體名不規則，需要使用自定義的字典，按照網上某些教程的方法，建立了自定義字典，該方法說只有詞性是可選的，我就設定了詞頻，發現不管是提高還是降低數值，自己

python——jieba分詞過程

print -- training 空字符串交通 jieba分詞 imp ini jieba 1 import jieba 2 """函數2：分詞函數""" 3 def fenci(training_data): 4 """-----------

python 統計一個資料夾下面的所有txt文件都有多少行

# encoding: utf-8 import os, re def get_filename(filepath, filetype): import os filename = [] for root, dirs, files in os.walk(filepath):

轉載:python生成以及打開json、csv和txt文件

文件內容 tps lin head lan {} key val number 原文地址：https://blog.csdn.net/weixin_42555131/article/details/82012642 生成txt文件： mesg = "hello worl

python的Web框架，Django模板變量，過濾器和靜態文件引入

time_zone keyword ast 地址 func ssi 模板文件 config pat HTML模板的路徑查找在setting中設置查找路徑： 1 #默認的查找在此處填寫，優先級最高，為在manage.py的同級路徑中，添加(常規是template)文件夾，

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

nbsp cnblogs code utf-8 col type callback 結果處理接上一章，抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

這一篇接著上一篇處理後的資料進行操作，按照（一）中的步驟，這事應該將文字資料每一行中的高頻的正面詞去掉，因為多數是描述身體健康的短句，只有少數是描述脾臟檢查異常的，所以嘗試刪除掉描述身體健康的短句，只留下少數檢查異常的資料，對異常的檢查資料進行特徵提取，這是思路。所以這一篇目

自然語言處理學習3：中文分句re.split()，jieba分詞和詞頻統計FreqDist

1. 使用re.split() 分句，re.split(delimiter, text) import jieba import re # 輸入一個段落，分成句子，可使用split函式來實現 paragraph = "生活對我們任何人來說都不容易！我們必須努力，最重要的是

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

python結巴(jieba)分詞

pytho 最大的 parallel img 權重模型 python 應用 port python結巴(jieba)分詞一、特點 1、支持三種分詞模式：　　(1)精確模式：試圖將句子最精確的切開，適合文本分析。　　(2)全模式：把句子中所有可以成詞的詞語都掃描出來

python基礎===jieba模塊，Python 中文分詞組件

word cut 用法地址 api mas 精確 == com api參考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安裝自行百度基本用法： import jieba #全模式 word = jie

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

相關推薦