Python 詞頻統計

阿新 • • 發佈：2018-06-16

英文單詞通過 python 代碼解析文本 AR 從大到小 read -c

利用Python做一個詞頻統計

GitHub地址：FightingBob 【Give me a star , thanks.】

詞頻統計

　　對純英語的文本文件【Eg: 瓦爾登湖(英文版).txt】的英文單詞出現的次數進行統計，並記錄起來

代碼實現

 1 import string
 2 from os import path
 3 with open(‘瓦爾登湖(英文版).txt‘,‘rb‘) as text1:
 4     words = [word.strip(string.punctuation).lower() for word in str(text1.read()).split()]
 
 5     words_index = set(words)
 6     count_dict = {index:words.count(index) for index in words_index}
 7     with open(path.dirname(__file__) + ‘/file1.txt‘,‘a+‘) as text2:
 8         text2.writelines(‘以下是詞頻統計的結果：‘ + ‘\n‘)
 9         for word in sorted(count_dict,key=lambda x:count_dict[x],reverse=True):
 
10             text2.writelines(‘{}--{} times‘.format(word,count_dict[word]) + ‘\n‘)
11         text1.close()
12         text2.close()

代碼解析　　
- 獲取文件，以二進制格式打開文件，用於讀取內容
  - 　　1 with open(‘瓦爾登湖(英文版).txt‘,‘rb‘) as text1:
- 獲取單詞列表
  - 先讀取內容
    - 　　content = text1.read()
  - 再獲取單詞列表（使用split() 通過指定分隔符對字符串進行切片）
    - 　　words = content.split()
  - 單詞大寫改小寫，去掉單詞前後符號
    - 　　word,strip(string.punctuation).lower()
  - 去除重復的單詞
    - 　　words_index = set(words)
- 設置單詞：單詞次數的字典　　　　　　
- 寫入詞頻統計
  - 先創建文件，獲取當前目錄，並以追加寫入的方式寫入
    - 　　with open(path.dirname(__file__) + ‘/file1.txt‘,‘a+‘) as text2:
  - 換行寫入
    - 　　text2.writelines(‘以下是詞頻統計的結果：‘ + ‘\n‘)
  - 對單詞進行排序，根據次數從大到小【key=lambda x:count_dict[x]以值排序】
    - 　　sorted(count_dict,key=lambda x:count_dict[x],reverse=True)
  - 換行寫入詞頻
    - 　　text2.writelines(‘{}--{} times‘.format(word,count_dict[word]) + ‘\n‘)
  - 關閉資源
    - 　　text1.close()
    - 　　text2.close()

GitHub地址：FightingBob 【Give me a star , thanks.】　　　　　　　　　　

Python 詞頻統計

python詞頻統計

for don trie 轉換 ems branch art read right 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞頻最大TOP10 s=‘R

Python 詞頻統計

英文單詞通過 python 代碼解析文本 AR 從大到小 read -c 利用Python做一個詞頻統計 GitHub地址：FightingBob 【Give me a star , thanks.】詞頻統計　　對純英語的文本文件【Eg: 瓦爾登湖(英文版)

軟工作業3：Python詞頻統計

alt stat 小寫代碼 strong pla 創建處理 inf 一、程序分析 1.讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 file=open(dst,"r

【Python】三國演義詞頻統計

RM pre excludes 孔明 use {} HR form PE import jiebatxt = open(‘C:/Users/eternal/Desktop/threekingdoms.txt‘,‘r‘,encoding=‘UTF-8‘).read()　　#提

python 利用jieba庫詞頻統計

clu eve color items text true eba word lambda 1 #統計《三國誌》裏人物的出現次數 2 3 import jieba 4 text = open(‘threekingdoms.txt‘,‘r‘,encoding=‘u

Python數據挖掘-詞頻統計-實現

pytho row str dict err 金庸 nump 由於 dir 詞頻：某個詞在該文檔中出現的內容 1、語料庫搭建 import jieba jieba.load_userdict("D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課

詞頻統計（python）

直接如果 profile file 修改 one 說明 top 過程一、程序分析 1.讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 file1 = open(dst, "

Python文字詞頻統計的編碼問題-MOOC嵩天

1 Python文字詞頻統計程式碼 1.1Hamlet詞頻統計（含Hamlet原文文字） #CalHamletV1.py def getText(): txt = open("hamlet.txt", "r").read() txt = txt.lower()

利用python實現簡單詞頻統計、構建詞雲

1、利用jieba分詞，排除停用詞stopword之後，對文章中的詞進行詞頻統計，並用matplotlib進行直方圖展示 # coding: utf-8 import codecs import matplotlib.pyplot as plt import jieba # import sys #

python實現讀取檔案英文詞頻統計並寫入到檔案

# _*_ coding: utf-8 _*_ # 作者：dcjmessi import os from collections import Counter # 假設要讀取檔名為read，位於當前路徑 filename = 'read.txt' # 當前程

python之統計句子中的詞頻

一：題目要求對於一個已分詞的句子（可方便地擴充套件到統計檔案中的詞頻）：我/是/一個/測試/句子/，/大家/趕快/來/統計/我/吧/，/大家/趕快/來/統計/我/吧/，/大家/趕快/來/統計/我/吧/，/重要/事情/說/三遍/！可以用collections模組中的Counter

181115 Python學習日記——詞頻統計

主要使用第三方庫：jieba import jieba f = open('三國演義.txt','r').read() word_count = {} for word in f: if word in '，。：；”“‘’—！——': w

Python生成詞雲圖，TIIDF方法文字挖掘: 詞頻統計，詞雲圖

python中使用wordcloud包生成的詞雲圖。下面來介紹一下wordcloud包的基本用法。 class wordcloud.WordCloud(font_path=None, widt

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

python學習筆記2詞頻統計

對英文文字中的英文單詞進行詞頻統計：程式碼如下： # -*- coding: utf-8 -*- """ Created on Thu Apr 5 20:07:09 2018 @author: Administrator """ import turtle count=5

Python語言程式設計（MOOC崇天）第六章組合資料型別學習筆記（基本統計值計算+文字詞頻統計）

複習：今日內容：組合資料型別集合型別及操作：集合型別的定義：非可變的資料型別：整數、浮點、元組、負數、字串型別可變的資料型別：列表list和字典dict。所以看不到集合中有列表、{[ ]} 就算是set([1

Python開發Spark應用之Wordcount詞頻統計

待我學有所成，結髮與蕊可好。@夏瑾墨一個早上只做了一點微小的工作，很懺愧。但是發現Spark這玩意還是蠻有意思的。下面給大家介紹一下如何用python跑一遍Wordcount的詞頻統計的示例程式。 #在pyspark模組中引入SparkCont

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

系統：win7 32位分詞軟體：PyNLPIR 整合開發環境（IDE）：Pycharm 功能：實現多級文字預處理全過程，包括文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示，並將結果匯出為WEKA能夠處理的.arff格式。直接上程式碼： #!/usr/bin/

python 文字單詞提取和詞頻統計

這些對文字的操作經常用到，那我就總結一下。陸續補充。。。操作： strip_html(cls, text) 去除html標籤 separate_words(cls, text, min_

python之統計句子中的詞頻次數

1.貼題題目來自MOOC 《用Python玩轉資料》（南京大學）第四周程式設計作業對於一個已分詞的句子（可方便地擴充套件到統計檔案中的詞頻）：我/是/一個/測試/句子/，/大家/趕快/來/統計/我/吧/，/大家/趕快/來/統計/我/吧/

Python 詞頻統計

利用Python做一個詞頻統計

詞頻統計

對純英語的文本文件【Eg: 瓦爾登湖(英文版).txt】的英文單詞出現的次數進行統計，並記錄起來

代碼實現

代碼解析

獲取文件，以二進制格式打開文件，用於讀取內容

獲取單詞列表

先讀取內容

再獲取單詞列表（使用split() 通過指定分隔符對字符串進行切片）

單詞大寫改小寫，去掉單詞前後符號

去除重復的單詞

設置單詞：單詞次數的字典

寫入詞頻統計

先創建文件，獲取當前目錄，並以追加寫入的方式寫入

換行寫入

對單詞進行排序，根據次數從大到小【key=lambda x:count_dict[x]以值排序】

換行寫入詞頻

關閉資源

相關推薦

　　對純英語的文本文件【Eg: 瓦爾登湖(英文版).txt】的英文單詞出現的次數進行統計，並記錄起來

代碼解析　　

設置單詞：單詞次數的字典