用python統計文章單詞詞頻

阿新 • • 發佈：2018-12-13

import re

with open("text.txt") as f:
    #讀取檔案中的字串
    txt = f.read()
    #去除字串中的標點、數字等
    txt = re.sub('[,\.()":;[email protected]#$%^&*\d]|\'s|\'', '', txt)
    #替換換行符，大小寫轉換，拆分成單詞列表
    word_list = txt.replace('\n',' ').replace('  ',' ').lower().split(' ')
    word_count_dict = {}

    for 
 word in word_list:
      #統計字典中的詞頻
        if word in word_count_dict.keys():
            word_count_dict[word] += 1
        else:
            word_count_dict[word] =1
    #按照單詞出現次數排序
    word_count_dict = sorted(word_count_dict.items(), key=lambda x:x[1], reverse=True)
    #輸出到檔案
    with open("word_count.txt" 
, 'w')as f1:
        for i in word_count_dict:
            f1.write("%s\t%s\n" %(i[0],str(i[1])))

結果大概就是這樣子了：

the	8
to	6
a	6
has	3
us	2
criminal	2
subpoenas	2
president	2

發現還有很多不完善的地方，在後續的學習中再改進！

用python統計文章單詞詞頻

import re with open("text.txt") as f: #讀取檔案中的字串 txt = f.read() #去除字串中的標點、數字等 txt = re.sub('[,\.()":;[email pr

用python統計你的文章裡每個英文單詞的數量

p=''' i heared a story about you ''' #你的文章段 lines=p.strip().split('\n') words_cnt={} for line in lines: line=line.replace(',','').lower() #逗號都用英

用python統計檔案中各個單詞出現的次數

import string d = {} def choice(str): s = str.lower() #全部轉化為小寫 for c in range(97,123): #ASC

用python統計多個文字中你想統計的單詞

import collections #計數器 import os import string path = "/Users/U/workspace/python learning/show-me-

用python拆分文章

菜雞的日誌，非常簡單和基礎的內容，不確定會更新多少,目的是自動做英語閱讀匹配題涉及到的知識： python pandas和numpy庫 tf-idf的運用需要準備若干篇現成的英語閱讀和答案（不是機器學習，只是自己測試準確率）個人使用jupyter_noteboo

對string型變數的頻率統計(文章單詞檢索)

#include<bits/stdc++.h>using namespace std;#define ll long longmap<string,ll> mp;set<string> ss; void cnt(const string s,string sp){ for

用Python統計文字檔案中詞彙字母短語等分佈

這是MSRA的高階軟體設計結對程式設計的作業這篇部落格討論具體地實現方式與過程，包括效能分析與單元測試分析的工具使用方法可以參考這兩篇部落格: 該專案的完整程式碼，請參考下面的Github: 先看一下這個專案的要求: 使用者需求：英語的26 個字母的頻

學會用Python統計彩票熱門資料，衝擊人生第一桶金？

又是一週的星期五了，離彩票的開獎時間還有兩天，剛好趁機來分析下彩票，以備過兩天的彩票開獎。因此，準備了兩個指令碼，一個用來下載最近的彩票資料，一個用來統計彩票數字，分享給大家！一、彩票資料獲取並寫入excel表格資料來源自己看吧~用外鏈通不過。。。所用庫：xlwt，reque

用python統計資料庫sqlite中某一table中的記錄行數

conn.execute('''CREATE TABLE IF NOT EXISTS ADDRESSDB(MacAddress CHAR(50),NewAddress CHAR(50) );''') cursor = conn.cursor

用python統計某個目錄下指定字尾檔案的個數

舉例：統計images目錄下以.jpg字尾的檔案的個數# -*- coding: utf-8 -*- # 參考連結：http://www.runoob.com/python/os-walk.ht

python統計中文單詞

#coding:UTF-8 import sys sys.setrecursionlimit(100000000) def wordHan(inIo, outIo='wordcountHAN.txt', writing='w'): s = '' fo

Python - 統計一篇文章中單詞的頻率

readlines lis pre sta spl pen word lower pri def frenquence_statistic(file_name): frequence = {} for line in open(file_name,‘r‘)

如何利用python統計英文文章詞頻

應用介紹：統計英文文章詞頻是很常見的需求，本文利用python實現。思路分析： 1、把英文文章的每個單詞放到列表裡，並統計列表長度； 2、遍歷列表，對每個單詞出現的次數進行統計，並將結果儲存在字典中； 3、利用步驟1中獲得的列表長度，求出每個單詞出

統計文章詞頻（python實現）

統計出文章重複詞語是進行文字分析的重要一步，從詞頻能夠概要的分析文章內容。本文將講述如何用python3.6版本實現英文文章詞頻的統計，通過本文也可以對python字典的操作有一定的認識。實現思路：1.輸入文章 2.建立用於詞頻計算的空字典 3.

用Python實現一個詞頻統計(詞雲+圖）

dcloud top 復制 width ros tor 數據 microsoft lis 第一步：首先需要安裝工具python 第二步：在電腦cmd後臺下載安裝如下工具：（有一些是安裝好python電腦自帶有哦）有一些會出現一種情況就是安裝不了詞雲展

Storm設計一個Topology用來統計單詞的TopN的實例

osi was 對象 turn col rms nds owin collect Storm的單詞統計設計一：Storm的wordCount和Hadoop的wordCount實例對比二：Storm的wordCount的方案實例設計三：建立maven項目，添

【Python】三國演義詞頻統計

RM pre excludes 孔明 use {} HR form PE import jiebatxt = open(‘C:/Users/eternal/Desktop/threekingdoms.txt‘,‘r‘,encoding=‘UTF-8‘).read()　　#提

單詞詞頻統計（12組）

dea strong 文件的 ont 插入 cells 分享 RoCE 操作單詞詞頻統計 0．前言該程序寫於2018年7月9日，在北京航空航天大學與南通大學鞠小林老師結對完成。在此期間通過結對編程完成整個項目的需求分析、設計、開發、測試等。現在回顧一下這個程序的編寫過程

python 利用jieba庫詞頻統計

clu eve color items text true eba word lambda 1 #統計《三國誌》裏人物的出現次數 2 3 import jieba 4 text = open(‘threekingdoms.txt‘,‘r‘,encoding=‘u

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用python統計文章單詞詞頻

相關推薦