統計一段文章的單詞頻率，取出頻率最高的5個單詞和個數(python)

阿新 • • 發佈：2018-11-11

練習題：統計一段英語文章的單詞頻率，取出頻率最高的5個單詞和個數(用python實現)

怎麼判定單詞?
1 不是字母的特殊字元作為分隔符分割字串 （避免特殊字元的處理不便，全部替換成'-')
2 遍歷字串，取每個word
3 正則匹配

怎麼統計個數？
將wordlist的word和word的個數放入dict，排序

'''
dinghanhua
2018-11-11
練習：一段英文文章，統計每個單詞的頻率，返回出現頻率最高的5個單詞和次數
'''

import re

art = ' If we want to" run Locust \ / distributed on multiple machines we would also have to specify the master host when starting the slaves (this is not needed when running Locust distributed on a single machine, since the master host defaults to 127.0.0.1): 
'

'''
怎麼判定單詞?
1 不是字母的特殊字元作為分隔符分割字串
2 遍歷字串，取每個word
3 正則匹配

怎麼統計個數？
將wordlist的word和word的個數放入dict，排序
'''

#  找出所有不是字母的字元替換成統一的字元，spit()分割之後便是單詞
word_dict = {} #用於統計 word：個數
word_list = [] #用於存放所有單詞

for letter in art:
    if not letter.isalpha():
        art = art.replace(letter,'-')

word_list  
= art.split('-') #分隔單詞

x = word_list.count('')
for i in range(x): #刪除多餘的空子串
    word_list.remove('')

print('所有的單詞列表：',word_list)

#正則表示式分隔
for letter in art:
    if not letter.isalpha():
        special_set.add(letter)
print('所有不是字母的字元：',special_set)

pattern = ''
for s in special_set:
    pattern  
+= s
pattern = '['+pattern+']'
word_list = re.split(pattern,art) #還要去除空格

# 遍歷字串，獲取每個word追加到wordlist
word =''
word_list2 = []

for letter in art:
    if letter.isalpha(): #如果是字母，追加到word
        word += letter
    else:
        if word != '':
            word_list2.append(word) #不是字母，word不為空的話追加wordlist
            word = '' # word置空
print(word_list2)

# 正則表示式匹配單詞
pattern = r'[a-zA-Z]+'
word_list3 = re.findall(pattern,art) #正則表示式就是精簡
print(word_list3)

最後的統計的程式碼：

#統計
for word in word_list:
    word_dict[word] = word_list.count(word) #key=單詞，value=單詞在list裡的count

#取最多的前五個
print(sorted(word_dict.items(),key = lambda x:x[1],reverse=True)[0:5]) #dict根據value倒序，取前5個

the end！

統計一段文章的單詞頻率，取出頻率最高的5個單詞和個數(python)

練習題：統計一段英語文章的單詞頻率，取出頻率最高的5個單詞和個數(用python實現)怎麼判定單詞?1 不是字母的特殊字元作為分隔符分割字串（避免特殊字元的處理不便，全部替換成'-')2 遍歷字串，取每個word3 正則匹配怎麼統計個數？將wordlist的word和word的個數放入dict，排序

Python - 統計一篇文章中單詞的頻率

readlines lis pre sta spl pen word lower pri def frenquence_statistic(file_name): frequence = {} for line in open(file_name,‘r‘)

一篇文章有若干行，以空行作為輸入結束的條件。統計一篇文章中單詞the(不管大小寫，單詞the是由空格隔開的)的個數。

#include <iostream>using namespace std; int k = 0;int n = 0;int main() { 　　char c;　　　　char a[1000]; 　　do 　　{ 　　　　cin.get(c); 　　　　if(c>='A'&

Python獲取一段文章中字母出現頻率前5的字母以及個數（去除空格、換行符等，只算字母）

import time,re from collections import Counter text = 'A friend of mine named Paul received an automobile from his brother as Christmas present.

統計一TXT文件中單詞出現頻率，輸出頻率最高的10個單詞

實驗過程主要思路就是首先將標點符號，常用冠詞等替換掉，然後利用雜湊表和陣列原理排序，輸出最高頻率的前十個陣列程式碼如下 import java.io.BufferedReader; import java.io.File; import java.io.Fil

統計一段話中，單詞的個數

import java.util.regex.Matcher; import java.util.regex.Pattern; public class PatternAndMatcherDemo { public static void main

統計一篇文章中各英語單詞出現的頻數

package com.icinfo; import java.io.*; import java.util.*; /** * 統計一個檔案中各詞出現的頻率，並列印 */ public class FileWordCount { // 使用HashMap來儲存單詞的頻率

jmu-Java&Python-統計一段文字中的單詞個數並按單詞的字母順序排序後輸出

現需要統計若干段文字(英文)中的不同單詞數量。如果不同的單詞數量不超過10個，則將所有單詞輸出(按字母順序)，否則輸出前10個單詞。注1：單詞之間以空格(1個或多個空格)為間隔。注2：忽略空行或者空格行。注3：單詞大小寫敏感，即'word'與'WORD'是兩個不同的單詞。輸入說明

演算法之"統計一篇文章裡不同單詞的個數"

輸入：有多組資料，每組一行，每行就是一篇文章。每篇小文章由小寫字母和空格組成，沒有標點符號，遇到#時表示輸入結束。輸出：每組輸入一個整數，其單獨成行，該整數代表一篇文章裡不同單詞的總數。例如： hello world hello hi haha hh

一道Java面試題讀取一篇英文文章，輸出其中出現單詞的次數最多的5個,寫java函式

package com.test.string; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.ArrayLis

統計一篇文章裡不同單詞的總數

Input 有多組資料，每組一行，每組就是一篇小文章。每篇小文章都是由小寫字母和空格組成，沒有標點符號，遇到#時表示輸入結束。 Output 每組只輸出一個整數，其單獨成行，該整數代表一篇文章裡不同單詞的總數。和uva10815感覺差不多，只是需要對每一行進行一

Java實現統計一篇文章中每個單詞出現的次數

import java.io.File; import java.io.FileReader; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; import jav

SVN 統計一段日期或者版本內更改過的檔案（方便階段性更新到測試，正式環境）

可在Windows cmd下執行，前提是安裝有svn 命令格式如下: svn diff -r REVNO:HEAD --summarize http://svn-url 例如： 1) 檢查從 724版本開始到目前所有改動檔案的列表

Java統計一篇文章中出現次數最多的漢字或英文單詞又出現次數的統計

思想是用到了Map集合的鍵唯一性儲存漢字或者單詞，單詞的獲取通過正則獲取：統計類： import java.util.ArrayList; import java.util.Map; import java.util.Set; import java.util.Tree

統計一篇文章單詞的個數（map）

統計一篇英文文章中單詞出現的頻率（為簡單起見，假定依次從鍵盤輸入該文章）關鍵字是string型別 #include<bits/stdc++.h> using namespace std; int main() { map<string, int

統計一篇英文文章中出現次數最多的10個單詞

package se; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.

統計一篇文章中出現次數最多的前k個詞，文章中一行一詞

應該考慮檔案大小和詞的多少，有一個1G大小的一個檔案，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100

貼一段Shell腳本，以便日後參考。

ear src dbn proc logs shel ble path $1 1 #! /bin/bash 2 3 ICMS_PATH=$(cd $(dirname $0); pwd) 4 DEPLOY_PATH=$(cd $(dirname $ICMS_PAT

C利用可變參數列表統計一組數的平均值，利用函數形式參數棧原理實現指針運算

alt 不同因此 void 統計 int 順序 ret end //描述：利用可變參數列表統計一組數的平均值 #include <stdarg.h> #include <stdio.h> float average(int num, ...);

leecode829+判斷一個數是否由一段連續數字求和，數學

https://leetcode.com/problems/consecutive-numbers-sum/description/ class Solution { public: int consecutiveNumbersSum(int N) { int cnt

統計一段文章的單詞頻率，取出頻率最高的5個單詞和個數(python)

相關推薦