統計一篇文章中各英語單詞出現的頻數

阿新 • • 發佈：2018-11-26

package com.icinfo;

import java.io.*;
import java.util.*;

/**
 * 統計一個檔案中各詞出現的頻率，並列印
 */
public class FileWordCount {
    // 使用HashMap來儲存單詞的頻率
    Map<String, Integer> wordCount = new HashMap<>();

    public static void main(String[] args) {
        HashMap<String, Integer> map = (HashMap<String, Integer>) new FileWordCount()
                .wordCount("C:/Users/hzhb/Desktop/test.txt");

        // 自定義排序
        List<Map.Entry<String, Integer>> list = new LinkedList<>();
        list.addAll(map.entrySet());
        list.sort(Comparator.comparingInt(e -> e.getValue()));
        list.forEach(System.out::println);
    }

    /**
     * @param fileName 檔名（將英文文章複製到一個檔案中去）
     */
    public Map<String, Integer> wordCount(String fileName) {
        File file = new File(fileName);
        FileInputStream fis = null;
        try {
            fis = new FileInputStream(file);
        } catch (FileNotFoundException e) {
            System.out.println("檔案不存在!");
        }

        BufferedReader bufr = new BufferedReader(new InputStreamReader(fis));
        String s;
        try {
            while ((s = bufr.readLine()) != null) {
                // 移除字串的前導空白和後尾部空白
                s = s.trim();
                // 正則表示式：以非字母或者是數字為分隔符，進行分割
                // 英文單詞以空格為分隔符，將單詞分隔
                String[] str = s.split("(\\s+\\W+)|[\\s+\\W+]");
                for (int i = 0; i < str.length; i++) {
                    //並將所有大寫字母轉換為小寫
                    String currentStr = str[i].toLowerCase();
                    // 如果HashMap中已有該值,將值加1
                    if (wordCount.containsKey(currentStr)) {
                        wordCount.put(currentStr, wordCount.get(currentStr) + 1);
                    } else {
                        // 預設初始化該單詞的出現次數為1
                        wordCount.put(currentStr, 1);
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

        // 移除HashMap中的""空字串
        wordCount.remove("");
        return wordCount;
    }
}

統計一篇文章中各英語單詞出現的頻數

package com.icinfo; import java.io.*; import java.util.*; /** * 統計一個檔案中各詞出現的頻率，並列印 */ public class FileWordCount { // 使用HashMap來儲存單詞的頻率

Python - 統計一篇文章中單詞的頻率

readlines lis pre sta spl pen word lower pri def frenquence_statistic(file_name): frequence = {} for line in open(file_name,‘r‘)

一篇文章有若干行，以空行作為輸入結束的條件。統計一篇文章中單詞the(不管大小寫，單詞the是由空格隔開的)的個數。

#include <iostream>using namespace std; int k = 0;int n = 0;int main() { 　　char c;　　　　char a[1000]; 　　do 　　{ 　　　　cin.get(c); 　　　　if(c>='A'&

Java實現統計一篇文章中每個單詞出現的次數

import java.io.File; import java.io.FileReader; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; import jav

Java統計一篇文章中出現次數最多的漢字或英文單詞又出現次數的統計

思想是用到了Map集合的鍵唯一性儲存漢字或者單詞，單詞的獲取通過正則獲取：統計類： import java.util.ArrayList; import java.util.Map; import java.util.Set; import java.util.Tree

統計一篇文章中出現次數最多的前k個詞，文章中一行一詞

應該考慮檔案大小和詞的多少，有一個1G大小的一個檔案，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

演算法之"統計一篇文章裡不同單詞的個數"

輸入：有多組資料，每組一行，每行就是一篇文章。每篇小文章由小寫字母和空格組成，沒有標點符號，遇到#時表示輸入結束。輸出：每組輸入一個整數，其單獨成行，該整數代表一篇文章裡不同單詞的總數。例如： hello world hello hi haha hh

統計一篇文章裡不同單詞的總數

Input 有多組資料，每組一行，每組就是一篇小文章。每篇小文章都是由小寫字母和空格組成，沒有標點符號，遇到#時表示輸入結束。 Output 每組只輸出一個整數，其單獨成行，該整數代表一篇文章裡不同單詞的總數。和uva10815感覺差不多，只是需要對每一行進行一

統計一篇文章單詞的個數（map）

統計一篇英文文章中單詞出現的頻率（為簡單起見，假定依次從鍵盤輸入該文章）關鍵字是string型別 #include<bits/stdc++.h> using namespace std; int main() { map<string, int

matlab統計一個數組中各元素出現的頻數、頻率

>> x =['If x is a numeric array, TABLE is a numeric matrix.']'; >> tabulate(x) Value Count Percent I 1 2.44% f

一篇文章讓你知道什麽是數據挖掘

大數據數據挖掘數據庫大數據如果想要產生價值，對它的處理過程無疑是非常重要的，其中大數據分析和大數據挖掘就是最重要的兩部分。在前幾期的科普中，小編已經為大家介紹了大數據分析的相關情況，本期小編就為大家講解大數據挖掘技術，讓大家輕輕松松弄懂什麽是大數據挖掘技術。什麽是大數據挖掘？數據挖掘(Dat

一篇文章解讀阿裏雲視頻點播內容安全機制

oid 簡單如果黑白 mozilla 判斷管理無網業務摘要：如何保障視頻內容的安全，不被盜鏈、非法下載和傳播，是困擾眾多企業已久的問題，特別是獨播劇、在線教育、財經金融、行業培訓等在線版權視頻領域尤為迫切，處理不好會造成極為嚴重的經濟損失，甚至法律風險。阿裏雲

阿裏雲周源：一篇文章讀懂四代視頻加密技術演進

阿裏私鑰 png 優缺點一點比較一定的 nag 希望摘要：在剛剛圓滿落幕的LiveVideoStackCon峰會上，阿裏雲高級技術專家周源進行了《視頻加密和DRM的實施實踐》主題分享。周源，有十多年音視頻研發經驗，之前在淘寶視頻負責開放平臺，目前在阿裏雲視頻雲部

統計一串字元中每個字元的出現次數，以及哈夫曼樹的WPL

#include <bits/stdc++.h> using namespace std; int main() { int arr[30]; memset(arr, 0, sizeof(arr)); string s; cin

統計一篇英文文章中出現次數最多的10個單詞

package se; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.

C++經典題目二：統計一篇英文文章中的單詞個數

要求：統計處一篇英文文章中的不同的單詞，並得到單詞個數。用一個單向連結串列儲存所出現的單詞，注意幾點：1）檔案輸入輸出；2）字串處理；3）連結串列資料結構再看程式碼——演算法實現如下： //========================================

編寫程式實現：輸入一篇文章，統計該文章中“指定字串”的出現次數

/* （2）編寫程式實現：輸入一篇文章，統計該文章中“中國”的出現次數 public int count(String article){ } / //第一種 import java.util.Scanner; class CountString{ publi

Python實現統計一篇英文文章內每個單詞的出現頻率的兩種很好解法

有一道Python面試題: 用python實現統計一篇英文文章內每個單詞的出現頻率，並返回出現頻率最高的前10個單詞及其出現次數。檔案的內容，就拷貝import this模組中的內容，檔名為: this.txt The Zen of Python, by Tim Peters Beauti

統計文章中英語單詞出現的次數

nextline ati pri num ger .get ins dex inf 統計文章中各個英語單詞出現的次數： import java.io.*; import java.util.*; public class Tongji { publi

統計一篇文章中各英語單詞出現的頻數

相關推薦