資料結構課設詞頻統計

阿新 • • 發佈：2019-01-07

5-20 詞頻統計 (30分)

請編寫程式，對一段英文文字，統計其中所有不同單詞的個數，以及詞頻最大的前10%的單詞。

所謂“單詞”，是指由不超過80個單詞字元組成的連續字串，但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的“單詞字元”為大小寫字母、數字和下劃線，其它字元均認為是單詞分隔符。

輸入格式:

輸入給出一段非空文字，最後以符號#結尾。輸入保證存在至少10個不同的單詞。

輸出格式:

在第一行中輸出文字中所有不同單詞的個數。注意“單詞”不區分英文大小寫，例如“PAT”和“pat”被認為是同一個單詞。

隨後按照詞頻遞減的順序，按照詞頻:單詞的格式輸出詞頻最大的前10%的單詞。若有並列，則按遞增字典序輸出。

輸入樣例：

This is a test.

The word "this" is the word with the highest frequency.

Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

輸出樣例：（注意：雖然單詞`the`也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，`the`

排第3位，所以不輸出。）

23
5:this
4:is

最後一個測試點過不了，聽說是哈利波特的節選，不太懂為什麼，求大神解答。

還有isdigit和isalpha函式居然用了就WA，不知是為什麼。。。

用了map，學會了利用vector對map根據value值排序。。然而卻沒大用到雜湊。。。

#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <cctype>
#include <vector>
#include <map>
using namespace std;
bool cmp(pair<string, int> a, pair<string, int> b) {
	if(a.second != b.second) return a.second > b.second;
	else return a.first < b.first;
}
vector<pair<string, int> > v; 
map<string, int> m;
int main(){
	char str[100];
	string word;
	map<string, int>::iterator it;
	int start = 0;
	char ch;
	while(ch = getchar()) {
		if(ch >= 'a' && ch <= 'z' || ch >= 'A' && ch <= 'Z' || ch >= '0' && ch <= '9' || ch == '_') {
			if(ch >= 'A' && ch <= 'Z') ch = ch - 'A' + 'a';
			str[start++] = ch;
		}
		else if(start > 0) {
			if(start >= 15) start = 15;
			str[start] = 0;
			start = 0;
			word = str;
			it = m.find(word);
			if(it != m.end()) {
				(it->second)++;
			}
			else {
				m[word] = 1;
			}
		}
		if(ch == '#') break;
	}
	for(it = m.begin(); it != m.end(); it++) {
		v.push_back(make_pair(it->first, it->second));
	}
	sort(v.begin(), v.end(), cmp);
	vector<pair<string, int> > :: iterator itv;
	cout << v.size() << endl;
	int ans = v.size() / 10;
	for(itv = v.begin(); itv != v.begin() + ans; itv++) {
		cout << itv->second << ':' << itv->first << endl;
	}
	return 0;
			
}

資料結構課設詞頻統計

5-20 詞頻統計 (30分) 請編寫程式，對一段英文文字，統計其中所有不同單詞的個數，以及詞頻最大的前10%的單詞。所謂“單詞”，是指由不超過80個單詞字元組成的連續字串，但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的“單詞字元”為大小寫字母、數

資料結構課設銀行排隊問題之單佇列多視窗服務

5-7 銀行排隊問題之單佇列多視窗服務 (25分) 假設銀行有KK個視窗提供服務，視窗前設一條黃線，所有顧客按到達時間在黃線後排成一條長龍。當有視窗空閒時，下一位顧客即去該視窗處理事務。當有

#C++#資料結構課設踩的坑

題目是超市選址問題，但要求實現圖形介面，搭了Qt，圖形介面還是比較好實現的，但是因為大一一年一直都在鹹魚和Ctrl+c，所以幾乎相當於第一次自己獨立寫一個小程式。基礎不牢，地動山搖，有的坑我現在也沒明白emmmmm。。。 return返回函式執行處

刁肥宅資料結構課設“布隆過濾器的實踐與應用”原始碼（v1.0，永不上交）

程式碼很簡單，寫了一些註釋；加上註釋看就很清楚了。檔案bloomfilter.cpp： #include "bloomfilter.h" // return a hash range from 0 to 79999 int hash(con

通訊錄——資料結構課設

幫同學寫了n多課設，覺得蠻簡單，沒怎麼在意，這又花20min幫人寫了一個，決定發在部落格上，以後有誰要類似的就直接給個連結， ;-) 機智的窩任務要求：題目描述：通訊錄的基本屬性包括編號、姓名、性別、住址、聯絡電話等。要求實現最基本的功能模組如

資料結構課設列印學生選課清單（Hash）

5-24 列印學生選課清單 (25分) 假設全校有最多40000名學生和最多2500門課程。現給出每門課的選課學生名單，要求輸出每個前來查詢的學生的選課清單。輸入格式: 輸入的第一行是兩

資料結構課設--用B樹實現圖書管理系統

此文章是分享一下上學期資料結構課程的課程設計，我選擇的是以B樹為資料結構，開發一個圖書管理系統，B樹的優點在於查詢快，增刪結點相對於連結串列或者順序表效率更好，因此用來儲存大量圖書資訊更加合適。（開發環境為：vs2015）如需要完整工程檔案、說明文件以及可執

資料結構課上筆記2

今天繼續說明了一些基本概念，講解了時間空間複雜度。（對於概念的掌握也很最重要）元素之間的關係在計算機中有兩種表示方法：順序映像和非順序映像，由此得到兩種不同的儲存結構：順序儲存結構和鏈式儲存結構。順序：根據元素在儲存器中的相對位置表示關係鏈式：藉助指標

資料結構課上筆記15

圖的儲存多重連結串列：完全模擬圖的樣子，每個節點內的指標都指向該指向的節點。節點結構內指標數為度缺點：浪費空間、不容易操作陣列表示法（鄰接矩陣表示法）可用兩個陣列儲存。其中一個一維陣列儲存資料元素（頂點）的資訊，另一個二維

資料結構課上筆記11

滿二叉樹 (Full binary tree) 除最後一層無任何子節點外，每一層上的所有結點都有兩個子結點二叉樹。國內教程定義：一個二叉樹，如果每一個層的結點數都達到最大值，則這個二叉樹就是滿二叉樹。也就是說，如果一個二叉樹的層數為K，且結點總數是(2^k) -1 ，則它就是滿二叉樹。

資料結構課上筆記14

圖是一種：資料元素間存在多對多關係的資料結構加上一組基本操作構成的抽象資料型別。圖 (Graph) 是一種複雜的非線性資料結構，由頂點集合及頂點間的關係（也稱弧或邊）集合組成。可以表示為： G＝(V, VR) 其中 V 是頂點的有窮非空集

資料結構課上筆記13

樹儲存結構父節點表示法資料域：存放結點本身資訊。雙親域：指示本結點的雙親結點在陣列中的位置。對應的樹： /* 樹節點的定義 */ #define MAX_TREE_SIZE 100 typedef struct{

資料結構課上筆記12

二叉樹的儲存結構順序儲存結構完全二叉樹：用一組地址連續的儲存單元依次自上而下、自左至右存儲結點元素，即將編號為 i 的結點元素儲存在一維陣列中下標為 i –1 的分量中。一般二叉樹：將其每個結點與完全二叉樹上的

C語言版資料結構《運動會分數統計》

問題描述：參加運動會有n個學校，學校編號為1……n。比賽分成m個男子專案，和w個女子專案。專案編號為男子1……m，女子m+1……m+w。不同的專案取前五名或前三名積分；取前五名的積分分別為：7、5、3、2、1，前三名的積分分別為：5、3、2；哪些取前五名或前三名由學生自己設定

資料結構實訓——成績統計系統

1 課題描述給出n個學生的m門考試的成績表，每個學生的資訊由學號、姓名以及各科成績組成。對學生的考試成績進行有關統計，並列印統計表。 2 問題分析和任務定義（1）按總分數高低次序，打印出名次表，分數相同的為同一名次；（2）按名次打印出每個學生的學號、姓名、總分以及各科成績。（3）&nbs

課設之百萬資料文件存取

其他型別轉換成string型別： string to_string (int val); string to

與左側的圓括號“(”(位於“e:\大二上課程課件、作業和答案\資料結構\chapter4\sqstack\sqstack\mysqstack.h(23)”)匹配之前遇到檔案結束

錯誤原因是“某對圓括號只打了左括號而沒有右括號”，debug方法是：直接根據報錯提示：“與左側的圓括號“(”(位於“e:\大二上課程課件、作業和答案\資料結構\chapter4\sqstack\sqstack\mysqstack.h(23)”)匹配之前遇到檔案結束”，找到對應的檔案和對應的行號，這裡是mys

資料結構實驗之二叉樹三：統計葉子數 SDUT 3342

#include <stdio.h> #include <string.h> struct node { char data; struct node *l,*r; }; struct node *root; char st[51]; int i; in

資料結構——統計二叉樹的結點個數

統計二叉樹的結點個數 #include<stdio.h> #include<stdlib.h> #include<string.h> typedef struct Node{ //二叉樹的鏈式儲存結點 char data; str

【計導非課系列】第六節演算法資料結構

【計導非課系列】第六節演算法資料結構程式=演算法+資料結構眾所周知，完美的程式是由優秀的演算法和良好的資料結構組成的。什麼是演算法？什麼是資料結構？這裡，我們將一起探索演算法和資料結構的奧祕，初步揭開它們的神祕面紗。當然，演算法和資料結構可以作為永遠發展

資料結構課設 詞頻統計

輸入格式:

輸出格式:

輸入樣例：

輸出樣例：（注意：雖然單詞the也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，the 排第3位，所以不輸出。）

相關推薦

資料結構課設詞頻統計

輸出樣例：（注意：雖然單詞`the`也出現了4次，但因為我們只要輸出前10%（即23個單詞中的前2個）單詞，而按照字母序，`the`

排第3位，所以不輸出。）