統計檔案裡出現次數前10的單詞

阿新 • • 發佈：2021-02-10

統計” The_Holy_Bible_Res.txt “ 中字元的個數，行數，單詞的個數，統計單詞的詞頻並列印輸出詞頻最高的前 10 個單詞及其詞頻

#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>	
#include <string.h>
#define MAXKEY 10000
#define SWAP(a,b) {pInfo_t t=a;a=b;b=t;}

int hash(char *key) {//雜湊函式:輸入字串的地址返回字串對應的雜湊值
	int h = 0 , g;
	while (*key) {
		h = (h << 4) + *key++;
		g = h & 0xf0000000;
		if (g)
			h ^= g >> 24;
		h &= ~g;
	}
	return h % MAXKEY;
}
typedef struct info
{
	int num;//單詞詞頻
	char *address;//單詞地址
	struct info *next;//指向雜湊衝突連結串列的下一個結點
}Info_t , *pInfo_t;

int isLetterofAlphabet(char c)//判斷小寫字母
{
	if (c <= 122 && c >= 97)
	{
		return 1;
	}
	else
	{
		return 0;
	}
}

//陣列下標從0開始
//left是堆頂的下標，編號是left+1
//左孩子編號2*left+2，下標是2*left+1
//右孩子編號2*left+3，下標是2*left+2
void adjustMinHeap(pInfo_t *p , int left , int right)//調整為小頂堆
{//自上而下調整
	int father = left;
	int son = 2 * father + 1;//son指向更小的孩子
	while (son <= right)
	{
		if (son + 1 <= right && (p[son]->num > p[son + 1]->num))//son+1<=right保證了沒有右孩子就不會比較兩個孩子
		{
			son = son + 1;//右孩子小就指向右孩子
		}
		if (p[father]->num > p[son]->num)
		{
			SWAP(p[father] , p[son]);
			father = son;
			son = 2 * father + 1;
		}
		else
		{
			break;
		}
	}
}
void buildMinHeap(pInfo_t *p , int left , int right)//建立小頂堆
{
	int lastFather = (right - 1) / 2;//最後一個分支結點
	for (int i = lastFather; i >= left; i--)//自下而上建堆
	{
		adjustMinHeap(p , i , right);
	}
}

/*
沒有用到這個函式，只是提供了一種找出檔案裡的單詞的思路
缺點：如果指標所指向的是檔案裡面第一個字元，那麼p[-1]就錯了
*/
int isWord(char *p)	
{//檔案指標此時指向的是字母，如果前面不是字母，說明這是一個單詞
	if (p[-1] < 97 || p[-1]>122)
	{
		return 1;
	}
	else
	{
		return 0;
	}
}


//2
int main(int argc , char *argv[])
{
	FILE *fp = fopen(argv[2] , "rb");
	if (fp == NULL)
	{
		perror("fp.fopen:");
		return -1;
	}
	pInfo_t hashTable[MAXKEY] = { NULL };
	char c;
	int n1=0 , n2=1 , n3=0;//字元的個數，行數，單詞的個數	
	while ((c = fgetc(fp)) != EOF)
	{
		/* 錯誤：在檔案裡單詞的結尾不是'\0'，這樣把單詞地址輸入hash函式得到的雜湊值錯
		if (c <= 122 && c >= 97)//小寫字母
		{
			if (isWord(&c))//是單詞
			{
				n3++;
				pInfo_t p = (pInfo_t) calloc(1 , sizeof(Info_t));
				p->num++;
				p->address = &c;
				//錯：每遇到一個單詞就創新結點p，用p->num==1去判斷單詞以前是否出現過是不合理的
				if (hashTable[hash(&c)] != NULL&&p->num==1)
				{//這個結點第一次出現並且發生了衝突
					pInfo_t q = hashTable[hash(&c)];
					while (q->next!=NULL)
					{
						q = q->next;
					}
					q->next = p;
				}
		*/
		if (isLetterofAlphabet(c))//小寫字母
		{
			n3++;
			n1++;
			int i = 0;
			//錯誤的寫法：char word[100] = {0}; 
			char *word = (char*) calloc(1 , 100);
			word[i++] = c;
			while ((c = fgetc(fp)) != EOF && isLetterofAlphabet(c))
			{
				word[i++] = c;
				n1++;
			}
			if (hashTable[hash(word)] != NULL)
			{//單詞發生了衝突或者是單詞之前出現過
				pInfo_t q = hashTable[hash(word)];
				//比較雜湊元素對應的單詞是否和word相同
				while (q->next != NULL && strcmp(q->address , word)!=0)
				{
					q = q->next;
				}
				if (strcmp(q->address , word) == 0)
				{
					q->num++;//衝突連結串列裡有word這個單詞，詞頻+1
				}
				else
				{
					pInfo_t p = (pInfo_t) calloc(1 , sizeof(Info_t));
					p->address = word;
					p->num = 1;
					q->next = p;
				}
			}
			else
			{//單詞沒發生衝突並且是第一次出現
				pInfo_t p = (pInfo_t) calloc(1 , sizeof(Info_t));
				p->address = word;
				p->num = 1;
				hashTable[hash(word)] = p;
			}
			if (c == EOF)//到達檔案尾
			{
				break;
			}
		}
		if(c=='\n')//遇到'\n'
		{
			n2++;
		}
	}
	fclose(fp);
	printf("字元數%d,行數%d,單詞數%d\n" , n1 , n2 , n3);

	pInfo_t A[10] = {NULL};//存放前10大詞頻的結點指標
	int flag = 0;//標識是否建立了初始的前10個結點指標的小頂堆
	//掃描雜湊連結串列
	for (int i = 0,j=0; i < MAXKEY; i++)
	{	
		if (hashTable[i]!=NULL)
		{
			pInfo_t t= hashTable[i];
			while (t!=NULL)
			{
				if (j<10)//把前10個結點指標存進A	
				{
					A[j++] = t;
				}
				else if(j==10&&flag==0)
				{
					buildMinHeap(A , 0 , 9); //建立小頂堆
					flag = 1;
				}
				else
				{
					if (A[0]->num < t->num)
					{
						//錯：SWAP(A[0],t);  影響t = t->next;
						A[0] = t;
						adjustMinHeap(A , 0 , 9);
					}	
				}
				t = t->next;
			}
		}
	}

	for (int i = 0; i < 10; i++)
	{//列印輸出詞頻最高的前 10 個單詞及其詞頻
		printf("%s:%d\n" , A[i]->address , A[i]->num);
	}
	return 0;
}

統計檔案裡出現次數前10的單詞

技術標籤：# 演算法題統計” The_Holy_Bible_Res.txt “ 中字元的個數，行數，單詞的個數，統計單詞的詞頻並列印輸出詞頻最高的前 10 個單詞及其詞頻

使用python統計《三國演義》小說里人物出現次數前十名，並實現視覺化。

一、安裝所需要的第三方庫 jieba （jieba是優秀的中文分詞第三分庫） pyecharts （一個優秀的資料視覺化庫）

Python統計文字詞彙出現次數的例項程式碼

問題描述有時在遇到一個文字需要統計文字內詞彙的次數的時候，可以用一個簡單的python程式來實現。

8. 返回數組裡出現次數最多的數字_獨一無二的出現次數

技術標籤：8. 返回數組裡出現次數最多的數字給你一個整數陣列 arr，請你幫忙統計陣列中每個數的出現次數。如果每個數的出現次數都是獨一無二的，就返回 true；否則返回 false。

8. 返回數組裡出現次數最多的數字_leetcode 80 刪除排序陣列中的重複項Ⅱ(c++)

技術標籤：8. 返回數組裡出現次數最多的數字 ###題目給定一個排序陣列，你需要在原地刪除重複出現的元素，使得每個元素最多出現兩次，返回移除後陣列的新長度，你不需要考慮陣列中超出新長度後面的元素。不

【JavaScript練習】統計字串中出現次數最多的字元

技術標籤：JavaScript練習javascript前端【JavaScript練習】統計字串中出現次數最多的字元

python統計文章中單詞出現次數例項

python統計單詞出現次數做單詞詞頻統計，用字典無疑是最合適的資料型別，單詞作為字典的key，單詞出現的次數作為字典的 value，很方便地就記錄好了每個單詞的頻率，字典很像我們的電話本，每個名字關聯一個電話號碼

如何巧用HashMap一行程式碼統計單詞出現次數詳解

前言 JDK是在一直在迭代更新的，很多我們熟悉的類也悄悄的添加了一些新的方法特性。比如我們最常用的HashMap。

微軟面試題： LeetCode 151. 翻轉字串裡的單詞出現次數：6

題目描述：給定一個字串，逐個翻轉字串中的每個單詞。說明：無空格字元構成一個單詞。輸入字串可以在前面或者後面包含多餘的空格，但是反轉後的字元不能包括。如果兩個單詞間有多餘的空格，將反轉後單詞間的空格

shell基礎---AWK+UNIQ+SORT 統計檔案中某字串出現次數並排序

在伺服器開發中，我們經常會寫入大量的日誌檔案。有時候我們需要對這些日誌檔案進行統計。Linux中我們可以利用以下命令簡單高效的實現這一功能。

彙編統計單詞出現次數

統計單詞出現次數設有一段英文，其字元變數名為 ENG，並以$字元結束（如下定義）。程式檢查單詞 SUN 在文中出現的次數，並以格式“SUN echo times:”顯示出次數。

python統計字串中字母出現次數程式碼例項

程式碼如下 dic=dict() d={} s=set() s=\'helloworld\' （1）d=dict() for x in s: 　　if x not in d.keys():

輸入n個數字串(單詞、數字字元)，找出出現次數少於 n/3 的字串

大概思路：一個map<string,int>儲存輸入的字元內容以及輸入的次數，對次數進行判斷，輸出少於指定次數的字串：

JavaScript判斷字串中出現次數最多的字元，並統計其次數

要求：輸出一個給定字串``中出現次數最多的字元，並統計其次數。實現思路：

給你一個整數陣列 arr，請你幫忙統計陣列中每個數的出現次數

題目：　 /* 給你一個整數陣列arr，請你幫忙統計陣列中每個數的出現次數。 *

讀取檔案，計算字母出現次數和頻率，按順序列印

用BufferedReader類讀取檔案，陣列記錄次數，冒泡法排序，最後列印　 package test01;

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

go統計字串及陣列中出現次數

陣列:統計出現字數 package main import \"fmt\" funcmain(){ s := [...]string{\"Mlxg\", \"123\",\"Mlxg\", \"abc\" ,\"fff\" ,\"123\", \"Mlxg\",

前端面試題8----統計字串中出現最多的字元

技術標籤：前端面試題jsjavascript 8.統計字串中出現最多的字元 function countStr(str){

統計一個字串中出現次數最多的字母和次數

技術標籤：pythonpython字串 strs = input(\'請輸入你的字串：\') dicts = {} for i in strs: dicts[i] = strs.count(i)# 構造字典，key=字母，value=字母次數，次數用count統計

統計檔案裡出現次數前10的單詞

相關推薦