用hash_map統計出現次數最多的前N個URL

阿新 • • 發佈：2019-01-24

海量資料統計頻率最高詞彙的常規辦法之一是先通過一個hash函式處理資料然後取模N，拆分為N個小檔案，對每一個小檔案進行詞頻統計和排序處理，然後歸併N個小檔案取頻率最大的M個數。

關於hash_map和map的選擇使用有幾點注意的，hash_map是hash表的形式實現的，map是紅黑樹的結構，時間複雜度前者為N*(logN)，後者為O(log2N)以內.從穩定性來說map佔優,從平均效能來看hash_map佔優，還有hash_map目前沒有納入C++標準庫，但是各個版本的STL都提供了實現。具體情況具體選擇咯。。

#include <iostream>
#include <string.h>
#include <stdio.h>
#include <stdlib.h>
#include <hash_map.h>
#include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>

using namespace std;

class HashFunction {
public:
	size_t operator()(const string& s) const {
	unsigned long __h=0;
	for(size_t i=0;i<s.size();i++) 
	__h=5*__h+s[i];
	return size_t(__h);
	}
};

class Compare {
	public:
	bool operator()(const string& str1,const string& str2)const {
	return str1==str2;
	}
};



typedef hash_map<string,int,HashFunction,Compare> HashMap;



int main(int argc, char* argv[]) {
	printf("%s","-=-=-=-=-=-=-=-=-=-=hash_map測試-=-=-=-=-=-=-=-=-=-=-=-=\n");
	HashMap obj;
	/*
	obj["10010"]="聯通客服";
	obj["10086"]="移動客服";
	obj["1368351111"]="電話號碼";
	obj["123456"]="你的密碼";
	*/
	//構造關鍵字與次數的hash_map，即統計詞頻
	int ai[]={22,41,22,46,13,13,22,44,44};
	for(int i=0;i<9;i++) {
		char aa[12]={0};
		sprintf(aa,"%d",ai[i]);
		obj[aa]++;
		cout<<aa<<" ,count="<<obj[aa]<<endl;
	}
	//將hash_map資料放入結構數組裡
	struct tmp {
	int count;
	char str[12];
	};
	struct tmp stmp[9];
	memset(stmp,0x0,sizeof(tmp)*9);
	hash_map<string,int,HashFunction,Compare>::iterator itor=obj.begin();
	int j=0;
	for(;itor!=obj.end();itor++,j++) {
	sprintf(stmp[j].str,"%s",itor->first.c_str());
	stmp[j].count=itor->second;
	cout<<stmp[j].str<<"	"<<stmp[j].count<<endl;
	}
	//可以根據堆排序stmp[]陣列,取前N個最多出現的欄位
	//省略
	return 0;
}

用hash_map統計出現次數最多的前N個URL

海量資料統計頻率最高詞彙的常規辦法之一是先通過一個hash函式處理資料然後取模N，拆分為N個小檔案，對每一個小檔案進行詞頻統計和排序處理，然後歸併N個小檔案取頻率最大的M個數。關於hash_map和map的選擇使用有幾點注意的，hash_map是hash表的形式實

Linux awk統計日誌中出現過的IP(或出現次數最多的N個IP)

awk是一個強大的文字分析工具，相對於grep的查詢，sed的編輯，awk在其對資料分析並生成報告時，顯得尤為強大。簡單來說awk就是把檔案逐行的讀入，以空格為預設分隔符將每行切片，切開的部分再進行各種分析處理。 awk的用法 awk 'BEGIN{ commands }

Linux下統計出現次數最多的指定欄位值

假設桌面上有一個data.txt文字，內容如下： {id='xxx' info='xxx' kk='xxx' target='111111' dd='xxx'} {id='xxx' info='xxx' kk='xxx' target='777' dd='xxx'} {i

上千萬或上億資料（有重複），統計其中出現次數最多的N個數據. C++實現

上千萬或上億的資料，現在的機器的記憶體應該能存下。所以考慮採用hash_map/搜尋二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的資料了，可以用第2題提到的堆機制完成。 #in

TOP K演算法（微軟筆試題統計英文電子書中出現次數最多的k個單詞）

在v_JULY_v的文章中找到了這個問題的解法後用C++實現了一下，發現C++的程式碼非常的簡潔。主要用到了標準庫中的hash_map，優先順序佇列priority_queue。

統計一篇英文文章中出現次數最多的10個單詞

package se; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.

統計出現次數最多的資料

題目描述：給你上千萬或上億資料（有重複），統計其中出現次數最多的前N個數據。分析：上千萬或上億的資料，現在的機器的記憶體應該能存下（也許可以，也許不可以）。所以考慮採用hash_map/搜尋二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現

Js面試題（二）--js實現統計出現次數最多字符個數

round rip ont js面試 () jos 圖片第一個字符 clas 話不多話，直接上圖統計出現次數最多的字符是哪個？ 1、當然首先想到的是循環這個字符···· 2、用for循環--第一次檢索到

Top K Frequent Elements 選出陣列中出現次數最多的k個元素

原題地址：https://leetcode.com/problems/top-k-frequent-elements/，這個題目要求時間複雜度不能超過O(nlgn)，也就是說常規的排序演算法不可行（排

sort +awk+uniq 統計檔案中出現次數最多的前10個單詞

原文地址：http://blog.sina.com.cn/s/blog_5dce657a01012ddi.html 作者：小新例項cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head

如何統計一本英文書(比如簡愛)中出現次數最多的前1000個單詞

如何統計一本書中出現最多的前1000個單詞，其實只要處理好新單詞的儲存，已經出現單詞個數的統計，和根據出現次數的排序，就基本完成了這個專案。思路：1、從檔案中依次讀取一個個字元，如果是字母字元就放到一個字元陣列中，當讀取的字元是空格或者標點符號時，則已經讀取的字串視為一個單詞，將其儲存起來。&

linux中sort（統計檔案中出現次數最多的前10個單詞）

例項 cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100 使用linux命令或者shell實現：檔案words存放英文單詞，格式為每行一個英文單詞

統計一篇文章中出現次數最多的前k個詞，文章中一行一詞

應該考慮檔案大小和詞的多少，有一個1G大小的一個檔案，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100

判斷一個字符串中出現次數最多的字符，統計這個次數

sdff BE 出現次數 div asd 遍歷轉換成 arr str var str = ‘abaasdffggghhjjkkgfddsssss3444343‘; // 1.將字符串轉換成數組 var newArr = str.spl

返回（統計）一個列表中出現次數最多的元素

clas 列表元素 center enter ax1 叠代器 orm {} 首先定義一個函數函數內逐行依次解釋為： #定義一個函數def max1(lt):　　 dict1 = {} #建立一個空字典 s = set(lt)

判斷一個字符串中出現次數最多的字符，並統計字數

spa bbbb aci light turn border java UNC ber \1 等於 (\w) var s = ‘aaabbbcccaaabbbaaabbbbbbbbbb‘; var a = s.split(‘‘); a.sort();

(ES6的“...“配合ES5‘’forEach‘’)前端面試之判斷一個字串中出現次數最多的字元，統計這個次數

// 判斷一個字串中出現次數最多的字元，統計這個次數 let str = 'aasdadddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddsdasjjhsghkafsagjkg

演算法--統計文字中出現次數最多的單詞（字典樹）

統計一個文字中，出現次數最多的單詞：單詞全部小寫，單詞與單詞之間以空格間隔 1.利用字典 key為單詞 value為單詞出現的次數 def mostString(): dict = {} fr = open('preprocessing.txt')

js 判斷一個字串中出現次數最多的字元，統計其出現次數

js 判斷一個字串中出現次數最多的字元，統計其出現次數 var str = 'asdfssaaasasasasaa'; var json = {}; for (var i = 0; i < str.length; i++) { if(!json[str.charAt(i

js統計陣列中出現次數最多的元素

想來想去沒想出更好的解決方法。思路就是在ana函式裡先遍歷一遍arr，維護一個數組newArr 用於將所有數值相同的放在陣列中的同一個塊內。另外一個數組unique 用於維護數值唯一，判斷當前的item是否已存在於newArr中。為了方便比較物件的數值相同，

用hash_map統計出現次數最多的前N個URL

相關推薦