海量資料處理的 Top K演算法(問題) 小頂堆實現

阿新 • • 發佈：2019-01-07

問題描述：有N(N>>10000)個整數,求出其中的前K個最大的數。（稱作Top k或者Top 10）

　　問題分析：由於(1)輸入的大量資料；(2)只要前K個，對整個輸入資料的儲存和排序是相當的不可取的。

　　　　　　　可以利用資料結構的最小堆（小頂堆）來處理該問題。

　　　　　　　最小堆如圖所示，對於每個非葉子節點的數值，一定不大於孩子節點的數值。這樣可用含有K個節點的最小堆來儲存K個目前的最大值(當然根節點是其中的最小數值)。

　　　　　　每次有資料輸入的時候可以先與根節點比較。若不大於根節點，則捨棄；否則用新數值替換根節點數值。並進行最小堆的調整。

在系統中，我們經常會遇到這樣的需求：將大量（比如幾十萬、甚至上百萬）的物件進行排序，然後只需要取出最Top的前N名作為排行榜的資料，這即是一個TopN演算法。常見的解決方案有三種：

（1）直接使用List的Sort方法進行處理。

（2）使用排序二叉樹進行排序，然後取出前N名。

（3）使用最大堆排序，然後取出前N名。

第一種方案的效能是最差的，後兩種方案效能會好一些，但是還是不能滿足我們的需求。最主要的原因在於使用二叉樹和最大堆排序時，都是對所有的物件進行排序，而不是將代價花費在我們需要的少數的TopN上。

對於堆結構來說，並不需要你獲取所有的資料，只需要對前N個數據進行處理。因此可以通過堆疊的進入排出，用小頂堆實現，調整最小堆的時間複雜度為lnN,總時間複雜度為nlnN

myheap:

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# 最小堆化heap

def siftdown(heap, start, end):

while True:

left_child = start * 2 + 1

if left_child > end:

break

if left_child + 1 <= end:

if heap[left_child] > heap[left_child+1]:

left_child += 1

if heap[left_child] < heap[start]:

heap[left_child], heap[start] = heap[start], heap[left_child]

start = left_child

else:

break

def minheapstyle(heap):

first = len(heap) // 2 - 1

for x in xrange(first, -1, -1):

siftdown(heap, x, len(heap)-1)

def push(heap, item):

heap.append(item)

minheapstyle(heap)

def pushpop(heap, item):

if heap[0] < item:

heap[0] = item

minheapstyle(heap)

if __name__ == '__main__':

heap = [10,4,5,3,5,6,2]

minheapstyle(heap)

print heap

TOPN:

import myheap

def findminn(list, n):

heap = []

for x in list:

if len(heap) < n:

myheap.push(heap, x)

else :

myheap.pushpop(heap, x)

return heap

if __name__ == '__main__':

l = [5,6,7,8,9,10,5646]

#n=5

heap = findminn(l,5)

print heap

雖然python有類似的最小堆結構，但是當我們需要處理更復雜的問題時，可能依然需要自己定製。

海量資料處理的 Top K演算法(問題) 小頂堆實現

問題描述：有N(N>>10000)個整數,求出其中的前K個最大的數。（稱作Top k或者Top 10）　　問題分析：由於(1)輸入的大量資料；(2)只要前K個，對整個輸入資料的儲存和排序是相當的不可取的。　　　　　　　可以利用資料結構的最小堆（小頂堆）來

海量資料處理(一) 求top k問題

優先順序佇列給一組海量資料，限制記憶體為2M，，找出裡面最大/小的Tokp k int main() { vector<int> vec; srand(time(NULL)); for(int i =0;i<1000000;i++) { v

堆處理海量資料----求前k個最小的數--時間複雜度（n * log k）

通過閱讀July的書籍，發現裡面求前k個最小數有很多方法。但在面對處理海量資料處理的時候，不能把全部資料都放在電腦記憶體中。這時用堆來處理，並把資料放在外存中，通過讀取檔案的方式來讀取。感覺該方法十分巧妙,時間複雜度（n*log k）。程式碼如下： #include&l

【海量資料處理】尋找最大/小的k個數

/****************************************************** 尋找k個最小的數方法：堆排序 ***************************************************/ #in

海量資料處理問題（Top k問題）的實現

在很多網際網路公司的面試題中，都可能會問到海量資料處理的題目，比如在幾千億個資料中如何獲取10000個最大的數？這其實就是一個Top k問題，如何從億萬級的資料中得到前K個最大或者最小的數字。一個複雜度比較低的演算法就是利用最小堆演算法，它的思想就是：先建立一個容量

海量資料處理演算法—Bit-Map

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

第一部分、十道海量資料處理面試題 1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大檔案中。注意到IP是32位的，最多有個2^32個IP。同樣可以採用對映的方法

海量資料處理演算法—Bloom Filter

1. Bloom-Filter演算法簡介 Bloom-Filter，即布隆過濾器，1970年由Bloom中提出。它可以用於檢索一個元素是否在一個集合中。Bloom Filter（BF）是一種空間效率很高的隨機資料結構，它利用位陣列很簡潔地表示一個集合，並能判斷一個

Top K演算法和尋找第K個最小的數

關於Top K演算法和尋找第K個最小的數這種經典問題網上已經說的很詳細了，不過畢竟不是自己的，這裡自己總結一下，而且這兩個問題又稍稍有點區別。 1.Top K演算法：即尋找一列數中K個最小值或K個最大值，這裡僅以尋找K個最小值為例（演算法類似）。（1）普通排序：最

大資料Top K演算法思路

Top K 演算法詳解應用場景：搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄（這些查詢串的重複度比較高，雖然總數是1千萬，但如果除去重複後，不超過3百萬個。一個查詢串的重複度越高，說明查

海量資料處理演算法總結【超詳解】

【Bloom Filter】Bloom Filter（BF）是一種空間效率很高的隨機資料結構，它利用位陣列很簡潔地表示一個集合，並能判斷一個元素是否屬於這個集合。它是一個判斷元素是否存在集合的快速的概率演算法。Bloom Filter有可能會出現錯誤判斷，但不會漏掉判斷。也就是Bloom Filter判斷元素

php 大資料量及海量資料處理演算法總結

下面的方法是我對海量資料的處理方法進行了一個一般性的總結，當然這些方法可能並不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數遇到的問題。下面的一些問題基本直接來源於公司的面試筆試題目，方法不一定最優，如果你有更好的處理方法，歡迎與我討論。 1.Bloom f

由散列表到BitMap的概念與應用（三）：面試中的海量資料處理

一道面試題在面試軟體開發工程師時，經常會遇到海量資料排序和去重的面試題，特別是大資料崗位。例1：給定a、b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4G，找出a、b檔案共同的url? 首先我們最常想到的方法是讀取檔案a，建立雜湊表，然後再讀取檔案b，遍歷檔

十道海量資料處理面試題與十個方法大總結：

轉載之處：http://blog.csdn.net/liuqiyao_01/article/details/26567237 筆試 = （資料結構+演算法） 50%+ （計算機網路 + 作業系統）30% +邏輯智力題10% + 資料庫5% + 歪門邪道題5%，而面

海量資料處理方法及應用

一、雜湊切割top K問題 1. 給一個超過100G大小的log file, log中存著IP地址, 設計演算法找到出現次數最多的IP地址？（1）首先使用雜湊函式HashFunc(ip)將每一個IP地址轉化為整型，再通過HashFunc(i

BZOJ 1150 - 資料備份Backup - [小頂堆][CTSC2007]

題目連結：https://www.lydsy.com/JudgeOnline/problem.php?id=1150 Time Limit: 10 Sec　　Memory Limit: 162 M Description 　　你在一家 IT 公司為大型寫字樓或辦公樓（offices）的計算機資料做備份。

海量資料處理例項

在bat等大公司，基本所有業務的資料量級都很龐大，那麼如何在保證資料完整性的情況下快速處理成了一個通用的難題，這裡列舉幾個例子，大致反應一些處理思想。 1.一個檔案中，每一行有一個整數，有上億行，目的：統計出現次數超過三次的整數寫入到另一個檔案中。分析：（1）首先資料

Top K演算法分析

TopK，是問得比較多的幾個問題之一，到底有幾種方法，這些方案裡蘊含的優化思路究竟是怎麼樣的，今天和大家聊一聊。問題描述：從arr[1, n]這n個數中，找出最大的k個數，這就是經典的TopK問題。栗子：從arr[1, 12]={5,3,7,1,8,2,9,4,7,2,6

TOP k演算法

面試題：演算法題 10萬次搜尋，兩兩比較找出top100，然後比較次數總次數不超過20萬次，不能碎片化申請空間，一次性申請一個大陣列作為儲存。下午：索貝科技有限公司 #include <iostream> using namespace s

海量資料處理問題

雜湊切割、Top K問題問題一：給一個超過100G大小的log file, log中存著IP地址, 設計演算法找到出現次數最多的IP地址？問題二：與上題目條件相同，如何找出Top K的IP？問題

海量資料處理的 Top K演算法(問題) 小頂堆實現

相關推薦