1. 程式人生 > >海量數據處理常用思想及重要數據結構

海量數據處理常用思想及重要數據結構

適合 ash 中一 海量 外排序 alt 內存 加載 結構

1、大頂堆、小頂堆技術分享圖片

特別適合topN問題,如求海量日誌中最大的100個數。既然是海量數據,那麽內存中一下子無法加載所有的數據集,此時可以先讀取海量數據中的100個數,建立數據集為100的小頂堆(小頂堆的對頂比所有元素都小),然後依次往堆結構中讀取數字,調整堆,使其保持小頂堆,最後得到top100的最大數。

2、hash映射進行分治,然後歸並

3、hash統計

4、bloom filter

5、外排序

6、bitmap

7、多層劃分

8、tire樹

9、mapreduce

海量數據處理常用思想及重要數據結構