海量資料處理方案

阿新 • • 發佈：2019-01-15

什麼是海量資料？
正如《逍遙遊》中的一句話：北冥有魚，其名為鯤，鯤之大，一鍋燉不下，化而為鳥，其名為鵬，鵬之大，需要兩個燒烤架；簡單的可以把這裡的海量資料理解為這裡的鯤鵬，資料大到一個伺服器存不下，就需要兩個甚至多個伺服器來儲存。而接下來我們需要做的就是用一臺伺服器來處理海量資料。

以下是一些海量資料處理的例子：
1. 給定一個大小超過 100G 的檔案, 其中存在 IP 地址, 找到其中出現次數最多的 IP 地址(hash檔案切分)
思路：顯然100G大小的檔案是不可能直接載入到記憶體中去處理的。所以我們需要對這個檔案進行劃分，前提是我們需要將相同的IP地址劃分到同一空間。假設我們將檔案分成1000份，那麼一份的大小大概是100M，先將IP地址利用雜湊演算法求得一個整數key，再將index = key % 1000，得到的結果相同的放到同一檔案中，這樣就將相同的IP地址放到了同一個檔案下。再對每一個檔案分別進行處理，用count來記錄出現的次數，最後利用排序演算法對count進行排序找到最大的那個，即其對應的IP地址為出現次數最多的IP地址。
這裡寫圖片描述

利用這種方法解決這個問題的關鍵在於我們在用雜湊函式進行雜湊切分後相同的IP地址一定會被分到同一個檔案中。對於雜湊切分，相同的key，得到的雜湊值一定相同。

2.給定100億個整數, 找到其中只出現一次的整數(點陣圖變形, 用兩位來表示次數).
首先我們需要知道的是在64位作業系統下，記憶體大小為8G，那麼100億個數大概需要的空間為40G，顯然是不能直接載入到記憶體中進行處理的，而且在64位作業系統下能表示的整型的個數大概為42億，所以這100億個數有三種狀態：不存在，存在一次，存在多次。
因此，我們需要對傳統的點陣圖進行擴充套件，使用2bit即可，00表示不存在，01表示存在一次，02表示存在多次，11表示無效狀態即可。

3.有兩個檔案, 分別有100億個query(查詢詞, 字串), 只有1G記憶體, 找到兩個檔案的交集(hash檔案切分 + 布隆過濾器).
思路：可以先將檔案A進行雜湊切分，讀取每一個query,計算雜湊值，例如我們要切分成100份，就可以讓hash值%100，如果模的值為0，就把這個query放到布隆過濾器中，這樣我們就得到了0號集合；然後遍歷檔案B，對其中的query進行hash值，再模上100，如果模的值為0，就在布隆過濾器中查詢。
依次處理1號集合（hash值%100等於1），2號集合，3號集合……….
備註：布隆的不在是準確的，但在是有誤差的。

4. 給上千個檔案, 每個檔案大小為1K - 100M, 設計演算法找到某個詞存在在哪些檔案中(倒排索引).

首先，把這個詞存入一個單項鍊表中，頭結點儲存這個詞，連結串列後面儲存的都是檔名，然後依次遍歷每個
檔案，取出檔案中的每一個單詞並與這個詞對比，若找到，就將此檔案的檔名新增到後面的連結串列中，遍歷
完所有檔案，然後就得到了這個詞存在在哪些檔案中

海量資料處理方案

海量資料處理方案

由散列表到BitMap的概念與應用（三）：面試中的海量資料處理

十道海量資料處理面試題與十個方法大總結：

海量資料處理方法及應用

海量資料處理例項

海量資料處理演算法—Bit-Map

海量資料處理(一) 求top k問題

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

海量資料處理問題

海量資料處理：十道面試題與十個海量資料處理方法總結

動不動的“上千萬”——海量資料處理面試題

面試技巧——十道海量資料處理面試題與十個方法大總結

（轉）十道海量資料處理面試題與十個方法大總結

海量資料處理-Topk引發的思考

十道海量資料處理面試題與十個方法大總結

海量資料處理-重新思考排序

從Hadoop框架與MapReduce模式中談海量資料處理含淘寶技術架構

海量資料處理演算法—Bloom Filter

大資料十道經典海量資料處理面試題與十個方法大總結

Python大資料處理方案

海量資料處理方案

相關推薦