Bloom Filter：海量資料的HashSet

阿新 • • 發佈：2019-01-18

Bloom Filter一般用於資料的去重計算，近似於HashSet的功能；但是不同於Bitmap（用於精確計算），其為一種估算的資料結構，存在誤判（false positive）的情況。

1. 基本原理

Bloom Filter能高效地表徵資料集合\(S = \lbrace x_1 ,x_2 ,...,x_n \rbrace\)，判斷某個資料是否屬於這個集合。其基本思想如下：用長度為\(m\)的位陣列\(A\)來儲存集合資訊，同時是有\(k\)個獨立的hash函式\(h_i(1\le i \le k)\)將資料對映到位陣列空間。具體流程如下：

將長度為\(m\)的位陣列全置為0；
對於資料\(x \in S\)

，依次計算其\(k\)個hash函式值\(h_i(x)=w，且1\le i \le k, 1 \le w \le m\)，將位陣列中的第\(a\)位bit置為1，即A[w]=1.

當查詢資料\(y\)是否屬於集合\(S\)時，計算其\(k\)個hash函式值，如果\(h_i(y)\)對應的位陣列均為1，則資料\(y\)屬於集合\(S\)；反之，則不屬於。

2. 相關計算

在上述判斷中，可能存在誤判（false positive, FP），比如某數的\(k\)個hash函式值可能屬於集合\(S\)中某幾個數\(k\)個hash函式值組成的集合。顯然，誤判率跟集合大小\(n\)、位陣列大小\(m\)

、hash函式的個數\(k\)有關；在其他條件不變的情況下，若\(n\)越大（\(m\)越小，或\(k\)越多），則誤判率越高。誤判率估算公式如下：

\[ P_{fp} \approx (1-e^{-kn/m})^k \]

在實際的場景中，常常是已知集合大小\(n\)，預設誤判率\(P_{fp}\)，需要計算位陣列大小\(m\)、hash函式的個數\(k\)。通過一系列的數學推導，可得到如下公式：

\[ m= - \frac{n\ln P_{fp}}{(\ln 2)^2} \]

\[ k=\frac{m}{n}\ln 2 \]

詳細的數學推導可參看相關文件。

3. 實戰

Bloom Filter的Java實現有Guava、

stream-lib，Scala實現有breeze、bloom-filter-scala。採用breeze庫的Distinct Count實現如下：

import breeze.util.BloomFilter

val bf = BloomFilter.optimallySized[Int](5, 0.01)
val arr = Array(1, 3, 4, 5, 1, 2, 6, 3, 1)
var cnt = 0
arr.foreach { t =>
  bf.contains(t) match {
    case false => cnt += 1; bf.+=(t)
    case _ =>
  }
}
println(arr.distinct.length) // 6
println(cnt) // 6

從上面的Scala程式碼中，不難發現：在Distinct Count計算過程中，需要定義一個global變數，逐一用於對每個不屬於集合元素進行計算。顯然，在分散式計算中，這種方法不太適用；因為global變數沒法做到實時的傳遞更新。因此，另一種估算演算法HyperLogLog，擁有優秀的可加性、易於並行化，在大資料的場景下應用廣泛——Spark、Kylin中的近似Distinct Count便是基於此。

4. 參考資料

[1] Broder, Andrei, and Michael Mitzenmacher. "Network Applications of Bloom Filters: A Survey." Internet Mathematics 1.4 (2011): 485-509.
[2] 張俊林, 《大資料日知錄》.

Bloom Filter：海量資料的HashSet

1. 基本原理

2. 相關計算

3. 實戰

4. 參考資料

Bloom Filter：海量資料的HashSet

HyperLogLog：海量資料下的基數計算

Excel數字提取神器：海量資料一鍵提取！學會這一招，簡直完勝！

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

海量資料處理演算法—Bloom Filter

海量資料處理之Bloom Filter詳解

大量資料去重：Bitmap和布隆過濾器(Bloom Filter)

海量數據處理算法—Bloom Filter

由散列表到BitMap的概念與應用（三）：面試中的海量資料處理

十道海量資料處理面試題與十個方法大總結：

基於Bloom-Filter演算法和記憶體資料庫的大量資料輕量級100%排重方案

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

海量資料處理：十道面試題與十個海量資料處理方法總結

萬字長文揭祕：阿里如何實現海量資料實時分析？

海量資料處理：經典例項分析

個人經驗總結：處理海量資料的經驗和技巧

大資料經典演算法——bit-map與bloom filter

海量資料相似性度量與聚類： LHS-MinHash

大資料處理演算法--Bloom Filter

海量資料探勘MMDS week2: 頻繁項集挖掘 Apriori演算法的改進：基於hash的方法

Bloom Filter：海量資料的HashSet

1. 基本原理

2. 相關計算

3. 實戰

4. 參考資料

相關推薦