Bloom Filter 與 Cuckoo Filter概念比較及優化

阿新 • • 發佈：2019-01-12

索引的儲存分為有序和無序，前者使用關聯式容器，比如B樹，後者使用雜湊演算法。關聯式容器時間複雜度穩定為O(logN)，且支援範圍查詢。而雜湊演算法的查詢，增刪都比較快，為O(1)，但是在碰撞嚴重的情況下，雜湊演算法的時間複雜度會退化到O(n)，而Bloom Filter 和 Cuckoo Filter 都是雜湊索引結構

Bloom Filter

介紹

原理：當一個元素被加入集合時，通過K個Hash函式將這些元素對映成一個位圖陣列(點陣圖)中的K個點，把它們置為1。當檢索時，只需要看看這些點是不是都是1就大約知道集合中有沒有這個檢索的元素。如果這些點有任何一個0，那麼被檢索元素一定不在，如果都是1，可能在。

為什麼bloom filter相比普通的可以提高效率？為什麼都是1的時候只能說明可能存在?

使用多個雜湊為什麼可以避免雜湊碰撞

優點: 不需要儲存key，節省空間；布隆過濾器儲存空間和插入 / 查詢時間都是常數O(k)；
缺陷:存在誤判率。在判斷一個元素是否屬於某個集合時，有可能把不屬於這個集合的元素誤認為會屬於這個集合，因此布隆過濾器在能容忍低錯誤率的應用場合下，通過極少的錯誤來換取儲存空間的極大節省；不能刪除

為什麼會存在誤判率

構建流程

首先初始狀態下，初始一個包含m位的的位陣列，每一位都置為0
為了表達一個S={x1,x2,…,xn}這樣一個n個元素的陣列，使用k個Hash函式，將它們分別對映到[1,m]的範圍中，對於任意一個元素x，第i個雜湊函式對映的位置hi(x)會被置為1.如果一個位置多次被置為1，那麼只有第一次會起作用

在判斷y是否屬於集合S時，對y使用k次雜湊函式，如果所有的hi(y)的位置都是1，那麼就認為y是集合中的元素，否則就認為y不是集合中的元素

錯誤率

當集合S={x1,x2,…,xn}的所有元素都被k個雜湊函式對映到m位的位陣列中時，這個位陣列中某一位還是0的概率是：

p^{'} = (1 - 1 / m)^{k n} \approx e^{- k n / m}

其中1/m表示任意一個雜湊函式選中這一位標1的概率，用1減去1/m即是雜湊一次都沒有被選中這一位的概率，然後把S對映到位陣列中，需要做kn次雜湊，即可寫出上面的公式，這裡使用到近似公式

$> lim_{x - > \infty} (1 - 1 / x)^{- x} = e >$

同理，位陣列任意一位為1的概率約為1-e^(-kn/m)，而(1-e^(-kn/m))^k其實就是所謂的false positive rate，即k次雜湊都剛好選中1的區域。

最優雜湊函式個數

怎麼確定幾個雜湊函式能讓元素查詢時的錯誤率降到最低？有兩個方面來思考

如果雜湊函式個數多，那麼對於一個不屬於集合的元素進行查詢時得到0的概率就小
如果雜湊函式個數少，那麼位陣列中的0就多

這裡位陣列0多有什麼影響？

設錯誤率為f，由前面已知錯誤率f = (1-e^(-kn/m))=e^(kln(1-e^(-kn/m))，令g = kln(1-e^(-kn/m)，則g為最小，錯誤率也取到最小。由於p = e^(-kn/m)，則

g = (- m / n) l n (p) l n (1 - p)

通過對稱性法則，可知當p = 1/2時即是k = ln2*(m/n)時，取得最小值。也就是說，要想保持錯誤率低，最好讓位陣列有一半還空著。最小的錯誤率為lnf = (-m/n)*(ln2)^2

而對於位陣列的大小，經過推導，在錯誤率不大於x的情況下，m至少要等於nlog2(1/x)才能表示任意n個元素的集合。並且在雜湊函式的個數取到最優時，要讓錯誤率不超過x，m至少需要取到最小值的1.44倍。

拓展

因為前面提到過如果一個位置多次被置為1，那麼只有第一次會起作用，所以不支援刪除一個已經插入的關鍵字，會牽動到其他的關鍵字。可以通過counting bloom filter，用一個counter陣列代替位陣列就可以支援刪除了，但是這樣又會使每個bit空間擴張成一個計數值，空間效率又降低了。

counting bloom filter 的實現方式

應用場景

（1）拼寫檢查，即判斷一個單詞是否存在字典。

（2）垃圾郵件過濾

假設郵件伺服器通過傳送方的郵件域或者IP地址對垃圾郵件進行過濾，那麼就需要判斷當前的郵件域或者IP地址是否處於黑名單之中。如果郵件伺服器的通訊郵件數量非常大（也可以認為資料量級上億），那麼也可以使用Bloom Filter演算法。

（3）加快資料庫查詢過程

Google 著名的分散式資料庫 Bigtable 使用了布隆過濾器來查詢不存在的行或列，以減少磁碟查詢的IO次數。

在很多Key-Value系統中也使用了布隆過濾器來加快查詢過程，如 Hbase，Accumulo，Leveldb，一般而言，Value 儲存在磁碟中，訪問磁碟需要花費大量時間，然而使用布隆過濾器可以快速判斷某個Key對應的Value是否存在，因此可以避免很多不必要的磁碟IO操作，只是引入布隆過濾器會帶來一定的記憶體消耗。

Cuckoo Filter

介紹

基本原理：每個元素都是兩個，分別對映到兩個位置，一個是記錄的位置，一個是備用位置，備用位置是處理碰撞使用的，其處理碰撞的方法就是把原來佔用位置的這個元素體走，安置到備用位置上，如果備用位置上還有人，再把它踢走，如此反覆，直到被踢的次數達到一個上限，才確認雜湊表已滿，並執行rehash。
結構特點：從結構上時一個bucket陣列，這裡的bucket可以簡單理解為一個儲存item的key的槽，而對於每個key來說，可以通過兩種hash函式得到兩個待選的bucket。判斷一個key是否存在，只需要判斷這兩個bucket是否存在這個key即可。
演算法特點：因為在插入過程中可能因為反覆踢出無限迴圈下去，這時就需要進行一次迴圈踢出的限制，超出限制則認為過濾器容量不足，需要進行擴容。另外布穀鳥過濾器在bucket上儲存的是key的指紋，主要是考慮到不同的key長度不定，節約空間。fingerprint 一般由key做hash得來，長度較短，一般為8-12bit，也可根據實際資料量調整。

這裡的實際資料量怎麼判斷確定
尋找第二個bucket的方法：由於計算key的儲存位置使用的時key本身的值，而儲存時僅儲存了fingerprint，因此當key被擠出，需要重新找位置時，通過指紋資訊來找到第二個bucket

$h 1 (x) = h a s h (x), h 2 (x) = h 1 (x) ⨁ h a s h (x^{'} s f i n g e r p r i n t)$
通過異或來實現，所以
$h (1) = h (2) ⨁ H a s h (x^{'} s f i n g e r p r i n t)$
已知當前bucket位置，知道指紋資訊，就可以計算除另一個bucket

Bloom Filter 與 Cuckoo Filter概念比較及優化

Bloom Filter

介紹

構建流程

錯誤率

最優雜湊函式個數

拓展

應用場景

Cuckoo Filter

介紹

Bloom Filter 與 Cuckoo Filter概念比較及優化

arp ignore背後的rp filter與arp filter

C#與C++資料型別比較及結構體轉換

主成分分析與因子分析之比較及實證分析

Bloom filter(布隆過濾器)概念與原理

PowerDesigner概念模型與物理模型相互轉換及導出數據字典

Web開發中Listener、Filter、Servlet的初始化及調用

Django中利用filter與simple_tag為前端自定義函數的實現方法

spring component-scan掃描 context:exclude-filter 與 context:include-filter

CNN中feature map、卷積核、卷積核個數、filter、channel的概念解釋，以及CNN 學習過程中卷積核更新的理解

maven resources filter 與springboot衝突

多執行緒之Lock與synchronized比較及使用

前端獨立實現模糊查詢--filter()與match()

利用Filter與Session實現登入使用者可以訪問資源，未登入使用者禁止訪問

models.TABLE.objects.filter()與models.TABLE.objects.get()的區別

Filter與Session配合的簡單過渡例子

ElasticSearch教程——filter與query對比

BOOL型別、int型、float型及指標變數如何與“零值”如何比較

java.lang.Void 與 void的比較及使用

Intent與Intent Filter的使用

Bloom Filter 與 Cuckoo Filter概念比較及優化

Bloom Filter

介紹

構建流程

錯誤率

最優雜湊函式個數

拓展

應用場景

Cuckoo Filter

介紹

相關推薦