BloomFilter(布隆過濾器)原理和python支援庫

阿新 • • 發佈：2019-01-12

簡介

Bloom Filter（布隆過濾器）是一種多雜湊函式對映的快速查詢演算法。通常應用在需要快速判斷一個元素是否屬於集合，但是並不是嚴格要求100%正確的場合。
即Bloom Filter是會誤判的，但是它只會把不存在於集合中的元素誤判成存在於集合中，而不會把存在於集合中的元素誤判成不存在集合中。

場景

我最初使用Bloom Filter的場景是爬蟲的連結去重。如果我們採用最笨的方法，儲存所有抓取過的url，那麼當資料越來越大，去重判斷的速度當然會降低，記憶體消耗也會越來越大，即使加入摘要演算法、採用hash儲存，也僅僅是減緩這個趨勢而已。
我需要尋找一種，即使在url很多的時候，依然速度快，記憶體消耗小的方法。由此採用Bloom Filter，並且Bloom Filter的錯判的代價，對我這個應用場景而言，僅僅是少抓取幾個頁面而已，完全可以接受。

原理

Bloom Filter僅僅維護一個m位的BitArray（位陣列），最開始m位全部為零。不斷記錄元素（如已經抓取的url），也僅僅是m位的BitSet中有些位置由0置成1的過程。
此外，Bloom Filter需要K個不同的hash函式，並且每個hash函式的結果要是在0~m-1範圍的，因為我們要把每一個hash函式的結果i對映到位數租的第i位上去。

記錄元素

下面我們看一下向Bloom Filter插入字串的具體過，就是把這個字串str經過K個不同的hash函式計算得到的結果h1、h2、、、hK。然後在BitArrray的第h1、h2、、、hK的位置上置1。
如圖所示
這裡寫圖片描述

判斷元素

那麼如何判斷一個字串str是存在呢，這個過程你應該是可以自己想到的。
把這個字串經過K個hash函式計算得到h1、h2、、、hK，然後逐個判斷BitArray的第h1、h2、、、hK個位置是否是1：

 1. 只要有任何一位不是1，那說明這個字串一定沒被Bloom Filter記錄過。
 2. 如果全部是1，這個字串很可能被Bloom Filter記錄過，（為什麼不能100%肯定，你一定也想到了），這就是Bloom Filter錯判的由來。

Bloom Filter的原理就是這麼簡單，你可以自己完成程式設計一個BloomFilter。只是問題在於如何降低錯判率

影響誤判率因素

只要降低Bloom Filter誤判率，讓它達到你可以接受的程度。BloomFilter當然就是你的利器了。影響它的因素有哪些呢？

1.BitArray的位數M
2.hash函式的數量K
3.每一個不同的hash函式的質量

至於M、K、已經將要記錄的元素的個數N之間的關係如何才能使得誤判率最小，這裡暫時不說了。
利用上面所說的，我們已經可以實現自己的BloomFilter了。

python的BloomFilter庫

當然萬能的Python 已經有了Bloom Filter的庫，pip安裝即可。

>>> from pybloom import BloomFilter
>>> dir(BloomFilter)
['FILE_FMT', '__and__', '__class__', '__contains__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__getstate__', '__hash__', '__init__', '__len__', '__module__', '__new__', '__or__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_setup', 'add', 'copy', 'fromfile', 'intersection', 'tofile', 'union']

我們看看 __init__的用法

>>> print BloomFilter.__init__.__doc__
    Implements a space-efficient probabilistic data structure

    Implements a space-efficient probabilistic data structure
    capacity
        this BloomFilter must be able to store at least *capacity* elements
        while maintaining no more than *error_rate* chance of false
        positives
    error_rate
        the error_rate of the filter returning false positives. This
        determines the filters capacity. Inserting more than capacity
        elements greatly increases the chance of false positives.

    >>> b = BloomFilter(capacity=100000, error_rate=0.001)
    >>> b.add("test")
    False
    >>> "test" in b
    True

兩個引數：capacity、error_rate
capacity是布隆過濾器的容積，最多可以記錄多少元素
error_rate是錯判率
給定了這兩個引數可以初始化過濾器。同時，他還給了一個例項。
簡單的使用demo，為了方便觀察

>>> b = BloomFilter(capacity=10, error_rate=0.1)
>>> b.bitarray
bitarray('000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000')
>>> b.num_bits
96
>>> s = "http://blog.csdn.net/TENLIU2099/article/details/78288912"
>>> b.add(s)
False
>>> b.bitarray
bitarray('010000000000000000000000000100000000000000000000000010000000000000000000000010000000000000000000')
>>> s in b
True

先到這裡吧。

BloomFilter(布隆過濾器)原理和python支援庫

簡介

場景

原理

記錄元素

判斷元素

影響誤判率因素

python的BloomFilter庫

BloomFilter(布隆過濾器)原理和python支援庫

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

BloomFilter(布隆過濾器)

BloomFilter布隆過濾器的使用

Java基礎知識總結--BloomFilter(布隆過濾器)

BloomFilter布隆過濾器

BloomFilter布隆過濾器的java實現

BloomFilter(布隆過濾器)的C#實現

BloomFilter布隆過濾器使用

redis 5 HyperLogLog 布隆過濾器 GeoHash 和 scan

BloomFilter 布隆過濾器

演算法(3)---布隆過濾器原理

url去重 --布隆過濾器 bloom filter原理及python實現

布隆過濾器的原理、使用場景和注意事項

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

Bloom filter(布隆過濾器)概念與原理

使用MR編程hbase和hbase調優-布隆過濾器

布隆過濾器之Python+Redis

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

布隆過濾器一致雜湊雜湊函式和雜湊表

BloomFilter(布隆過濾器)原理和python支援庫

簡介

場景

原理

記錄元素

判斷元素

影響誤判率因素

python的BloomFilter庫

相關推薦