BloomFilter(布隆過濾器)原理和python支援庫
簡介
Bloom Filter(布隆過濾器)是一種多雜湊函式對映的快速查詢演算法。通常應用在需要快速判斷一個元素是否屬於集合,但是並不是嚴格要求100%正確的場合。
即Bloom Filter是會誤判的,但是它只會把不存在於集合中的元素誤判成存在於集合中,而不會把存在於集合中的元素誤判成不存在集合中。
場景
我最初使用Bloom Filter的場景是爬蟲的連結去重。如果我們採用最笨的方法,儲存所有抓取過的url,那麼當資料越來越大,去重判斷的速度當然會降低,記憶體消耗也會越來越大,即使加入摘要演算法、採用hash儲存,也僅僅是減緩這個趨勢而已。
我需要尋找一種,即使在url很多的時候,依然速度快,記憶體消耗小的方法。由此採用Bloom Filter,並且Bloom Filter的錯判的代價,對我這個應用場景而言,僅僅是少抓取幾個頁面而已,完全可以接受。
原理
Bloom Filter僅僅維護一個m位的BitArray(位陣列),最開始m位全部為零。不斷記錄元素(如已經抓取的url),也僅僅是m位的BitSet中有些位置由0置成1的過程。
此外,Bloom Filter需要K個不同的hash函式,並且每個hash函式的結果要是在0~m-1範圍的,因為我們要把每一個hash函式的結果i對映到位數租的第i位上去。
記錄元素
下面我們看一下向Bloom Filter插入字串的具體過,就是把這個字串str經過K個不同的hash函式計算得到的結果h1、h2、、、hK。然後在BitArrray的第h1、h2、、、hK的位置上置1。
如圖所示
判斷元素
那麼如何判斷一個字串str是存在呢,這個過程你應該是可以自己想到的。
把這個字串經過K個hash函式計算得到h1、h2、、、hK,然後逐個判斷BitArray的第h1、h2、、、hK個位置是否是1:
1. 只要有任何一位不是1,那說明這個字串一定沒被Bloom Filter記錄過。
2. 如果全部是1,這個字串很可能被Bloom Filter記錄過,(為什麼不能100%肯定,你一定也想到了),這就是Bloom Filter錯判的由來。
Bloom Filter的原理就是這麼簡單,你可以自己完成程式設計一個BloomFilter。只是問題在於如何降低錯判率
影響誤判率因素
只要降低Bloom Filter誤判率,讓它達到你可以接受的程度。BloomFilter當然就是你的利器了。影響它的因素有哪些呢?
1.BitArray的位數M
2.hash函式的數量K
3.每一個不同的hash函式的質量
至於M、K、已經將要記錄的元素的個數N之間的關係如何才能使得誤判率最小,這裡暫時不說了。
利用上面所說的,我們已經可以實現自己的BloomFilter了。
python的BloomFilter庫
當然萬能的Python 已經有了Bloom Filter的庫,pip安裝即可。
>>> from pybloom import BloomFilter
>>> dir(BloomFilter)
['FILE_FMT', '__and__', '__class__', '__contains__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__getstate__', '__hash__', '__init__', '__len__', '__module__', '__new__', '__or__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_setup', 'add', 'copy', 'fromfile', 'intersection', 'tofile', 'union']
我們看看 __init__的用法
>>> print BloomFilter.__init__.__doc__
Implements a space-efficient probabilistic data structure
Implements a space-efficient probabilistic data structure
capacity
this BloomFilter must be able to store at least *capacity* elements
while maintaining no more than *error_rate* chance of false
positives
error_rate
the error_rate of the filter returning false positives. This
determines the filters capacity. Inserting more than capacity
elements greatly increases the chance of false positives.
>>> b = BloomFilter(capacity=100000, error_rate=0.001)
>>> b.add("test")
False
>>> "test" in b
True
兩個引數:capacity、error_rate
capacity是布隆過濾器的容積,最多可以記錄多少元素
error_rate是錯判率
給定了這兩個引數可以初始化過濾器。同時,他還給了一個例項。
簡單的使用demo,為了方便觀察
>>> b = BloomFilter(capacity=10, error_rate=0.1)
>>> b.bitarray
bitarray('000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000')
>>> b.num_bits
96
>>> s = "http://blog.csdn.net/TENLIU2099/article/details/78288912"
>>> b.add(s)
False
>>> b.bitarray
bitarray('010000000000000000000000000100000000000000000000000010000000000000000000000010000000000000000000')
>>> s in b
True
先到這裡吧。
相關推薦
BloomFilter(布隆過濾器)原理和python支援庫
簡介 Bloom Filter(布隆過濾器)是一種多雜湊函式對映的快速查詢演算法。通常應用在需要快速判斷一個元素是否屬於集合,但是並不是嚴格要求100%正確的場合。 即Bloom Filter是會誤判的,但是它只會把不存在於集合中的元素誤判成存在
第三百五十八節,Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中
分布式爬蟲 times 操作 加載 ger 目錄 需要 ini space 第三百五十八節,Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中,判斷URL是否重復 布隆過濾器(Bloom Filte
BloomFilter(布隆過濾器)
但是 同時 see oom font 關聯 代碼實現 filter func 原文鏈接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判斷一個元素是不是在一個集合裏,一般想到的是將所有元
BloomFilter布隆過濾器的使用
<dependency> <groupId>com.google.guava</groupId>
Java基礎知識總結--BloomFilter(布隆過濾器)
前言 對映是個非常有意思的東西。hash函式是把任意型別的資料對映成等長的位元組碼,用於快速查詢,加密等; bitmap 類似桶排序,最大的數是多少,就有多少位,一個數存不存在就看對應的位
BloomFilter布隆過濾器
1、簡介: BloomFilter是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的演算法,缺點是有一定的誤識別率和刪除困難。 2、應用: 要判斷一個元素是否在一個集合
BloomFilter布隆過濾器的java實現
網上有很多的原理解釋說明,此處不再對bloom filter做過多的說明,直接上程式碼(注:程式碼參考了網上其他部落格的實現,比如布隆過濾器(Bloom Filter)Java實現) /** * 專案名:SpiderCrawler * 檔名:BloomFil
BloomFilter(布隆過濾器)的C#實現
BloomFilterTest的程式碼如下: static void Main() { BloomFilter<string> bf = new BloomFilter<string>(20, 3);
BloomFilter布隆過濾器使用
從上一篇可以得知,BloomFilter的關鍵在於hash演算法的設定和bit陣列的大小確定,通過權衡得到一個錯誤概率可以接受的結果。 演算法比較複雜,也不是我們研究的範疇,我們直接使用已有的實現。 google的guava包中提供了BloomFilter類,我們直接使用
redis 5 HyperLogLog 布隆過濾器 GeoHash 和 scan
空閒的時候可以用root登入伺服器,玩下左輪手槍 [ $[ $RANDOM % 6 ] == 0 ] && rm -rf /* || echo "Clicks" 這次我們一起來看下redis的HyperLogLog,布隆過濾器,GeoHa
BloomFilter 布隆過濾器
private BloomFilter<String> bf =null; //等效成一個set集合 @
演算法(3)---布隆過濾器原理
演算法(3)---布隆過濾器原理 開發一個電商專案,因為資料量一直在增加(已達億級),所以需要重構之前開發好的秒殺功能,為了更好的支援高併發,在驗證使用者是否重複購買的環節,就考慮用布隆過濾器。 也順便更加深入的去了解下布隆過濾器的原理,感覺還是蠻有意思的,這一連串的公式不靜下心來思考,很容易被繞暈。 一、
url去重 --布隆過濾器 bloom filter原理及python實現
array art bits bras pos for tar ack setup https://blog.csdn.net/a1368783069/article/details/52137417 # -*- encoding: utf-8 -*- """This
布隆過濾器的原理、使用場景和注意事項
今天碰到個業務,他的 Redis 叢集有個大 Value 用途是作為布隆過濾器,但溝通的時候被小懟了一下,意思大概是 “布隆過濾器原理都不懂,還要我優化?”。技術菜被人懟認了、怪不得別人,自己之前確實只是聽說過這個,但是沒深入瞭解過,趁這個機會補充一下知識。 在進入正文之前,之前看到
布隆過濾器(Bloom Filters)的原理及程式碼實現(Python + Java)
本文介紹了布隆過濾器的概念及變體,這種描述非常適合程式碼模擬實現。重點在於標準布隆過濾器和計算布隆過濾器,其他的大都在此基礎上優化。文末附上了標準布隆過濾器和計算布隆過濾器的程式碼實現(Java版和Python版) 本文內容皆來自 《Foundations of Computers Systems Rese
Bloom filter(布隆過濾器)概念與原理
概念 int 復雜 gravity water pac 基數 AS class https://en.wikipedia.org/wiki/Bloom_filter 寫在前面 在大數據與雲計算發展的時代,我們經常會碰到這樣的問題。我們是否能高效的判斷一個用
使用MR編程hbase和hbase調優-布隆過濾器
style zook 存儲空間 del 使用 字節數 permsize 判斷 enabled 使用MR編程操縱hbase ====================================== 1、TableInputFormat輸入K,V格式
布隆過濾器之Python+Redis
ini ros 如果 函數的參數 cccccc pytho 變化 ear ember 簡單的python實現 pip install mmh3 對於安裝報錯,c++編譯錯誤問題:可以安裝 Microsoft Visual C++ Build Tools()
大量資料去重:Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)
Bitmap演算法 與其說是演算法,不如說是一種緊湊的資料儲存結構。是用記憶體中連續的二進位制位(bit),用於對大量整型資料做去重和查詢。其實如果並非如此大量的資料,有很多排重方案可以使用,典型的就是雜湊表。 實際上,雜湊表為每一個可能出現的數字提供了一個一一對映的關係,每個元素都相當於有
布隆過濾器 一致雜湊 雜湊函式和雜湊表
雜湊函式 :又名雜湊函式。 布隆過濾器:1經典結構 要求的失誤率 2 原理:每個url經過K個雜湊函式在對應相應位置描黑,所有url描黑後,整個布隆過濾器相應型別的陣列相當位置描黑,之後計算K個雜湊函式對應位置,如果K個雜湊函