布隆過濾器及其數學推導

布隆過濾器
- 什麼是布隆過濾器
- 原理簡介
- 數學推導

布隆過濾器

昨天突然看到了一個布隆過濾器的介紹和一些用法，感覺很新奇，也很有意思，剛好趁著週末來寫一篇部落格。

什麼是布隆過濾器

布隆過濾器？難道是這個？E起來，然後阻擋地方的飛行道具並減少傷害？

NO！NO！NO！當然不是這個，一篇技術部落格怎麼會扯到遊戲呢？來來來，讓我們先看一下布隆的E技能。

堅不可摧	E	消耗法力：30/35/40/45/50冷卻時間：18/16/14/12/10	布隆朝一個方向舉起盾牌，持續3/3.25/3.5/3.75/4秒，並使來自目標方向的第一次攻擊變得無效。布隆還將攔截敵方的飛行道具，並將它們摧毀，減少30/32.5/35/37.5/40%的後續傷害。在舉盾期間，布隆獲得10%移動速度加成。

       |      |

首先，我們設想一個場景，在某次開發中，你被要求你的網站的使用者名稱不能重複，你應該怎麼做？第一感覺當然就是將使用者名稱存到資料庫中間，然後當用戶註冊的時候，檢視資料庫是否存在這個使用者名稱即可。可是，當你的網站使用者量很大的時候比如說一億，查詢資料庫毋庸置疑是一個耗時的操作，這個時候，你突然想到了雜湊表，因為你知道雜湊表的查詢時間複雜度是O(1)，可是我們可以算一，一個使用者名稱為四個漢字，一個漢字佔用兩個位元組（Unicode情況下），那麼一共有八億個位元組。一共佔用763M的記憶體（這個裡面不包括物件佔用的空間，也不包括雜湊表中浪費的空間），而實際情況佔用的空間會比這個多得多。

那麼有什麼好方法解決這個問題呢？這個就是我們要講的布隆過濾器。首先我們以布隆的技能來形象的解釋下布隆過濾器的優缺點：

並使來自目標方向的第一次攻擊變得無效：如果布隆過濾器判斷資料不存在則資料絕對不存在。
布隆還將攔截敵方的飛行道具：這個就是布隆過濾器的特點，資料先經過布隆過濾器，查詢資料是否已經存在。如果布隆過濾器判斷使用者名稱不存在/或者存在，資料才能夠繼續向下走。
減少30/32.5/35/37.5/40%的後續傷害：在前面的判斷中，可以判斷資料絕對不存在，但是如果判斷資料存在，則資料也可能不存在。
技能加點是不能取消的：布隆過濾器只能插入資料，而不能刪除資料。

原理簡介

布隆過濾器的原理和雜湊表的原理有點類似，同樣需要使用hash函式，但是在布隆過濾器中，需要使用多個hash函式。布隆過濾器的原理還是比較簡單的。

我們有一個位數組bitArray，對，就是一個位數組，長度位m。只存0和1那種。此時我們有一個key，和k個hash函式，因此我們可以得到k個key被hash過後的數。然後我們分別對hash過後的值取餘（對m取餘）得到x，然後將bitArray中x位置置為1。

原理圖片如下所示（圖片來源）

在前面我們介紹過布隆過濾器如果判斷資料存在，實際上資料也可能不存在。如果將布隆過濾器應用於垃圾郵件過濾系統，則就會出現“寧可錯殺一千，也決不放過一個”的這種情況。那麼為什麼會造成這種情況呢？實際上，這就和雜湊表中雜湊衝突的情況一樣，因為可能會出現兩個key值經過k個hash函式之後，取餘之後的結果是一樣的。所以，在布隆過濾器中可能會出現誤判，所以有一個概念叫做誤算率。

數學推導

上面我們知道布隆過濾器中，有一個誤算率，當然我們是想將誤判降低到最小（key的數量和陣列bitArray的長度都是確定的）。so，讓我們用數學公式來推導一下。

首先我們有n個key，bitArray的長度位m，hash函式的個數是k，失誤率是p（一般很小），推導如下：

誤判的概率：

如果hash函式足夠優秀（每一個key都等概率的分配到陣列中的某一個位置）。對於一個hash函式來說，bitArray中某個位置被置1的概率是\(\frac{1}{m}\)，則不被置1的概率是\(1-\frac{1}{m}\)，因為我們有k個hash函式，所以在k個hash函式中，某個位置不被置1的概率是：
\[ (1-\frac{1}{m})^k \]

因為插入了n個key，某個位置置1的概率是：（不被置1的概率是\((1-\frac{1}{m})^{kn}\)）
\[ 1-(1-\frac{1}{m})^{kn} \]

如果我們此時去查詢某個key是否存在，出現誤判（也就是說在bitArray中k個位置都出現了1）的概率是：

\[ [1-(1-\frac{1}{m})^{kn}]^{k} \]
選擇最小的誤判概率：

根據數學知識我們知道：

\[ lim_{n\rightarrow+\infty}(1+x)^{\frac{1}{x}} = e \]

所以：
\[ [1-(1-\frac{1}{m})^{kn}]^{k} = [1-(1-\frac{1}{m})^{-m\frac{-kn}{m}}]^{k} = [1-e^{\frac{-kn}{m}}]^k \]
然後令\(a=e^{\frac{-n}{m}}\) ,因此概率是：
\[ f(k)=(1-a^{k})^k \]
我們需要求得便是\(f(k)\)的最小值。對\(f(k)\)進行變換求導：
\[ \begin{align} &f(k) = (1-a^k)^k \\ &lnf(k) = kln(1-a^k) \\ &然後進行求導\\ &\frac{1}{f(k)}f'(k) = ln(1-a^k) - \frac{ka^klna}{1-a^k}\\ &\because a=e^{\frac{-n}{m}} \\ &\therefore a < 1\\ &\therefore 0< f(k)=(1-a^{k})^k <1\\ &令f'(k) = 0,則 ln(1-a^k) - \frac{ka^klna}{1-a^k} =0\\ &\therefore (1-a^k)ln(1-a^k) = ka^klna = a^kln{a^k}\\ &\therefore (1-a^k) = a^k \\ &\therefore a^k = \frac{1}{2}\\ &\therefore e^{\frac{-nk}{m}} = \frac{1}{2} \\ &\therefore \frac{nk}{m} = ln2 \\ &\therefore k = \frac{mln2}{n} = 0.7\frac{m}{n}\\ &\end{align} \]
從上面我們可以知道，如果想讓誤判率一直維持穩定，那麼則m和n要維持線性增加。當然，如果是其他變數保持不變，也可以用上面的方法進行求出。

markdown 寫數學公式還是蠻爽的(●'◡'●)

相關推薦

布隆過濾器及其數學推導

目錄布隆過濾器什麼是布隆過濾器原理簡介數學推導布隆過濾器昨天突然看到了一個布隆過濾器的介紹和一些用法，感覺很新奇，也很有意思，剛好趁著週末來寫一篇部

詳細解析Redis中的布隆過濾器及其應用

歡迎關注微信公眾號：萬貓學社，每週一分享Java技術乾貨。什麼是布隆過濾器布隆過濾器（Bloom Filter）是由Howard Bloom在1970年提出的一種比較巧妙的概率型資料結構，它可以告訴你某種東西一定不存在或者可能存在。當布隆過濾器說，某種東西存在時，這種東西可能不存在；當布隆過濾器說，某種東

數學之美系列二十一－布隆過濾器（Bloom Filter）

2007年7月3日上午 09:35:00 在日常生活中，包括在設計計算機軟體時，我們經常要判斷一個元素是否在一個集合中。比如在字處理軟體中，需要檢查一個英語單詞是否拼寫正確（也就是要判斷它是否在已知的字典中）；在 FBI，一個嫌疑人的名字是否已經在嫌疑名單上；在網

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

BloomFilter(布隆過濾器)

但是同時 see oom font 關聯代碼實現 filter func 原文鏈接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念：如果想判斷一個元素是不是在一個集合裏，一般想到的是將所有元

Bloom Filter布隆過濾器

布隆過濾器數據及結構原文鏈接：http://blog.csdn.net/qq_38646470/article/details/794316591.概念：如果想判斷一個元素是不是在一個集合裏，一般想到的是將所有元素保存起來，然後通過比較確定。鏈表，樹等等數據結構都是這種思路. 但是隨著集合中元素的

Bloom filter(布隆過濾器)概念與原理

概念 int 復雜 gravity water pac 基數 AS class https://en.wikipedia.org/wiki/Bloom_filter 寫在前面在大數據與雲計算發展的時代，我們經常會碰到這樣的問題。我們是否能高效的判斷一個用

使用MR編程hbase和hbase調優-布隆過濾器

style zook 存儲空間 del 使用字節數 permsize 判斷 enabled 使用MR編程操縱hbase ====================================== 1、TableInputFormat輸入K,V格式

布隆過濾器的方式解決緩存穿透問題

元素分享 http enc 輸出結果思路支持負載根據 1、原理布隆過濾器的巨大用處就是，能夠迅速判斷一個元素是否在一個集合中。因此他有如下三個使用場景: 網頁爬蟲對URL的去重，避免爬取相同的URL地址反垃圾郵件，從數十億個垃圾郵件列表中

布隆過濾器之Python+Redis

ini ros 如果函數的參數 cccccc pytho 變化 ear ember 簡單的python實現 pip install mmh3 對於安裝報錯，c++編譯錯誤問題：可以安裝 Microsoft Visual C++ Build Tools（）

淺談布隆過濾器

1. 問題情景如果面試官問你，一個網站有 100 億 url 存在一個黑名單中，每條 url 平均 64 位元組。問這個黑名單要怎麼存？若此時隨便輸入一個 url，如何判斷該 url 是否在這個黑名單中？對於第一個問題，如果把黑名單看成一個集合，將其存在 hashmap 中，貌似太大了，需要 640G

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

Bitmap演算法與其說是演算法，不如說是一種緊湊的資料儲存結構。是用記憶體中連續的二進位制位(bit)，用於對大量整型資料做去重和查詢。其實如果並非如此大量的資料，有很多排重方案可以使用，典型的就是雜湊表。實際上，雜湊表為每一個可能出現的數字提供了一個一一對映的關係，每個元素都相當於有

布隆過濾器go實現

1 布隆過濾器原理布隆過濾器一般用來判斷一個數據是否在一個很大的資料集合裡面。當然可以用陣列，集合，樹等資料結構和各種查詢法都可以做同樣的事情，但是布隆過濾器有更好的時間效率和空間效率。比特幣實現SPV節點時使用了布隆過濾器來查詢交易。布隆過濾器可以判斷一個數在不在集合裡，但存在一定的誤判率。

雜湊擴充套件——布隆過濾器

一、基本原理：對於原理來說很簡單，位陣列+k個獨立hash函式。將hash函式對應的值的位陣列置1，查詢時如果發現所有hash函式對應位都是1說明存在，但是這個過程並不能保證查詢的結果是100%正確的。二、要點：刪除 &nb

基於redis 實現布隆過濾器

簡介 Redis中有一個數據結構叫做Bitmap(下方有官網詳解)，它提供一個最大長度為512MB（2^32）的位陣列。我們可以把它提供給布隆過濾器做位陣列。根據《數學之美》中給出的資料，在使用8個雜湊函式的情況下，512MB大小的位陣列在誤報率萬分之五的情況下可以對約兩億的url去重

布隆過濾器應用DEMO

引入jar包 <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>2

BloomFilter布隆過濾器的使用

<dependency> <groupId>com.google.guava</groupId>

[原創]大資料:布隆過濾器C#版簡單實現。

public class BloomFilter { public BitArray _BloomArray; public Int64 BloomArryLength { get; } public Int64 DataArray

布隆過濾器一致雜湊雜湊函式和雜湊表

雜湊函式 :又名雜湊函式。布隆過濾器：1經典結構要求的失誤率 2 原理：每個url經過K個雜湊函式在對應相應位置描黑，所有url描黑後，整個布隆過濾器相應型別的陣列相當位置描黑，之後計算K個雜湊函式對應位置，如果K個雜湊函

布隆過濾器淺析 - 20181119

一.引言 BloomFilter演算法，是一種大資料排重演算法。犧牲精度，達到高效利用空間的目的。可以過濾無效請求，惡意攻擊。只記錄特徵，不記錄原始資料查詢特徵值不存在，就代表沒有資料；特徵值存在，則代表資料可能存在。二.優缺點優