演算法(3)---布隆過濾器原理

阿新 • • 發佈：2022-02-23

開發一個電商專案，因為資料量一直在增加(已達億級)，所以需要重構之前開發好的秒殺功能，為了更好的支援高併發，在驗證使用者是否重複購買的環節，就考慮用布隆過濾器。

也順便更加深入的去了解下布隆過濾器的原理，感覺還是蠻有意思的，這一連串的公式不靜下心來思考，很容易被繞暈。

一、概述

1、什麼是布隆過濾器

本質上布隆過濾器是一種資料結構，比較巧妙的概率型資料結構，特點是高效地插入和查詢。根據查詢結果可以用來告訴你某樣東西一定不存在或者可能存在這句話是該演算法的核心。

相比於傳統的 List、Set、Map 等資料結構，它更高效、佔用空間更少，但是缺點是其返回的結果是概率性的，而不是確切的，同時布隆過濾器還有一個缺陷就是

資料只能插入不能刪除。

2、資料如何存入布隆過濾器

布隆過濾器是由一個很長的bit陣列和一系列雜湊函式組成的。

陣列的每個元素都只佔1bit空間，並且每個元素只能為0或1。

布隆過濾器還擁有k個雜湊函式，當一個元素加入布隆過濾器時，會使用k個雜湊函式對其進行k次計算,得到k個雜湊值，並且根據得到的雜湊值，在維陣列中把對應下標的值置位1。

判斷某個數是否在布隆過濾器中，就對該元素進行k次雜湊計算，得到的值在位陣列中判斷每個元素是否都為1，如果每個元素都為1，就說明這個值在布隆過濾器中。

3、布隆過濾器為什麼會有誤判

當插入的元素越來越多時，當一個不在布隆過濾器中的元素，經過同樣規則的雜湊計算之後，得到的值在位陣列中查詢，有可能這些位置因為其他的元素先被置1了。

所以布隆過濾器存在誤判的情況，但是如果布隆過濾器判斷某個元素不在布隆過濾器中，那麼這個值就一定不在。

如果對布隆過濾器的概念還不是很理解的話，推薦一篇部落格，圖文並茂好理解很多。詳解布隆過濾器的原理、使用場景和注意事項

4、使用場景

網頁爬蟲對URL的去重，避免爬去相同的URL地址。
垃圾郵件過濾，從數十億個垃圾郵件列表中判斷某郵箱是否是殺垃圾郵箱。
解決資料庫快取擊穿，黑客攻擊伺服器時，會構建大量不存在於快取中的key向伺服器發起請求，在資料量足夠大的時候，頻繁的資料庫查詢會導致掛機。
秒殺系統，檢視使用者是否重複購買。

二、實際應用場景

背景現在有個100億個黑名單網頁資料，每個網頁的URL佔用64位元組。現在想要實現一種網頁過濾系統，可以根據網頁的URL判斷該網站是否在黑名單上，請設計該系統。

需求可以允許有0.01%以下的判斷失誤率，並且使用的總空間不要超過200G。

這裡一共有4個常量：

100億條黑名單資料，每條資料佔64個位元組,萬分之一的失誤率，總空間不要超過200G。

如果不考慮不攏過濾器，那麼這裡儲存100億條資料就需要 100億 * 64位元組 = 596G 顯然超過300G

解題在滿足有100億條資料並且允許萬分之一的失誤率的布隆過濾器需要多大的bit陣列呢？

設bit陣列大小為m，樣本數量為n，失誤率為p。
由題可知 n = 100億，p = 0.01%

布隆過濾器的大小m公式

求得 m = 19.19n，向上取整為 20n。所以2000億bit，約為186G。

算完m，我們順便來算下m，n已知，這時滿足最小誤差的k是幾個。

雜湊函式的個數k公式

求得 k = 14，即需要14個雜湊函式。

通過通過 m = 20n， k = 14我們再來算下真實的失誤率。

布隆過濾器真實失誤率p公式

求得 p = 0.006%，即布隆過濾器的真實失誤率為0.006%。

通過布隆過濾器公式也可以看出：

單個數據的大小不影響布隆過濾器大小，因為樣本會通過雜湊函式得到輸出值。

就好比上面的每個網頁的URL佔用64位元組這個資料大小跟布隆過濾器大小沒啥關係。

這三個公式就是有關布隆過濾器已經推倒出的公式，下面我們來推下這個公式是如何推匯出來的。

三、公式推導

講公式，應該先知道幾個關鍵的常量。

誤判率p、布隆過濾器長度m、元素個數n、雜湊函式個數k

我們再來一步一步由簡單到難推導公式。

1、誤差率公式推導

前提條件：就是假設每個元素雜湊得到的值分佈到m陣列上的每一個數組節點的概率是相等的。

1) 假設布隆過濾器長度為m,元素個數n為1,雜湊函式個數k也為1。那麼在插入時某一陣列節點沒有被置為1的概率。

這個應該很好理解。

2）如果上面其它不變，而雜湊函式個數變成k個，那麼在插入時某一陣列節點沒有被置為1的概率。

好理解！

3）如果元素個數變成n個，而雜湊函式個數變成k個，那麼在插入時某一陣列節點沒有被置為1的概率。

4）從上面推匯出的是: 當布隆過濾器長度為m，元素個數變成n個，雜湊函式個數變成k個的時候，某一節點被置為1的概率為

到這裡應該也好理解，第三步是該位置從未被置為1，那麼1去減去它就是至少有一次被置為1,那麼只要存在一次被置1，那麼該位置的bit標示就是1，因為布隆過濾器是不能刪除的。

5）這個還需要考慮到，一個元素通過hash會生成多個k，放入m陣列中,所以需要這k個值都為1才會認為該該元素已經存在。所以是這樣的。

上面這個公式推導在轉換下就成了

思考為什麼上面這個公式的值就是最終的誤差率?

因為當一個布隆過濾器中不存在的元素進來的是的時候，首先通過hash演算法產生k個雜湊值，分佈在m陣列上都為1的的概率不就是上面推匯出的這個公式嗎，那不就是誤差嗎?

因為明明是不存在的值，卻有這個概率表明已經存在。

思考給定的m和n,思考k值為多少誤差會最小。

為什麼k值的大小不合理會影響誤差呢？

我們來思考下，一個元素最終生成k個hash值，那麼會在陣列m上的k個位置標記為1。

假設k為1，那麼每次進來只在m上的某一個位置標記為1，這樣的話如果一個新元素進來剛好hash值也在這裡，而不用其它位置來判斷是否為1，這個誤差就會比較大。

假設k為m，那麼第一個元素進來，在m上所有位置上都表為1了，以後只要進來一個元素就會標記為已存在。這個誤差也太大了。

上面只是舉了兩個極端的例子，但也說明k值太大、太小都不好，它的最優值一定跟m、n存在某種關係。

至於完整公式的推導，我這裡就不在寫了，後面會貼一個人家怎麼推導的部落格。

它們之間的關係只要記住下面這個公式就可以了。

這篇部落格就到這裡了，後面有整理通過谷歌的guava工具和 redis 實現布隆過濾器的示例。通過Lua指令碼批量插入資料到Redis布隆過濾器

演算法(3)---布隆過濾器原理

布隆過濾器原理

一.布隆過濾器布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超

Redis實現布隆過濾器的方法及原理

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一般的演算法要好的

python實現布隆過濾器及原理解析

在學習redis過程中提到一個快取擊穿的問題，書中參考的解決方案之一是使用布隆過濾器，那麼就有必要來了解一下什麼是布隆過濾器。在參考了許多部落格之後，寫個總結記錄一下。

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

本文介紹了布隆過濾器的概念及變體，這種描述非常適合程式碼模擬實現。重點在於標準布隆過濾器和計算布隆過濾器，其他的大都在此基礎上優化。文末附上了標準布隆過濾器和計算布隆過濾器的程式碼實現（Java版和Pytho

玩轉Redis-Redis中布隆過濾器的使用及原理

《玩轉Redis》系列文章主要講述Redis的基礎及中高階應用。本文是《玩轉Redis》系列第【11】篇，最新系列文章請前往公眾號“zxiaofan”檢視，或百度搜索“玩轉Redis zxiaofan”即可。

Flink例項（六十八）：布隆過濾器(Bloom Filter)的原理和實現

什麼情況下需要布隆過濾器？先來看幾個比較常見的例子字處理軟體中，需要檢查一個英語單詞是否拼寫正確

布隆過濾器的原理以及java 簡單實現

通過例項解析布隆過濾器工作原理及例項

布隆過濾器布隆過濾器是一種資料結構，比較巧妙的概率型資料結構（probabilistic data structure），特點是高效地插入和查詢，可以用來告訴你 “一定不存在或者可能存在”。

面試必問：布隆過濾器的原理以及使用場景

這一篇是我重寫的，之前寫過一篇發現面試的時候問的問題雖然大概能解決，但是有幾個點沒有整理到位，所以自己給自己列出了很多面試常見的問題，準備一篇一篇去解決。本文整體思路是延續之前的那篇文章，在此基礎之

布隆過濾器(Bloom Filter)的原理和實現

什麼情況下需要布隆過濾器？先來看幾個比較常見的例子字處理軟體中，需要檢查一個英語單詞是否拼寫正確

布隆過濾器(Bloom Filter)的原理和應用

布隆過濾器的概念布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一

golang float64轉字串_布隆過濾器(Bloom Filter)原理及Golang實現

技術標籤：golang float64轉字串布隆過濾器簡介布隆過濾器（Bloom Filter）是一個基於hash的概率性的資料結構，它實際上是一個很長的二進位制向量，可以檢查一個元素可能存在集合中，和一定不存在集合中。它的

淺析布隆過濾器(Bloom Filter)的實現原理及應用

一、什麼情況下需要布隆過濾器？ 1、先來看幾個比較常見的例子：字處理軟體中，需要檢查一個英語單詞是否拼寫正確

詳解布隆過濾器的原理和實現

　　為什麼需要布隆過濾器　　想象一下遇到下面的場景你會如何處理：　　手機號是否重複註冊

演算法基礎提升——隨機池結構問題、布隆過濾器、一致性Hash演算法、島問題、並查集實現

package com.zuoshen.jichutisheng.class01; import java.util.HashMap; import java.util.List; import java.util.Stack;

布隆過濾器BloomFilter概念、原理、實現

BitMap 現代計算機用二進位制（bit，位）作為資訊的基礎單位，1 個位元組等於 8 位。許多開發語言都提供了操作位的功能，合理地使用位能夠有效地提高記憶體使用率和開發效率。

【原創！推薦！】不瞭解布隆過濾器？一文給你整的明明白白！

海量資料處理以及快取穿透這兩個場景讓我認識了布隆過濾器，我查閱了一些資料來瞭解它，但是很多現成資料並不滿足我的需求，所以就決定自己總結一篇關於布隆過濾器的文章。希望通過這篇文章讓更多人瞭解布隆過濾器

Redis Module 實現布隆過濾器

Redis Module Redis module 是Redis 4.0 以後支援的新的特性，這裡很多國外牛逼的大學和機構提供了很多牛逼的Module 只要編譯引入到Redis 中就能輕鬆的實現我們某些需求的功能。在Redis 官方Module 中有一些我們常見

把布隆過濾器用起來

本文偏應用和程式碼實踐，理論請參考本文末尾參考文章簡介一句話簡介：過濾器，判斷這個元素在與不在，不在則100%不在；在則去查詢，b確認在不在。

演算法(3)---布隆過濾器原理

一、概述

1、什麼是布隆過濾器

2、資料如何存入布隆過濾器

3、布隆過濾器為什麼會有誤判

4、使用場景

二、實際應用場景

三、公式推導

1、誤差率公式推導

相關推薦