1. 程式人生 > >布隆過濾器的方式解決緩存穿透問題

布隆過濾器的方式解決緩存穿透問題

元素 分享 http enc 輸出結果 思路 支持 負載 根據

1、原理

布隆過濾器的巨大用處就是,能夠迅速判斷一個元素是否在一個集合中。因此他有如下三個使用場景:

  1. 網頁爬蟲對URL的去重,避免爬取相同的URL地址

  2. 反垃圾郵件,從數十億個垃圾郵件列表中判斷某郵箱是否垃圾郵箱(同理,垃圾短信)

  3. 緩存穿透,將所有可能存在的數據緩存放到布隆過濾器中,當黑客訪問不存在的緩存時迅速返回避免緩存及DB掛掉。

OK,接下來我們來談談布隆過濾器的原理

其內部維護一個全為0的bit數組,需要說明的是,布隆過濾器有一個誤判率的概念,誤判率越低,則數組越長,所占空間越大。誤判率越高則數組越小,所占的空間越小。

假設,根據誤判率,我們生成一個10位的bit數組,以及2個hash函數((f_1,f_2)),如下圖所示(生成的數組的位數和hash函數的數量,我們不用去關心是如何生成的,有數學論文進行過專業的證明)。

技術分享圖片

假設輸入集合為((N_1,N_2)),經過計算(f_1(N_1))得到的數值得為2,(f_2(N_1))得到的數值為5,則將數組下標為2和下表為5的位置置為1,如下圖所示

技術分享圖片

同理,經過計算(f_1(N_2))得到的數值得為3,(f_2(N_2))得到的數值為6,則將數組下標為3和下表為6的位置置為1,如下圖所示

技術分享圖片

這個時候,我們有第三個數(N_3),我們判斷(N_3)在不在集合((N_1,N_2))中,就進行(f_1(N_3),f_2(N_3))的計算

  1. 若值恰巧都位於上圖的紅色位置中,我們則認為,(N_3)在集合((N_1,N_2))中

  2. 若值有一個不位於上圖的紅色位置中,我們則認為,(N_3)不在集合((N_1,N_2))中

以上就是布隆過濾器的計算原理,下面我們進行性能測試,

2、性能測試

代碼如下:
(1)新建一個maven工程,引入guava包

<dependencies>
    <dependency>
        <groupId>com.google.guava</groupId>     
        <artifactId>guava</artifactId>      
        <version>22.0</version>
    </dependency>
</dependencies>

(2)測試一個元素是否屬於一個百萬元素集合所需耗時

import java.util.ArrayList;import java.util.List; 
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels; 

public class Test {
    
    private static int size = 1000000;
    
        private static BloomFilter<Integer> bloomFilter =BloomFilter.create(Funnels.integerFunnel(), size);
            public static void main(String[] args) {        
            for (int i = 0; i < size; i++) {            
            bloomFilter.put(i);        
        }        
        
        List<Integer> list = new ArrayList<Integer>(1000);
        //故意取10000個不在過濾器裏的值,看看有多少個會被認為在過濾器裏
        for (int i = size + 10000; i < size + 20000; i++) {
            if (bloomFilter.mightContain(i)) {
                list.add(i);
            }
        }
        System.out.println("誤判的數量:" + list.size());
    }
}

輸出結果如下
誤判對數量:330

如果上述代碼所示,我們故意取10000個不在過濾器裏的值,卻還有330個被認為在過濾器裏,這說明了誤判率為0.03.即,在不做任何設置的情況下,默認的誤判率為0.03。
下面上源碼來證明:

技術分享圖片

接下來我們來看一下,誤判率為0.03時,底層維護的bit數組的長度如下圖所示

技術分享圖片

技術分享圖片

將bloomfilter的構造方法改為
private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size,0.01);

即,此時誤判率為0.01。在這種情況下,底層維護的bit數組的長度如下圖所示

技術分享圖片

由此可見,誤判率越低,則底層維護的數組越長,占用空間越大。因此,誤判率實際取值,根據服務器所能夠承受的負載來決定,不是拍腦袋瞎想的。

3、實際使用
redis偽代碼如下所示

String get(String key) {
    String value = redis.get(key);     
    if (value  == null) {
        if(!bloomfilter.mightContain(key)){
            return null; 
        }else{
            value = db.get(key); 
            redis.set(key, value); 
        }    
    }
    return value;
}

優點

  1. 思路簡單
  2. 保證一致性
  3. 性能強

缺點

  1. 代碼復雜度增大
  2. 需要另外維護一個集合來存放緩存的Key
  3. 布隆過濾器不支持刪值操作

布隆過濾器的方式解決緩存穿透問題