布隆過濾器的原理以及java 簡單實現

阿新 • • 發佈：2020-11-26

一.布隆過濾器

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的演算法，缺點是有一定的誤識別率和刪除困難。

如果想判斷一個元素是不是在一個集合裡，一般想到的是將集合中所有元素儲存起來，然後通過比較確定。連結串列、樹、散列表（又叫雜湊表，Hash table）等等資料結構都是這種思路。但是隨著集合中元素的增加，我們需要的儲存空間越來越大。同時檢索速度也越來越慢，上述三種結構的檢索時間複雜度分別為：O(n),O(log n),O(n/k)。

布隆過濾器的原理是，當一個元素被加入集合時，通過K個Hash函式將這個元素對映成一個位數組中的K個點，把它們置為1。檢索時，我們只要看看這些點是不是都是1就（大約）知道集合中有沒有它了：如果這些點有任何一個0，則被檢元素一定不在；如果都是1，則被檢元素很可能在。這就是布隆過濾器的基本思想。

布隆過濾器資料結構

布隆過濾器是一個 bit 向量或者說 bit 陣列，長這樣：

布隆過濾器的原理以及java 簡單實現

如果我們要對映一個值到布隆過濾器中，我們需要使用多個不同的雜湊函式生成多個雜湊值，並對每個生成的雜湊值指向的 bit 位置 1，例如針對值 “baidu” 和三個不同的雜湊函式分別生成了雜湊值 1、4、7，則上圖轉變為：

布隆過濾器的原理以及java 簡單實現

值得注意的是，4 這個 bit 位由於兩個值的雜湊函式都返回了這個 bit 位，因此它被覆蓋了。現在我們如果想查詢 “dianping” 這個值是否存在，雜湊函式返回了 1、5、8三個值，結果我們發現 5 這個 bit 位上的值為 0，說明沒有任何一個值對映到這個 bit 位上，因此我們可以很確定地說 “dianping” 這個值不存在。而當我們需要查詢 “baidu” 這個值是否存在的話，那麼雜湊函式必然會返回 1、4、7，然後我們檢查發現這三個 bit 位上的值均為 1，那麼我們可以說 “baidu” 存在了麼？答案是不可以，只能是 “baidu” 這個值可能存在。

這是為什麼呢？答案跟簡單，因為隨著增加的值越來越多，被置為 1 的 bit 位也會越來越多，這樣某個值 “taobao” 即使沒有被儲存過，但是萬一雜湊函式返回的三個 bit 位都被其他值置位了 1 ，那麼程式還是會判斷 “taobao” 這個值存在。

支援刪除麼

目前我們知道布隆過濾器可以支援 add 和 isExist 操作，那麼 delete 操作可以麼，答案是不可以，例如上圖中的 bit 位 4 被兩個值共同覆蓋的話，一旦你刪除其中一個值例如 “tencent” 而將其置位 0，那麼下次判斷另一個值例如 “baidu” 是否存在的話，會直接返回 false，而實際上你並沒有刪除它。

如何解決這個問題，答案是計數刪除。但是計數刪除需要儲存一個數值，而不是原先的 bit 位，會增大佔用的記憶體大小。這樣的話，增加一個值就是將對應索引槽上儲存的值加一，刪除則是減一，判斷是否存在則是看值是否大於0。

程式碼簡單實現布隆過濾器

package com.jd.demo.test;

import java.util.Arrays;
import java.util.BitSet;
import java.util.concurrent.atomic.AtomicBoolean;

public class MyBloomFilter {
  //你的布隆過濾器容量
  private static final int DEFAULT_SIZE = 2 << 28;
  //bit陣列，用來存放結果
  private static BitSet bitSet = new BitSet(DEFAULT_SIZE);
  //後面hash函式會用到，用來生成不同的hash值，可隨意設定，別問我為什麼這麼多8，圖個吉利
  private static final int[] ints = {1,6,16,38,58,68};

  //add方法，計算出key的hash值，並將對應下標置為true
  public void add(Object key) {
    Arrays.stream(ints).forEach(i -> bitSet.set(hash(key,i)));
  }

  //判斷key是否存在，true不一定說明key存在，但是false一定說明不存在
  public boolean isContain(Object key) {
     boolean result = true;
    for (int i : ints) {
    	//短路與，只要有一個bit位為false，則返回false
      result = result && bitSet.get(hash(key,i));
    }
    return result;
  }

  //hash函式，借鑑了hashmap的擾動演算法
  private int hash(Object key,int i) {
    int h;
    return key == null ? 0 : (i * (DEFAULT_SIZE - 1) & ((h = key.hashCode()) ^ (h >>> 16)));
  }
}

測試

public static void main(String[] args) {
  MyNewBloomFilter myNewBloomFilter = new MyNewBloomFilter();
  myNewBloomFilter.add("張學友");
  myNewBloomFilter.add("郭德綱");
  myNewBloomFilter.add(666);
  System.out.println(myNewBloomFilter.isContain("張學友"));//true
  System.out.println(myNewBloomFilter.isContain("張學友 "));//false
  System.out.println(myNewBloomFilter.isContain("張學友1"));//false
  System.out.println(myNewBloomFilter.isContain("郭德綱"));//true
  System.out.println(myNewBloomFilter.isContain(666));//true
  System.out.println(myNewBloomFilter.isContain(888));//false
}

二.具體程式碼使用

在實際應用當中，我們不需要自己去實現BloomFilter。可以使用Guava提供的相關類庫即可。

<dependency>
  <groupId>com.google.guava</groupId>
  <artifactId>guava</artifactId>
  <version>25.1-jre</version>
</dependency>12345

判斷一個元素是否在集合中

public class Test1 {

  private static int size = 1000000;

  private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(),size);

  public static void main(String[] args) {
    for (int i = 0; i < size; i++) {
      bloomFilter.put(i);
    }

    long startTime = System.nanoTime(); // 獲取開始時間
    //判斷這一百萬個數中是否包含29999這個數
    if (bloomFilter.mightContain(29999)) {
      System.out.println("命中了");
    }
    long endTime = System.nanoTime();  // 獲取結束時間
    System.out.println("程式執行時間： " + (endTime - startTime) + "納秒");
  }

}

執行結果如下：

命中了
程式執行時間： 441616納秒

自定義錯誤率

public class Test3 {

  private static int size = 1000000;

  private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(),size,0.01);

  public static void main(String[] args) {
    for (int i = 0; i < size; i++) {
      bloomFilter.put(i);
    }
    List<Integer> list = new ArrayList<Integer>(1000);
    // 故意取10000個不在過濾器裡的值，看看有多少個會被認為在過濾器裡
    for (int i = size + 10000; i < size + 20000; i++) {
      if (bloomFilter.mightContain(i)) {
        list.add(i);
      }
    }
    System.out.println("誤判的數量：" + list.size());
  }

}

執行結果如下：

誤判的數量：941

對於快取宕機的場景，使用白名單或者布隆過濾器都有可能會造成一定程度的誤判。原因是除了Bloom Filter 本身有誤判率，宕機之前的快取不一定能覆蓋到所有DB中的資料，當宕機後用戶請求了一個以前從未請求的資料，這個時候就會產生誤判。當然，快取宕機時使用白名單/布隆過濾器作為應急的方式，這種情況應該也是可以忍受的。

以上就是布隆過濾器的原理以及java 簡單實現的詳細內容，更多關於java 布隆過濾器的資料請關注我們其它相關文章！

布隆過濾器的原理以及java 簡單實現

一.布隆過濾器布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超

布隆過濾器的概述及Python實現方法

布隆過濾器布隆過濾器是一種概率空間高效的資料結構。它與hashmap非常相似，用於檢索一個元素是否在一個集合中。它在檢索元素是否存在時，能很好地取捨空間使用率與誤報比例。正是由於這個特性，它被稱作概率性資料

布隆過濾器原理

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com

演算法(3)---布隆過濾器原理

開發一個電商專案，因為資料量一直在增加(已達億級)，所以需要重構之前開發好的秒殺功能，為了更好的支援高併發，在驗證使用者是否重複購買的環節，就考慮用布隆過濾器。

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

本文介紹了布隆過濾器的概念及變體，這種描述非常適合程式碼模擬實現。重點在於標準布隆過濾器和計算布隆過濾器，其他的大都在此基礎上優化。文末附上了標準布隆過濾器和計算布隆過濾器的程式碼實現（Java版和Pytho

布隆過濾器簡單實現 --- Java 版

技術標籤：JAVA 布隆過濾器，簡單來說就是判斷是否存在，可以應用於爬蟲專案中判斷是否存在該url，還有Redis快取穿透中，做布隆過濾器校驗等等

Redis實現布隆過濾器的方法及原理

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一般的演算法要好的

python實現布隆過濾器及原理解析

在學習redis過程中提到一個快取擊穿的問題，書中參考的解決方案之一是使用布隆過濾器，那麼就有必要來了解一下什麼是布隆過濾器。在參考了許多部落格之後，寫個總結記錄一下。

Flink例項（六十八）：布隆過濾器(Bloom Filter)的原理和實現

什麼情況下需要布隆過濾器？先來看幾個比較常見的例子字處理軟體中，需要檢查一個英語單詞是否拼寫正確

面試必問：布隆過濾器的原理以及使用場景

這一篇是我重寫的，之前寫過一篇發現面試的時候問的問題雖然大概能解決，但是有幾個點沒有整理到位，所以自己給自己列出了很多面試常見的問題，準備一篇一篇去解決。本文整體思路是延續之前的那篇文章，在此基礎之

布隆過濾器(Bloom Filter)的原理和實現

什麼情況下需要布隆過濾器？先來看幾個比較常見的例子字處理軟體中，需要檢查一個英語單詞是否拼寫正確

golang float64轉字串_布隆過濾器(Bloom Filter)原理及Golang實現

技術標籤：golang float64轉字串布隆過濾器簡介布隆過濾器（Bloom Filter）是一個基於hash的概率性的資料結構，它實際上是一個很長的二進位制向量，可以檢查一個元素可能存在集合中，和一定不存在集合中。它的

C#實現簡單的布隆過濾器

using System; using System.Collections; using System.Collections.Generic; using System.Text; namespace UserCheckDemo

淺析布隆過濾器(Bloom Filter)的實現原理及應用

一、什麼情況下需要布隆過濾器？ 1、先來看幾個比較常見的例子：字處理軟體中，需要檢查一個英語單詞是否拼寫正確

詳解布隆過濾器的原理和實現

　　為什麼需要布隆過濾器　　想象一下遇到下面的場景你會如何處理：　　手機號是否重複註冊

布隆過濾器BloomFilter概念、原理、實現

BitMap 現代計算機用二進位制（bit，位）作為資訊的基礎單位，1 個位元組等於 8 位。許多開發語言都提供了操作位的功能，合理地使用位能夠有效地提高記憶體使用率和開發效率。

Redis Module 實現布隆過濾器

Redis Module Redis module 是Redis 4.0 以後支援的新的特性，這裡很多國外牛逼的大學和機構提供了很多牛逼的Module 只要編譯引入到Redis 中就能輕鬆的實現我們某些需求的功能。在Redis 官方Module 中有一些我們常見

Python+Redis實現布隆過濾器

布隆過濾器是什麼　　布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都

Redis 中的布隆過濾器的實現

什麼是『布隆過濾器』布隆過濾器是一個神奇的資料結構，可以用來判斷一個元素是否在一個集合中。很常用的一個功能是用來去重。在爬蟲中常見的一個需求：目標網站 URL 千千萬，怎麼判斷某個 URL 爬蟲是否寵幸過？簡單

布隆過濾器的原理以及java 簡單實現

相關推薦