通過例項解析布隆過濾器工作原理及例項

阿新 • • 發佈：2020-11-29

布隆過濾器

布隆過濾器是一種資料結構，比較巧妙的概率型資料結構（probabilistic data structure），特點是高效地插入和查詢，可以用來告訴你 “一定不存在或者可能存在”。

相比於傳統的 List、Set、Map 等資料結構，它更高效、佔用空間更少，但是缺點是其返回的結果是概率性的，而不是確切的。

布隆過濾器的工作原理

假設一個長度為m的bit型別的陣列，即陣列中每個位置只佔一個bit，每個bit只有兩種狀態：0，1，所有bit的初始狀態都為0。

再假設一共有k個雜湊函式，這些函式的輸出域大於或者等於m，並且這些雜湊函式，彼此之間相互獨立，每個雜湊函式計算出來的結果是獨立的，可能相同也可能不相同，對每一個計算出來的結果都對m取餘（%m），然後再將陣列下標位置置為1。

我們這裡假設m為13,k為3的布隆過濾器，來看看布隆過濾器的工作原理：

通過例項解析布隆過濾器工作原理及例項

當我們要對映一個值到布隆過濾器時，首先計算三個雜湊函式的值，然後對13取餘，對映到對應位中，圖中對映到2，6，10，這樣我們就完成了一個值的對映。

通過例項解析布隆過濾器工作原理及例項

那麼怎麼判斷一個值是否存在，當一個值輸入時，通過三個雜湊函式，然後取餘，我們就可以得到對應的三個位置，我們只需要判斷這三個位置是否都為1，如果都為1，則該值儲存，反之不存在。

但是有一個特殊情況，前面說了不同的雜湊函式可能計算可能相同也可能不相同，而且不同的雜湊函式對不同的值計算出來的值可能一樣，這就造成一個結果，一個值通過雜湊和取餘得到的位置，早就被其它值給置1了，當我們儲存的值過多，而這個bit陣列過小，都會造成這種情況更多的發生，一個值明明不存在，而它的所有位置早就被其它不同值置1，造成了誤判，這裡就對布隆過濾器提出了一個指標：失誤率p。

在同樣資料規模下，不同大小的bit陣列及不同數量k的雜湊函式對誤判率的結果：

通過例項解析布隆過濾器工作原理及例項

如何選取最合適的m（bit陣列的大小）及k（雜湊函式的數量），在已知n（需要對映的值得數量）及失誤率p的情況下：

m的選取：

通過例項解析布隆過濾器工作原理及例項

k的選取：

通過例項解析布隆過濾器工作原理及例項

給個例子：假設n=100億，p=0.01%

通過公式計算出來m=19.19n，向上取整位20n，即2000億個bit，也就是25gb。

通過公式計算出來k=14。

計算真實失誤率：

通過例項解析布隆過濾器工作原理及例項

根據公式計算出來的真實失誤率位0.006%。

c語言實現

#include <stdio.h>

#define Size 100
#define BitSIZE Size * 4 * 8
//c語言中一個整型資料型別4個位元組 
int bit[Size]={0};

  
int SDBMHash(char *str)
{
  unsigned int hash = 0;
  while (*str)
  {
    // equivalent to: hash = 65599*hash + (*str++);
    hash = (*str++) + (hash << 6) + (hash << 16) - hash;
  }
  return (hash & 0x7FFFFFFF);
}

int RSHash(char *str)
{
  unsigned int b = 378551;
  unsigned int a = 63689;
  unsigned int hash = 0;
 
  while (*str)
  {
    hash = hash * a + (*str++);
    a *= b;
  }
 
  return (hash & 0x7FFFFFFF);
}

int JSHash(char *str)
{
  unsigned int hash = 1315423911;
 
  while (*str)
  {
    hash ^= ((hash << 5) + (*str++) + (hash >> 2));
  }
 
  return (hash & 0x7FFFFFFF);
}


void Insert(int hash){
  
  //int value = hash%BitSIZE; ([0-3200]範圍的值)
  //int listindex = value / 32; (listindex為陣列下標)
  //int bitindex = value % 32; (某位)
  
  int value = hash%BitSIZE;
  int listindex = value / 32;
  int bitindex = value % 32;
  int temp = bit[listindex];
  bit[listindex] = bit[listindex] & (1 << bitindex);
  bit[listindex] = bit[listindex] | temp;
}

int Serach(int hash){
  int value = hash%BitSIZE;
  int listindex = value / 32;
  int bitindex = value % 32;
  if (bit[listindex] | (1 << bitindex)){
    return 1;
  }
  return 0;
}



int main () {
  
  char str1[] = "abc123";
  
  //在布隆過濾器中插入某值
  Insert(SDBMHash(str1));
  Insert(RSHash(str1));
  Insert(JSHash(str1));
  
  //在布隆過濾器中判斷某值是否存在
  int i = 0;
  i = i+Serach(SDBMHash(str1));
  i = i+Serach(RSHash(str1));
  i = i+Serach(JSHash(str1));
  if(i == 3){
    printf("字串：%s存在\n",str1);
  }

  return 0;
}

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

通過例項解析布隆過濾器工作原理及例項

通過例項解析布隆過濾器工作原理及例項

Redis實現布隆過濾器的方法及原理

玩轉Redis-Redis中布隆過濾器的使用及原理

布隆過濾器的原理以及java 簡單實現

面試必問：布隆過濾器的原理以及使用場景

詳解布隆過濾器的原理和實現

布隆過濾器的概述及Python實現方法

python實現布隆過濾器及原理解析

Flink例項（六十八）：布隆過濾器(Bloom Filter)的原理和實現

通過例項解析JMM和Volatile底層原理

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

Ajax工作原理及優缺點例項解析

通過例項解析jQ Ajax操作相關原理

【轉】 SpringBoot(18）---通過Lua指令碼批量插入資料到Redis布隆過濾器

通過例項解析Java不可變物件原理

布隆過濾器原理

布隆過濾器(Bloom Filter)的原理和實現

布隆過濾器(Bloom Filter)的原理和應用

golang float64轉字串_布隆過濾器(Bloom Filter)原理及Golang實現

淺析布隆過濾器(Bloom Filter)的實現原理及應用

通過例項解析布隆過濾器工作原理及例項

相關推薦