1. 程式人生 > 程式設計 >c# 實現點陣圖演算法(BitMap)

c# 實現點陣圖演算法(BitMap)

演算法原理

BitMap的基本思想就是用一個bit位來標記某個元素對應的Value,而Key即是該元素。由於採用了Bit為單位來儲存資料,因此可以大大節省儲存空間。
BitMap可以看成一種資料結構。

假設有這樣一個需求:在20億個隨機整數中找出某個數m是否存在其中,並假設32位作業系統,4G記憶體。
在Java中,int佔4位元組,1位元組=8位(1 byte = 8 bit)。
如果每個數字用int儲存,那就是20億個int,因而佔用的空間約為 (2000000000*4/1024/1024/1024)≈7.45G
如果按位儲存就不一樣了,20億個數就是20億位,佔用空間約為 (2000000000/8/1024/1024/1024)≈0.233G

優點和缺點

優點:由於採用了Bit為單位來儲存資料並建立對映關係來查詢位置,因此可以大大減少儲存空間,加快在大量資料中查詢的時間。(有點雜湊表的意思,但雜湊中的value值資料型別可以豐富多樣,而BitMap最終查到的value只能表示簡單的幾種狀態。)

缺點:BitMap中的查詢結果(value)能表達的狀態有限,且所有的資料不能重複。即不可對重複的資料進行排序和查詢。

演算法實現(C#)

.NET中已經實現了BitMap的資料結構——BitArray,建議使用BitMap演算法解決問題時直接使用官方的BitArray。
我參照.NET原始碼實現了一個簡化版的BitMap,以int陣列儲存位值(最多存21億個位值),程式碼如下:

  class BitMap
  {
    public int Length{ get{ return m_length;}
    }
    private int[] m_array;
    private int m_length;

    public BitMap(int length): this(length,false) { }

    //索引根據需求新增
    public bool this[int index]
    {
      get
      {        
        return Get(index);
      }
      set
      {
        Set(index,value); 
      }
    }

    //分配空間以容納長度位值,位陣列中的所有值都設定為defaultValue。
    public BitMap(int length,bool defaultValue)
    {
      if (length < 0) {
        throw new ArgumentOutOfRangeException("length","長度值不能小於0");
      }

      int arrayLength = length > 0 ? (((length - 1) / 32) + 1) : 0;
      m_array = new int[arrayLength];
      m_length = length;
  
      int fillValue = defaultValue ? unchecked(((int)0xffffffff)) : 0;
      for (int i = 0; i < m_array.Length; i++) {
        m_array[i] = fillValue;
      }
    }

    //返回位置索引處的位值。
    public bool Get(int index) {
      if (index < 0 || index >= Length) {
        throw new ArgumentOutOfRangeException("index","索引值超出範圍");
      }
      return (m_array[index / 32] & (1 << (index % 32))) != 0;
    }
  
    //將位置索引處的位值設定為value。
    public void Set(int index,bool value) {
      if (index < 0 || index >= Length) {
        throw new ArgumentOutOfRangeException("index","索引值超出範圍");
      }
  
      if (value) {
        m_array[index / 32] |= (1 << (index % 32));
      } else {
        m_array[index / 32] &= ~(1 << (index % 32));
      }
    }
  }

演算法應用

問題1:

給40億個不重複的unsigned int的整數,沒有排過序,然後再給一個數,如果快速判斷這個數是否在那40億個數當中。(解決海量資料中的查詢問題)

問題1解法:

建立一個位集合,全部初始化為0。遍歷40億個不重複的整數,通過上述提供的一種對映(每個不重複的整數對映到給定的位)找到其位的位置,標記為1。判斷這個數是否在大整數集合中,即通過對映關係計算此整數的位位置,檢查是否為1,若為1,則存在,若為0,則不存在

問題2:

資料庫裡存了很多800電話號碼,數量特別大,以至於記憶體放不下,如何排序,時間比空間更重要?電話號碼類似於800-810-5555。(高效排序)

問題2解法:

其實就是不重複的任意7位數及其之內的排序問題。我們用1位來表示電話是否出現,遍歷整個電話號序列,設定相應的位,遍歷點陣圖收集位被設定的號碼即可。檢視上述的實現程式碼

以上就是c# 實現點陣圖演算法(BitMap)的詳細內容,更多關於c# 點陣圖演算法的資料請關注我們其它相關文章!