c# 實現點陣圖演算法(BitMap)
演算法原理
BitMap的基本思想就是用一個bit位來標記某個元素對應的Value,而Key即是該元素。由於採用了Bit為單位來儲存資料,因此可以大大節省儲存空間。
BitMap可以看成一種資料結構。
假設有這樣一個需求:在20億個隨機整數中找出某個數m是否存在其中,並假設32位作業系統,4G記憶體。
在Java中,int佔4位元組,1位元組=8位(1 byte = 8 bit)。
如果每個數字用int儲存,那就是20億個int,因而佔用的空間約為 (2000000000*4/1024/1024/1024)≈7.45G
如果按位儲存就不一樣了,20億個數就是20億位,佔用空間約為 (2000000000/8/1024/1024/1024)≈0.233G
優點和缺點
優點:由於採用了Bit為單位來儲存資料並建立對映關係來查詢位置,因此可以大大減少儲存空間,加快在大量資料中查詢的時間。(有點雜湊表的意思,但雜湊中的value值資料型別可以豐富多樣,而BitMap最終查到的value只能表示簡單的幾種狀態。)
缺點:BitMap中的查詢結果(value)能表達的狀態有限,且所有的資料不能重複。即不可對重複的資料進行排序和查詢。
演算法實現(C#)
.NET中已經實現了BitMap的資料結構——BitArray,建議使用BitMap演算法解決問題時直接使用官方的BitArray。
我參照.NET原始碼實現了一個簡化版的BitMap,以int陣列儲存位值(最多存21億個位值),程式碼如下:
class BitMap { public int Length{ get{ return m_length;} } private int[] m_array; private int m_length; public BitMap(int length): this(length,false) { } //索引根據需求新增 public bool this[int index] { get { return Get(index); } set { Set(index,value); } } //分配空間以容納長度位值,位陣列中的所有值都設定為defaultValue。 public BitMap(int length,bool defaultValue) { if (length < 0) { throw new ArgumentOutOfRangeException("length","長度值不能小於0"); } int arrayLength = length > 0 ? (((length - 1) / 32) + 1) : 0; m_array = new int[arrayLength]; m_length = length; int fillValue = defaultValue ? unchecked(((int)0xffffffff)) : 0; for (int i = 0; i < m_array.Length; i++) { m_array[i] = fillValue; } } //返回位置索引處的位值。 public bool Get(int index) { if (index < 0 || index >= Length) { throw new ArgumentOutOfRangeException("index","索引值超出範圍"); } return (m_array[index / 32] & (1 << (index % 32))) != 0; } //將位置索引處的位值設定為value。 public void Set(int index,bool value) { if (index < 0 || index >= Length) { throw new ArgumentOutOfRangeException("index","索引值超出範圍"); } if (value) { m_array[index / 32] |= (1 << (index % 32)); } else { m_array[index / 32] &= ~(1 << (index % 32)); } } }
演算法應用
問題1:
給40億個不重複的unsigned int的整數,沒有排過序,然後再給一個數,如果快速判斷這個數是否在那40億個數當中。(解決海量資料中的查詢問題)
問題1解法:
建立一個位集合,全部初始化為0。遍歷40億個不重複的整數,通過上述提供的一種對映(每個不重複的整數對映到給定的位)找到其位的位置,標記為1。判斷這個數是否在大整數集合中,即通過對映關係計算此整數的位位置,檢查是否為1,若為1,則存在,若為0,則不存在
問題2:
資料庫裡存了很多800電話號碼,數量特別大,以至於記憶體放不下,如何排序,時間比空間更重要?電話號碼類似於800-810-5555。(高效排序)
問題2解法:
其實就是不重複的任意7位數及其之內的排序問題。我們用1位來表示電話是否出現,遍歷整個電話號序列,設定相應的位,遍歷點陣圖收集位被設定的號碼即可。檢視上述的實現程式碼
以上就是c# 實現點陣圖演算法(BitMap)的詳細內容,更多關於c# 點陣圖演算法的資料請關注我們其它相關文章!