1. 程式人生 > >bitmap對海量無重複的整數排序

bitmap對海量無重複的整數排序

現在有n個無重複的正整數(n 小於10的7次方),如果記憶體限制在1.5M以內,要求對著n個數進行排序。【程式設計珠璣第一章題目】

       很顯然,10的7次方個整數佔用的空間為10 ^ 7 * 4位元組,大約等於40M,而記憶體限制為1.5M,因此,無法將所有數字載入到記憶體,所以快速排序、堆排序等高效的排序演算法就沒法使用。這裡可以使用bitmap方式,用1bit表示一個整數,那麼,10^7個整數需要10^7位,也就是大約1.25M空間。

如下是bitmap對無重複整數的排序過程

一、一次bitmap就可以將所有資料排完

如果每個整數佔一位,可以將所有的整數在記憶體中表示(如上述提到的那樣),那麼可以直接一次bitmap排序就完成了,時間複雜度為O(n),空間複雜度為O(n位)

。下面分別給出C和C++的bitset方式

1、C語言方式

       下面程式碼以n = 100為例子;n是海量時,只要每個整數1bit可以一次在記憶體中表示所有整數的情況下,方法一樣,將巨集定義N的值改為海量資料的上限(比如10^7)即可
//點陣圖排序
#include <iostream>
#include <bitset>
#define WIDTHWORD 32 //一個整數的寬度是32bit
#define SHIFT 5      
#define MASK 0x1F    //0x1f == 31
#define N 100        //對十萬個無重複的整數排序
using namespace std;

//申請一個N位的bitmap
int bitmap[1 + N / WIDTHWORD];

//將bitmap的第value設定為1
void set(int value) {
	bitmap[value >> SHIFT] |= (1 << (value & MASK));
}

//清除bitmap第value位上的1:設定為0
void clear(int value) {
	bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
}

//測試bitmap第value位是否為1
int test(int value) {
	return bitmap[value >> SHIFT] & (1 << (value & MASK));
}

int main() {
	int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
	int length = sizeof(a) / sizeof(int);

	//將bitmap所有位設定為0
	for (int i = 0; i < N; ++i) {
		clear(i);
	}

	//bitmap中將待排序陣列中值所在的位設定為1
	for (int i = 0; i < length; i++)
		set(a[i]);

	//輸出排序後的結果
	for (int i = 0; i < N; ++i) {
		if (test(i))
			cout << i << " ";
	}
}
如上程式碼中:       N表示待排序整數的上限,例如本題要求的10^7。那麼申請一個N位大小的bitmap:int bitmap[1 + N / WIDTHWORD];  下面給出這幾個函式的簡要解釋: 對於一個整數value,要將其對應到bitmap中的第value位,如果設定第value位為1呢 看設定函式:value >> SHIFT 是找到value在bitmap中對應的是第幾個int型數的位置,例如整數100,它對應的是int陣列(也就是bitmap)的第 100 >> 5 == 100 / 32 == 3個int型的位置(從0開始計數,每個int型佔據32位);然後再在int陣列(也就是bitmap)的第3個位置中尋找需要將第幾位設定為1: 1 << (value & 0x1f) == 1 << 100 & 31 == 1 << 4,即要將1左移四位就是要設定為1的那一位;bitmap[value >> SHIFT] |= (1 << (value & MASK));  最終完成將bitmap的第100位設定為1。
對於一個整數value,如何將其對應到bitmap中的那位的上的1清除掉呢? 看清除函式,和設定函式一樣,value >> SHIFT 是找到value在bitmap中對應的是第幾個整型的位置;然後,1 << (value & 0x1f)在找到的那個整型的位置中判斷要將該位元組的哪一位設定為0;bitmap[value >> SHIFT] &= ~(1 << (value & MASK));完成最終清除工作。 對於一個整數value,如何測試在bitmap中是否包含該數,也就是bitmap中第value位上是否為1? 也是先找到value對應bitmap中第幾個整型位置,然後在該位置中找到對應的位,再看該位上是否為1,為1表示bitmap中包含value。 程式排序結果:

2、使用C++的bitset

#include <iostream>
#include <bitset>
#define N 100
using namespace std;


int main() {
       int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
       int length = sizeof(a) / sizeof(int);


       //直接使用C++bitset,申請Nbit的空間,每一位均設定為0
       bitset<N> bitmap; 


       //遍歷待排序陣列,將bitmap中對應位設定為1
       for (int i = 0; i < length; i++)
            bitmap.set(a[i], 1);


       //輸入排序結果
       for (int i = 0; i < N; ++i) {
            if (bitmap[i])
               cout << i << " ";
       }
}

二、需要多次bitmap排序

       如果上限N更大或者進一步限制記憶體大小(例如,將記憶體限制在0.5M之內),那麼一次bitmap就不能將所有資料排序。需要多次bitmap排序,例如上面排序小於100的一些數,我們上面的一次bitmap,是申請100位的bitmap;但是,如果限制我們只能使用30位bitmap,那麼久需要排序100 / 30 + 1次:第一次排序0 ~ 29之間的數,第二次排序30 ~ 59之間的數,第三次排序60 ~ 89之間的數,第四次排序90 ~ 100之間的數。       如果是k次bitmap排序,那麼時間複雜度為O(kn),空間開銷為O(n / k 位). 下面只給出C++方式,C方式類似
int main() {
      int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
      int length = sizeof(a) / sizeof(int);

      //假設還是有小於100的不重複整數需要排序,但是
      //不能申請100位空間,只能申請30位空間,那麼,需要
      //排序的次數如下:
      int sort_times = N / 30 + 1;


      //那麼,第一趟先排序0-29,第二趟排序30-59,
      //第三趟排序60-89,第四趟排序剩下的
      bitset<30> bitmap;             //只能申請30位的bitmap
      for (int times = 0; times < sort_times; ++times) {   //一共進行四趟排序
           bitmap.reset();                             //記得每次排序前將bitmap清空為0
           for (int i = 0; i < length; i++) {
                  if (a[i] >= 30 * times && a[i] < 30 * (times + 1))  
                         bitmap.set(a[i] - 30 * times);
           }


           for (int i = 0; i < 30; ++i) {
                if (bitmap[i])
                      cout << i + 30 * times << " ";
           }
      }
}

三、如果每個整數最多出現m次,如何排序?

       上述兩部分討論的是如果整數是不重複時的排序,那麼,如果海量整數,每個整數允許重複,但是重複次數不超過m(例如m == 10),如何排序?         方法:如果每個整數重複出現次數不超過10次,那麼,可以用4位表示一個整數,用這四位統計該數出現次數,然後排序後輸出該數時,輸出m次即可。

四、除了排序,bitmap的其他用途

如上,bitmap可以用於不重複正整數排序,那麼,bitmap其他用途: 1、找出不重複數: 2、判斷某數是否存在於海量整數中: