Top K演算法和尋找第K個最小的數
關於Top K演算法和尋找第K個最小的數這種經典問題網上已經說的很詳細了,不過畢竟不是自己的,這裡自己總結一下,而且這兩個問題又稍稍有點區別。
1.Top K演算法:即尋找一列數中K個最小值或K個最大值,這裡僅以尋找K個最小值為例(演算法類似)。
(1)普通排序:最直觀的演算法就是給整列數排序,然後取前K個數。這裡主要對各種排序演算法的時間複雜度進行分析:
插入排序:由於巢狀迴圈的每一次迭代都花費N次迭代,因此插入排序的時間複雜度為O(N^2)。
快速排序:對於已經排序的數列採用快速排序時間複雜度為O(N^2),採用隨機數或者三數中值法可以避免這種情況,平均時間複雜度T(N)=O(NlogN)
void Swap(int *a, int *b) { int Tmp = *a; *a = *b; *b = Tmp; } void Qsort(int A[], int Left, int Right) { int i, j, Pivot; if(Left < Right) { Pivot = A[Left]; i = Left + 1; j = Right; while(1) { while(A[i] < Pivot) i++; while(A[j] > Pivot) j--; if(i < j) Swap(&A[i++], &A[j--]); else break; } Swap(&A[j], &A[Left]); Qsort(A, Left, j - 1); Qsort(A, j + 1, Right); } } void quickSort(int A[], int N) { Qsort(A, 0, N - 1); }
(2)部分排序:如果對最小的K個數順序沒有要求,只要找出最小的K個數即可,則沒必要對所有數都進行排序,找出前K個最小的數就可以了。
陣列方法:維護一個大小為K的陣列,K以數列的前10個數初始化,按照從小到大排列。然後繼續從數列中的第11個數開始遍歷,若小於陣列中最大的數,則捨棄這個最大數,更新當前陣列,重新排列。插入新的數要遍歷這個陣列,因此最壞情況時間複雜度為N*K.
//陣列方法實現輸出最小的K個數 int* MinK(int *a, int n, int k) { int* MinArry = new int[k+1]; for(int i=0; i<k+1; ++i) MinArry[i] = a[i]; int pos = k + 1; //K個數插入排序 for(int i=1; i<k; ++i) { int Tmp = MinArry[i]; int j; for(j=i; j>0 && MinArry[j-1]>Tmp; j--) MinArry[j] = MinArry[j-1]; MinArry[j] = Tmp; } for(int pos=k+1; pos<n; ++pos) { MinArry[k+1] = a[pos]; //不斷讀入數列中的數到陣列末尾 int InsertNum = MinArry[k+1]; if(InsertNum < MinArry[k]) { int i; for(i=k+1; i>0 && MinArry[i-1]>InsertNum; --i) MinArry[i] = MinArry[i-1]; MinArry[i] = InsertNum; //插入合適的位置 } } return MinArry; }
快速排序演算法的變種:如果選定了基準值,一趟迴圈後基準值的位置為j,j左邊的元素都是小於它的,j右邊的元素都是大於它的。如果j正好等於k-1,那麼數列下標為0到k-1的元素就是最小的k個數,函式返回;如果j小於k-1,那麼在j的右邊遞迴的使用快速排序,它會使新的基準值的位置右移,同理j大於k-1時在j的左側使用快排,讓新的基準值位置左移,直到基準值的最終在位置k-1上;
void Swap(int &a, int &b)
{
int c = a;
a = b;
b = c;
}
void Qsort(int *a, int Left, int Right, int k)
{
if(Left < Right)
{
int pivot = a[Left];
int i = Left + 1, j = Right;
for(;;)
{
while(a[i] < pivot)
++i;
while(a[j] > pivot)
--j;
if(i > j)
break;
Swap(a[i++], a[j--]);
}
Swap(a[j], a[Left]);
if(j < k-1)
Qsort(a, j+1, Right, k);
else if(j > k-1)
Qsort(a, Left, j-1, k);
else
return;
}
}
void Select(int *a, int n, int k)
{
Qsort(a, 0, n-1, k);
}
時間複雜度分析:假設每次快排陣列長度都是上一次的一半,又T(N)=N+N/2+N/4+N/8+…=2N=O(N)。最壞情況分析:如果數列是已經排序的,每次排序只能排除掉一個數,有T(N)=N+N-1+N-2+N-3+…+0=O(N^2)。
堆排序:通過建立一個K個數的堆的方式,最小的K個數利用最大堆(反之求最大的K個數用到最小堆),不斷讀入數列與堆頂比較。如果小於堆頂表明堆頂不是最小的K個元素之一了,淘汰堆頂並插入。
void swap(int *v, int i, int j)
{
int tmp = v[i];
v[i] = v[j];
v[j] = tmp;
}
void siftup(int *v, int n)
{
int c;
for(int i = n-1; i>0 && v[i] > v[c=(i-1)/2]; i = c)
swap(v, i, c);
}
void siftdown(int *v, int n)
{
int c;
for(int i = 0; (c = 2*i+1) <= n-1; i = c)
{
if(c+1 <= n-1 && v[c] < v[c+1])
++c;
if(v[i] >= v[c])
break;
swap(v, i, c);
}
}
void TopK(int *a, int n, int k)
{
int *heap = new int[k];
for(int i = 0; i < k; ++i)
heap[i] = a[i]; //堆初始化資料
for(int i = 1; i < k; ++i)
siftup(heap, i+1); //建堆
for(int i = k; i < n; ++i) //與堆頂元素比較,如果小於堆頂則替換堆頂
{
if(a[i] < *heap)
{
*heap = a[i];
siftdown(heap, k);
}
}
for(int i = 0; i < k; ++i)
cout << heap[i] << " ";
cout << endl;
delete[] heap;
}
時間複雜度分析:堆賦值耗時k,建堆時間不超過klogk,遍歷陣列時間為O((n-k)logk),所以最終時間複雜度為O(nlogk)