最長遞增子序列的三種演算法
問題
給定一個長度為N的陣列,找出一個最長的單調自增子序列(不一定連續,但是順序不能亂)。例如:給定一個長度為6的陣列A{5, 6, 7, 1, 2, 8},則其最長的單調遞增子序列為{5,6,7,8},長度為4.
解法1:最長公共子序列法
這個問題可以轉換為最長公共子序列問題。如例子中的陣列A{5,6, 7, 1, 2, 8},則我們排序該陣列得到陣列A‘{1, 2, 5, 6, 7, 8},然後找出陣列A和A’的最長公共子序列即可。顯然這裡最長公共子序列為{5, 6, 7, 8},也就是原陣列A最長遞增子序列。最長公共子序列演算法在演算法導論上有詳細講解,這裡簡略說下思想。
假定兩個序列為X={x1, x2, ..., xm}和Y={y1, y2, ..., yn),並設Z={z1, z2, ..., zk}為X和Y的任意一個LCS。
1)如果xm = yn,則zk = xm=yn,且Zk-1是Xm-1和Yn-1的一個LCS。
2)如果xm != yn, 則zk != xm蘊含Z是Xm-1和Y得一個LCS。
3)如果xm != yn, 則zk != yn蘊含Z是X和Yn-1的一個LCS。
解法2:動態規劃法(時間複雜度O(N^2))
設長度為N的陣列為{a0,a1, a2, ...an-1),則假定以aj結尾的陣列序列的最長遞增子序列長度為L(j),則L(j)={ max(L(i))+1, i<j且a[i]<a[j] }。也就是說,我們需要遍歷在j之前的所有位置i(從0到j-1),找出滿足條件a[i]<a[j]的L(i),求出max(L(i))+1即為L(j)的值。最後,我們遍歷所有的L(j)(從0到N-1),找出最大值即為最大遞增子序列。時間複雜度為O(N^2)。
例如給定的陣列為{5,6,7,1,2,8},則L(0)=1, L(1)=2, L(2)=3, L(3)=1, L(4)=2, L(5)=4。所以該陣列最長遞增子序列長度為4,序列為{5,6,7,8}。演算法程式碼如下:
Cpp程式碼- #include <iostream>
- using namespace std;
- #define len(a) (sizeof(a) / sizeof(a[0])) //陣列長度
- int lis(int arr[], int len)
- {
- int longest[len];
-
for (int i=0; i<len; i++)
- longest[i] = 1;
- for (int j=1; j<len; j++) {
- for (int i=0; i<j; i++) {
- if (arr[j]>arr[i] && longest[j]<longest[i]+1){ //注意longest[j]<longest[i]+1這個條件,不能省略。
- longest[j] = longest[i] + 1; //計算以arr[j]結尾的序列的最長遞增子序列長度
- }
- }
- }
- int max = 0;
- for (int j=0; j<len; j++) {
- cout << "longest[" << j << "]=" << longest[j] << endl;
- if (longest[j] > max) max = longest[j]; //從longest[j]中找出最大值
- }
- return max;
- }
- int main()
- {
- int arr[] = {1, 4, 5, 6, 2, 3, 8}; //測試陣列
- int ret = lis(arr, len(arr));
- cout << "max increment substring len=" << ret << endl;
- return 0;
- }
解法3:O(NlgN)演算法
假設存在一個序列d[1..9] ={ 2,1 ,5 ,3 ,6,4, 8 ,9, 7},可以看出來它的LIS長度為5。
下面一步一步試著找出它。
我們定義一個序列B,然後令 i = 1 to 9 逐個考察這個序列。
此外,我們用一個變數Len來記錄現在最長算到多少了
首先,把d[1]有序地放到B裡,令B[1] = 2,就是說當只有1一個數字2的時候,長度為1的LIS的最小末尾是2。這時Len=1
然後,把d[2]有序地放到B裡,令B[1] = 1,就是說長度為1的LIS的最小末尾是1,d[1]=2已經沒用了,很容易理解吧。這時Len=1
接著,d[3] = 5,d[3]>B[1],所以令B[1+1]=B[2]=d[3]=5,就是說長度為2的LIS的最小末尾是5,很容易理解吧。這時候B[1..2] = 1, 5,Len=2
再來,d[4] = 3,它正好加在1,5之間,放在1的位置顯然不合適,因為1小於3,長度為1的LIS最小末尾應該是1,這樣很容易推知,長度為2的LIS最小末尾是3,於是可以把5淘汰掉,這時候B[1..2] = 1, 3,Len = 2
繼續,d[5] = 6,它在3後面,因為B[2] = 3, 而6在3後面,於是很容易可以推知B[3] = 6, 這時B[1..3] = 1, 3, 6,還是很容易理解吧? Len = 3 了噢。
第6個, d[6] = 4,你看它在3和6之間,於是我們就可以把6替換掉,得到B[3] = 4。B[1..3] = 1, 3, 4, Len繼續等於3
第7個, d[7] = 8,它很大,比4大,嗯。於是B[4] = 8。Len變成4了
第8個, d[8] = 9,得到B[5] = 9,嗯。Len繼續增大,到5了。
最後一個, d[9] = 7,它在B[3] = 4和B[4] = 8之間,所以我們知道,最新的B[4] =7,B[1..5] = 1, 3, 4, 7, 9,Len = 5。
於是我們知道了LIS的長度為5。
注意,這個1,3,4,7,9不是LIS,它只是儲存的對應長度LIS的最小末尾。有了這個末尾,我們就可以一個一個地插入資料。雖然最後一個d[9] = 7更新進去對於這組資料沒有什麼意義,但是如果後面再出現兩個數字 8 和 9,那麼就可以把8更新到d[5], 9更新到d[6],得出LIS的長度為6。
然後應該發現一件事情了:在B中插入資料是有序的,而且是進行替換而不需要挪動——也就是說,我們可以使用二分查詢,將每一個數字的插入時間優化到O(logN)~~~~~於是演算法的時間複雜度就降低到了O(NlogN)~!
程式碼如下(程式碼中的陣列B從位置0開始存資料):
Cpp程式碼- #include <stdio.h>
- #include <stdlib.h>
- #include <string.h>
- #define N 9 //陣列元素個數
- int array[N] = {2, 1, 6, 3, 5, 4, 8, 7, 9}; //原陣列
- int B[N]; //在動態規劃中使用的陣列,用於記錄中間結果,其含義三言兩語說不清,請參見博文的解釋
- int len; //用於標示B陣列中的元素個數
- int LIS(int *array, int n); //計算最長遞增子序列的長度,計算B陣列的元素,array[]迴圈完一遍後,B的長度len即為所求
- int BiSearch(int *b, int len, int w); //做了修改的二分搜尋演算法
- int main()
- {
- printf("LIS: %d\n", LIS(array, N));
- int i;
- for(i=0; i<len; ++i)
- {
- printf("B[%d]=%d\n", i, B[i]);
- }
- return 0;
- }
- int LIS(int *array, int n)
- {
- len = 1;
- B[0] = array[0];
- int i, pos = 0;
- for(i=1; i<n; ++i)
- {
- if(array[i] > B[len-1]) //如果大於B中最大的元素,則直接插入到B陣列末尾
- {
- B[len] = array[i];
- ++len;
- }
- else
- {
- pos = BiSearch(B, len, array[i]); //二分查詢需要插入的位置
- B[pos] = array[i];
- }
- }
- return len;
- }
- //修改的二分查詢演算法,返回陣列元素需要插入的位置。
- int BiSearch(int *b, int len, int w)
- {
- int left = 0, right = len - 1;
- int mid;
- while (left <= right)
- {
- mid = left + (right-left)/2;
- if (b[mid] > w)
- right = mid - 1;
- else if (b[mid] < w)
- left = mid + 1;
- else //找到了該元素,則直接返回
- return mid;
- }
- return left;//陣列b中不存在該元素,則返回該元素應該插入的位置
- }