poj 2774 最長公共子串(字尾陣列)
阿新 • • 發佈:2018-12-31
分析:
字串的任何一個子串都是這個字串的某個字尾的字首。求 A 和 B 的最長公共子串等價於求 A 的字尾和 B 的字尾的最長公共字首的最大值。如果列舉 A和 B 的所有的綴,那麼這樣做顯然效率低下。由於要計算 A 的字尾和 B 的字尾的最長公共字首,所以先第二個字串寫在第一個字串後面,中間用一個沒有出現過的字元隔開,再求這個新的字串的字尾陣列。
那麼是不是所有的 height 值中的最大值就是答案呢?不一定!有可能這兩個字尾是在同一個字串中的,所以實際上只有當 suffix(sa[i-1])和suffix(sa[i])不是同一個字串中的兩個字尾時,height[i]才是滿足條件的。而這其中的最大值就是答案。記字串 A 和字串 B 的長度分別為|A|和|B|。求新的字串的字尾陣列和 height 陣列的時間是 O(|A|+|B|),然後求排名相鄰但原來不在同一個字串中的兩個字尾的 height 值的最大值,時間也是O(|A|+|B|),所以整個做法的時間複雜度為 O(|A|+|B|)。時間複雜度已經取到下限,由此看出,這是一個非常優秀的演算法。
#include<cstdio>
#include<cstring>
#include<algorithm>
#include<iostream>
using namespace std;
const int INF = 1e9 + 9;
const int N = 6e5 + 9;//開大3倍
/********************DC3演算法*字尾陣列模板*******************************/
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3 +1:((x)-tb)*3+2)
int wa[N], wb[N], wv[N], wss[N];
int c0 (int *r, int a, int b) {
return r[a] == r[b] && r[a + 1] == r[b + 1] && r[a + 2] == r[b + 2];
}
int c12 (int k, int *r, int a, int b) {
if (k == 2) return r[a] < r[b] || r[a ] == r[b] && c12 (1, r, a + 1, b + 1 );
return r[a] < r[b] || r[a] == r[b] && wv[a + 1] < wv[b + 1];
}
void sort (int *r, int *a, int *b, int n, int m) {
int i;
for (i = 0; i < n; i++) wv[i] = r[a[i]];
for (i = 0; i < m; i++) wss[i] = 0;
for (i = 0; i < n; i++) wss[wv[i]]++;
for (i = 1; i < m; i++) wss[i] += wss[i - 1];
for (i = n - 1; i >= 0; i--)
b[--wss[wv[i]]] = a[i];
}
void dc3 (int *r, int *sa, int n, int m) {
int i, j, *rn = r + n;
int *san = sa + n, ta = 0, tb = (n + 1) / 3, tbc = 0, p;
r[n] = r[n + 1] = 0;
for (i = 0; i < n; i++) if (i % 3 != 0) wa[tbc++] = i;
sort (r + 2, wa, wb, tbc, m);
sort (r + 1, wb, wa, tbc, m);
sort (r, wa, wb, tbc, m);
for (p = 1, rn[F (wb[0])] = 0, i = 1; i < tbc; i++)
rn[F (wb[i])] = c0 (r, wb[i - 1], wb[i]) ? p - 1 : p++;
if (p < tbc) dc3 (rn, san, tbc, p);
else for (i = 0; i < tbc; i++) san[rn[i]] = i;
for (i = 0; i < tbc; i++) if (san[i] < tb) wb[ta++] = san[i] * 3;
if (n % 3 == 1) wb[ta++] = n - 1;
sort (r, wb, wa, ta, m);
for (i = 0; i < tbc; i++) wv[wb[i] = G (san[i])] = i;
for (i = 0, j = 0, p = 0; i < ta && j < tbc; p++)
sa[p] = c12 (wb[j] % 3, r, wa[i], wb[j]) ? wa[i++] : wb[j++];
for (; i < ta; p++) sa[p] = wa[i++];
for (; j < tbc; p++) sa[p] = wb[j++];
}
void da (int str[], int sa[], int rk[], int height[], int n, int m) {
dc3 (str, sa, n + 1, m);
int i, j, k = 0;
for (i = 0; i <= n; i++) rk[sa[i]] = i;
for (i = 0; i < n; i++) {
if (k) k--;
j = sa[rk[i] - 1];
while (str[i + k] == str[j + k]) k++;
height[rk[i]] = k;
}
}
/********************************************************************************/
int sa[N], rk[N], height[N], lcp[N], s[N];
char str1[N],str2[N];
int len1,len2,n;
bool ok(int a,int b)
{
if(a>b)swap(a,b);
return a<len1&&b>len1; //判斷是否a在第一個串中,b在第二個串中
}
int main() {
// freopen ("f.txt", "r", stdin);
while (~scanf ("%s%s", str1,str2) ) {
len1 = strlen (str1);
len2=strlen(str2);
n=len1+len2+1;
for (int i = 0; i < len1; i++) s[i] = str1[i];
s[len1] = 'A';
for(int i=len1+1;i<=n;i++)s[i]=str2[i-len1-1];
da (s, sa, rk, height, n, 128);
int maxn=0;
for(int i=2;i<=n;i++){
if(height[i]>maxn&&ok(sa[i-1],sa[i]))maxn=height[i];
}
printf("%d\n",maxn);
}
return 0;
}
/*
Sample Input
yeshowmuchiloveyoumydearmotherreallyicannotbelieveit
yeaphowmuchiloveyoumydearmother
Sample Output
27
*/