JSK 習題:蒜頭君傳紙條-字尾陣列-至少出現k次的最長子串
阿新 • • 發佈:2018-12-10
題意:
求至少出現k次的最長可重疊子串長度
思路:
字尾陣列+二分列舉子串長度 設當前二分列舉到長度nk,統計height>=nk的個數,表示長度大於等於nk的子串出現次數,若次數大於等於k,即找到答案
程式碼:
#include<bits/stdc++.h>
using namespace std;
const int MAXN = 200010;
int s[MAXN]; // s 陣列儲存了字串中的每個元素值,除最後一個元素外,每個元素的值在 1..m 之間,最後一個元素的值為 0
int wa[MAXN], wb[MAXN], wc[MAXN], wd[MAXN]; // 這 4 個數組是字尾陣列計算時的臨時變數,無實際意義
int sa[MAXN]; // sa[i] 儲存第 i 小的字尾在字串中的開始下標,i 取值範圍為 0..n-1
int cmp(int *r, int a, int b, int l) {
return r[a] == r[b] && r[a + l] == r[b + l];
}
void getSA(int *r, int *sa, int n, int m) { // n 為字串的長度,m 為字元最大值
int i, j, p, *x = wa, *y = wb;
for (i = 0; i < m; ++i) wd[i] = 0;
for (i = 0; i < n; ++i) wd[x[i] = r[i]]++;
for (i = 1; i < m; ++i) wd[i] += wd[i - 1];
for (i = n - 1; i >= 0; --i) sa[--wd[x[i]]] = i;
for (j = 1, p = 1; p < n; j *= 2, m = p) {
for (p = 0, i = n - j; i < n; ++i) y[p++] = i;
for (i = 0; i < n; ++i) if (sa[i] >= j) y[p++] = sa[i] - j;
for (i = 0; i < n; ++i) wc[i] = x[y[i]];
for (i = 0; i < m; ++i) wd[i] = 0;
for (i = 0; i < n; ++i) wd[wc[i]]++;
for (i = 1; i < m; ++i) wd[i] += wd[i - 1];
for (i = n - 1; i >= 0; --i) sa[--wd[wc[i]]] = y[i];
for (swap(x, y), p = 1, x[sa[0]] = 0, i = 1; i < n; ++i)
x[sa[i]] = cmp(y, sa[i - 1], sa[i], j) ? p - 1 : p++;
}
return;
}
int n; //字串長度
int Rank[MAXN]; // Rank[i] 表示從下標 i 開始的字尾的排名,值為 1..n
int height[MAXN]; // 下標範圍為 1..n,height[1] = 0,表示suffix(sa[i-1])和suffix(sa[i])的最長公共字首,即排名相鄰的兩個字尾的最長公共字首
void getHeight(int *r,int *sa,int n) {
int i, j, k = 0;
for (i = 1; i <= n; ++i) Rank[sa[i]] = i;
for (i = 0; i < n; i++) {
if (k) k--;
int j = sa[Rank[i] - 1];
while (r[i + k] == r[j + k]) k++;
height[Rank[i]] = k;
}
return;
}
bool check(int nk,int K) //將height分組判斷
{
int cnt=1;
for(int i=1;i<=n;i++)
{
if(height[i]>=nk) //統計長度大於nk的子串個數
{
cnt++;
if(cnt>=K) return true; //出現次數大於等於K,找到答案
}
else
cnt=1;
}
return false;
}
int main()
{
int K;
cin>>n>>K;
for(int i=0;i<n;i++)
cin>>s[i];
s[n]=0; //必須要加!!,將s最後一位置為一個最小值
getSA(s,sa,n+1,20000); //!!!必須是n+1!!!
getHeight(s,sa,n);
int l=0,r=n;
int ans=0;
while(l<=r)
{
int mid=(l+r)>>1; //二分列舉子串長度
if(check(mid,K))
{
ans=mid;
l=mid+1;
}
else r=mid-1;
}
cout<<ans<<endl;
return 0;
}