1. 程式人生 > >SPOJ694 && SPOJ705 ——不同子串的總數

SPOJ694 && SPOJ705 ——不同子串的總數

題意:給定字串S,求S的不同子串的總數量。

求出SA陣列與Height陣列,每個子串必然是某個字尾的字首。令S的長度為N,則字尾SA[i]可以貢獻出N-SA[i]個字首。但其中有Height[i]個與之前的是重複的,因此要減去。

另外,在套模板的時候,處理的字串S實際上比源字串多一個結束標記,因此計算出的不同子串數量比答案要多N(N為S的長度,非源的長度,實際上就是源長度加1)。

SPOJ694

//求不同子串的數量 
#include <cstdio>
#include <algorithm>
using namespace std;

int const SIZE = 1005
; //分隔符,多串連線時需要用到,第0個為結束符,肯定用到 char const DELIMETER[] = {'#'}; int const DELIMETER_CNT = 1; //字母表的字母個數 int const ALPHA_SIZE = DELIMETER_CNT + 128; //char轉int inline int tr(char ch){ if ( DELIMETER[0] == ch ) return 0; return ch; } //輔助陣列,以下劃線開頭 int _wa[SIZE],_wb[SIZE],_wv[SIZE],_ws[SIZE]; //輔助函式 int _cmp(int
const r[],int a,int b,int l){return r[a]==r[b]&&r[a+l]==r[b+l];} //求字尾陣列的倍增演算法 //r: 源陣列,且除r[n-1]外,其餘r[i]>0 //n: r的長度 //m: r中的元素取值的上界,即任意r[i]<m //sa:字尾陣列,即結果 void da(int const r[],int n,int m,int sa[]){ int i,j,p,*x=_wa,*y=_wb,*t; for(i=0;i<m;i++) _ws[i] = 0; for(i=0;i<n;i++) _ws[x[i] = r[i]]++; for
(i=1;i<m;i++) _ws[i] += _ws[i-1]; for(i=n-1;i>=0;i--) sa[--_ws[x[i]]]=i; for(j=1,p=1;p<n;j*=2,m=p){ for(p=0,i=n-j;i<n;i++) y[p++]=i; for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0;i<n;i++) _wv[i]=x[y[i]]; for(i=0;i<m;i++) _ws[i]=0; for(i=0;i<n;i++) _ws[_wv[i]]++; for(i=1;i<m;i++) _ws[i] += _ws[i-1]; for(i=n-1;i>=0;i--) sa[--_ws[_wv[i]]] = y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++) x[sa[i]]=_cmp(y,sa[i-1],sa[i],j)?p-1:p++; } return; } //計算rank陣列與height陣列 //r: 源陣列 //sa: 字尾陣列 //n: 源陣列的長度 //rank: rank陣列,即計算結果 //height: height陣列,即計算結果 void calHeight(int const r[],int const sa[],int n,int rank[],int height[]){ int i,j,k=0; for(i=1;i<n;i++) rank[sa[i]]=i; for(i=0;i<n-1;height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++); return; } void dispArray(int const a[],int n){ for(int i=0;i<n;++i)printf("%d ",a[i]); printf("\n"); } int R[SIZE]; int SA[SIZE],Rank[SIZE],Height[SIZE]; int N,K; char A[SIZE]; bool read(){ scanf("%s",A); for(N=0;A[N];++N) R[N] = tr(A[N]); R[N++] = 0; return true; } int proc(){ da(R,N,ALPHA_SIZE,SA); calHeight(R,SA,N,Rank,Height); /* dispArray(R,N); dispArray(SA,N); dispArray(Rank,N); dispArray(Height,N); //*/ //查詢不同的子串數量,即查詢不同的字首數量 //每個字尾可以帶入N-SA[i]個字首,其中相同的有Height[i]個 //最後的結束標記會帶入N個,不應計入答案 int r = -N; for(int i=0;i<N;++i) r += N - SA[i] - Height[i]; return r; } int main(){ int nofkase; scanf("%d",&nofkase); while( nofkase-- ){ read(); printf("%d\n",proc()); } return 0; }

SPOJ705

//DC3演算法在這裡慢於倍增
//不同子串的個數 
#include <cstdio>
#include <algorithm>
using namespace std;

int const SIZE = 50005;
//分隔符,多串連線時需要用到,第0個為結束符,肯定用到
char const DELIMETER[] = {'#'};
int const DELIMETER_CNT = 1;
//字母表的字母個數
int const ALPHA_SIZE = DELIMETER_CNT + 128;
//char轉int
inline int tr(char ch){
    if ( DELIMETER[0] == ch ) return 0;
    return ch;
}
//輔助巨集,以下劃線開頭
#define _F(x) ((x)/3+((x)%3==1?0:tb))
#define _G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
//輔助陣列,以下劃線開頭
int _wa[SIZE],_wb[SIZE],_wv[SIZE],_ws[SIZE];
//輔助函式
int _c0(int const r[],int a,int b){
    return r[a] == r[b]
        && r[a+1] == r[b+1]
        && r[a+2] == r[b+2];
}
int _c12(int k,int *r,int a,int b){
    if( 2 == k ) return r[a]<r[b] || ( r[a]==r[b]&&_c12(1,r,a+1,b+1) );
    return r[a]<r[b] || ( r[a]==r[b]&&_wv[a+1]<_wv[b+1] );
}
void _sort(int const r[],int *a,int *b,int n,int m){
    int i;
    for(i=0;i<n;i++) _wv[i] = r[a[i]];
    for(i=0;i<m;i++) _ws[i] = 0;
    for(i=0;i<n;i++) _ws[_wv[i]]++;
    for(i=1;i<m;i++) _ws[i] += _ws[i-1];
    for(i=n-1;i>=0;i--) b[--_ws[_wv[i]]] = a[i];
    return;
}
//字尾陣列的dc3演算法,使用此dc3演算法一定要保證r與sa的最大長度不小於3倍原長度
//r: 源陣列,且除r[n-1]外,其餘r[i]>0
//n: r的長度
//m: r中的元素取值的上界,即任意r[i]<m
//sa:字尾陣列,即結果
void dc3(int r[],int n,int m,int sa[]){
    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n] = r[n+1] = 0;
    for(i=0;i<n;i++) if(i%3!=0) _wa[tbc++]=i;
    _sort(r+2,_wa,_wb,tbc,m);
    _sort(r+1,_wb,_wa,tbc,m);
    _sort(r,_wa,_wb,tbc,m);
    for(p=1,rn[_F(_wb[0])]=0,i=1;i<tbc;i++)
        rn[_F(_wb[i])] = _c0(r,_wb[i-1],_wb[i])?p-1:p++;
    if(p<tbc) dc3(rn,tbc,p,san);
    else for(i=0;i<tbc;i++) san[rn[i]]=i;
    for(i=0;i<tbc;i++) if(san[i]<tb) _wb[ta++] = san[i]*3;
    if(n%3==1) _wb[ta++]=n-1;
    _sort(r,_wb,_wa,ta,m);
    for(i=0;i<tbc;i++) _wv[_wb[i] = _G(san[i])] = i;
    for(i=0,j=0,p=0;i<ta&&j<tbc;p++)
        sa[p] = _c12(_wb[j]%3,r,_wa[i],_wb[j]) ? _wa[i++] : _wb[j++];
    for(;i<ta;p++) sa[p] = _wa[i++];
    for(;j<tbc;p++) sa[p] = _wb[j++];
    return;
}
//計算rank陣列與height陣列
//r:  源陣列
//sa: 字尾陣列
//n:  源陣列的長度
//rank: rank陣列,即計算結果
//height: height陣列,即計算結果
void calHeight(int const r[],int const sa[],int n,int rank[],int height[]){
    int i,j,k=0;
    for(i=1;i<n;i++) rank[sa[i]]=i;
    for(i=0;i<n-1;height[rank[i++]]=k)
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
    return;
}

void dispArray(int const a[],int n){
    for(int i=0;i<n;++i)printf("%d ",a[i]);
    printf("\n");
}

int R[SIZE*3],SA[SIZE*3];//3倍
int Rank[SIZE],Height[SIZE];
int N,K;
char A[SIZE];
bool read(){
    scanf("%s",A);
    for(N=0;A[N];++N) R[N] = tr(A[N]);
    R[N++] = 0;
    return true;
}

int proc(){
    dc3(R,N,ALPHA_SIZE,SA);
    calHeight(R,SA,N,Rank,Height);

    /*
    dispArray(R,N);
    dispArray(SA,N);
    dispArray(Rank,N);
    dispArray(Height,N);
    //*/

    //查詢不同的子串數量,即查詢不同的字首數量
    //每個字尾可以帶入N-SA[i]個字首(N為帶結束標記的長度),其中相同的有Height[i]個
    //最後的結束標記會帶入N個,不應計入答案
    int r = -N;
    for(int i=0;i<N;++i) r += N - SA[i] - Height[i];
    return r;
}

int main(){
    int nofkase;
    scanf("%d",&nofkase);
    while( nofkase-- ){
        read();
        printf("%d\n",proc());
    }
    return 0;
}