1. 程式人生 > >字尾陣列倍增法模板

字尾陣列倍增法模板

字尾陣列倍增法模板

#include <bits/stdc++.h>
using namespace std; 
int n,k,ranks[100003],sa[12]; //SA陣列的含義:SA[I]表示所有後綴中排第I位的起始位是SA[i]
bool compare_sa(int i,int j){ //比較起始位置為i與j的字尾先後
    if(ranks[i]!=ranks[j])return ranks[i]<ranks[j]; //rank不同返回小的
    else{//如果相同,就要比較加上K位後的那個字元的rank
        int ri=i+k<=n?ranks[i+k]:-1;//如果到串尾就置-1
        int rj=j+k<=n?ranks[j+k]:-1;//如果到串尾就置-1
        return ri<rj;
    }//ranks[i]更新完之後表示第i位開始的字尾在所有後綴中的排名
}////ranks[i]在更新過程中表示第i位開始的長為K的子串在所有長為K的子串中的排名(當然到串末的子串可能不夠K長,那指的就是字尾了
void construct_sa(string s,int *sa){//對串S構造字尾陣列SA:初始化,迴圈更新sa與rank
    n=s.length();                   //讀出其長度
    for(int i=0;i<=n;i++){          //初始化sa與ranks陣列
        sa[i]=i;                    //把起始位置下標塞進去(亂塞,反正後面排序)
        ranks[i]=i<n?s[i]:-1;       //rank初始化為其起始字元,空串s[n]優先順序-1最高
    }
    for(k=1;k<=n;k*=2){             //倍增K至大於N即最長字尾排好則結束
        sort(sa,sa+n+1,compare_sa); //更新sa,用rank對SA排序,每次以2k長度排序
        ranks[sa[0]]=0;             //字尾中空串必為第0位,sa[0]必定n,輸出可見全為11
        for(int i=1;i<=n;i++)ranks[sa[i]]=ranks[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);
        //上一字尾小於當前字尾時排名加1,等於則不加,因上面sort故前面不比後面大
        //每一次的rank都是重新計算的,而sa就是不斷對各位起始位對應字尾進行排序
    }
}
bool compare(string s,int *sa,string t){//尋找S中是否出現t對
    int a=0,b=s.length();
    while(b-a>1){ 		//二分字尾起始位,
        int c=(a+b)/2;	//下面compare是STL中STRING封裝函式,文末說明
        if(s.compare(sa[c],t.length(),t)<0)a=c; //<0則S比T小,故答案排名靠後,左界右移
        else b=c;		//否則右界左移,這裡包含了相等的情況,在最後再判是否等於0
    }
    return s.compare(sa[b],t.length(),t)==0;
}
int main(){
    string s="abracadabra";construct_sa(s,sa);
    for(int i=0;i<12;i++)cout<<sa[i]<<' ';cout<<endl;
    string t="abr"; cout<<compare(s,sa,t)<<endl;
    return 0;
}

#include <iostream>
#include <string>
using namespace std;
int main(){
    string a("aBcdef");string b("AbcdEf");string c("123456");string d("123dfg");
    //下面是各種比較方法,前面減去後面的ASCII碼,>0返回1,<0返回-1,相同返回0
    int m=a.compare(b); //完整比較a和b
    int n=a.compare(1,5,b); //“Bcdef”和“AbcdEf”的比較,比較a和b的從1到5位
    int p=a.compare(1,5,b,4,2); //“Bcdef”和“Ef”的比較
    int q=c.compare(0,3,d,0,3); //"123"和“123”的比較
    cout<<"m="<<m<<",n="<<n<<",p="<<p<<",q="<<q<<endl;
    return 0;
}
輸出:m=1,n=1,p=-1,q=0
補充:height陣列與h陣列
int height[maxn],h[maxn];//height[i]:從SA[i]位開始的字尾與上一排名字尾的LCP,h[i]見下文
int ranks[maxn];	//ranks[i]:第I位開始的字尾的排名
//ranks與SA陣列是對應關係,SA[I]是排第I位的字尾的開始位置
void calheight(int *r,int *sa,int n){//傳入串r,求它的height陣列,已知其rank與sa陣列
    int i,j,k=0;//下面由1~N是因為空串在所有後綴中排名必為第0位,sa[0]必定n即開始位置是第N位,ranks[n]本身就等於0所以不記錄
    for(i=1;i<=n;i++) ranks[sa[i]]=i;//初始化RANKS,排名第I字尾開始位置對應的字尾排名是i
for(i=0;i<n;height[ranks[i++]]=k)//i是r串字元開始位置
//每輪結束更新排名第ranks[i]位的字尾與排名第ranks[i]-1的字尾的LCP為K
      for(k?k--:0,j=sa[ranks[i]-1] ; r[i+k]==r[j+k] ; k++);       
    //一開始K是零不操作,然後排名第ranks[i]-1位的開始位置記為J,第一輪r[i+k]==r[j+k]
//判 R陣列i+k位與j+k位是否相同,同K就增加,不同就退出,K就是最大長度
for(i=1;i<=n;i++)h[i] = height[ranks[i]];//h[i]是排名為i的字尾與排名i-1的字尾的LCP
    return;
}
設suffix(k)是排在suffix(i-1)前一名的字尾,它們的最長公共字首是h[i-1]。
則suffix(k+1)將排在suffix(i)的前面,並且suffix(k+1)和suffix(i)的最長公共字首是h[i-1]-1,
故suffix(i)和在它前一名的字尾的最長公共字首至少是h[i-1]-1
但suffix(k+1)開始的字尾的排名並不一定說是suffix(i)開始的字尾的排名上一位!
舉例設從i-1位開始的字尾的排名為q,從第k位開始的字尾的排名為q-1,LCP=h[i-1]
rank[k] = q-1   suffix(k):      rabaa
rank[i-1] = q   suffix(i-1):    racadabrabaa   h[i-1] = 2;
顯然從i-1位開始的字尾與從第k位開始的字尾,LCP=h[i-1]-1
顯然x<y,但並不一定是相差一,可能排名為y-1的字尾串以acaa開頭的!
rank[k+1] = x    suffix(k+1):    abaa
rank[i] = y      suffix(i):      acadabrabaa    h[i] >= h[i-1]-1 = 1;
雖然從第k位開始的字尾排名不一定是從i-1位開始的字尾的排名的前一位,但是因為兩者有LCP=h[i-1]-1,所以從i-1位開始的字尾的排名的前一位的字尾至少也有該LCP長度的字首是相同的