字尾陣列倍增法模板
阿新 • • 發佈:2019-01-03
字尾陣列倍增法模板 #include <bits/stdc++.h> using namespace std; int n,k,ranks[100003],sa[12]; //SA陣列的含義:SA[I]表示所有後綴中排第I位的起始位是SA[i] bool compare_sa(int i,int j){ //比較起始位置為i與j的字尾先後 if(ranks[i]!=ranks[j])return ranks[i]<ranks[j]; //rank不同返回小的 else{//如果相同,就要比較加上K位後的那個字元的rank int ri=i+k<=n?ranks[i+k]:-1;//如果到串尾就置-1 int rj=j+k<=n?ranks[j+k]:-1;//如果到串尾就置-1 return ri<rj; }//ranks[i]更新完之後表示第i位開始的字尾在所有後綴中的排名 }////ranks[i]在更新過程中表示第i位開始的長為K的子串在所有長為K的子串中的排名(當然到串末的子串可能不夠K長,那指的就是字尾了 void construct_sa(string s,int *sa){//對串S構造字尾陣列SA:初始化,迴圈更新sa與rank n=s.length(); //讀出其長度 for(int i=0;i<=n;i++){ //初始化sa與ranks陣列 sa[i]=i; //把起始位置下標塞進去(亂塞,反正後面排序) ranks[i]=i<n?s[i]:-1; //rank初始化為其起始字元,空串s[n]優先順序-1最高 } for(k=1;k<=n;k*=2){ //倍增K至大於N即最長字尾排好則結束 sort(sa,sa+n+1,compare_sa); //更新sa,用rank對SA排序,每次以2k長度排序 ranks[sa[0]]=0; //字尾中空串必為第0位,sa[0]必定n,輸出可見全為11 for(int i=1;i<=n;i++)ranks[sa[i]]=ranks[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0); //上一字尾小於當前字尾時排名加1,等於則不加,因上面sort故前面不比後面大 //每一次的rank都是重新計算的,而sa就是不斷對各位起始位對應字尾進行排序 } } bool compare(string s,int *sa,string t){//尋找S中是否出現t對 int a=0,b=s.length(); while(b-a>1){ //二分字尾起始位, int c=(a+b)/2; //下面compare是STL中STRING封裝函式,文末說明 if(s.compare(sa[c],t.length(),t)<0)a=c; //<0則S比T小,故答案排名靠後,左界右移 else b=c; //否則右界左移,這裡包含了相等的情況,在最後再判是否等於0 } return s.compare(sa[b],t.length(),t)==0; } int main(){ string s="abracadabra";construct_sa(s,sa); for(int i=0;i<12;i++)cout<<sa[i]<<' ';cout<<endl; string t="abr"; cout<<compare(s,sa,t)<<endl; return 0; } #include <iostream> #include <string> using namespace std; int main(){ string a("aBcdef");string b("AbcdEf");string c("123456");string d("123dfg"); //下面是各種比較方法,前面減去後面的ASCII碼,>0返回1,<0返回-1,相同返回0 int m=a.compare(b); //完整比較a和b int n=a.compare(1,5,b); //“Bcdef”和“AbcdEf”的比較,比較a和b的從1到5位 int p=a.compare(1,5,b,4,2); //“Bcdef”和“Ef”的比較 int q=c.compare(0,3,d,0,3); //"123"和“123”的比較 cout<<"m="<<m<<",n="<<n<<",p="<<p<<",q="<<q<<endl; return 0; } 輸出:m=1,n=1,p=-1,q=0 補充:height陣列與h陣列 int height[maxn],h[maxn];//height[i]:從SA[i]位開始的字尾與上一排名字尾的LCP,h[i]見下文 int ranks[maxn]; //ranks[i]:第I位開始的字尾的排名 //ranks與SA陣列是對應關係,SA[I]是排第I位的字尾的開始位置 void calheight(int *r,int *sa,int n){//傳入串r,求它的height陣列,已知其rank與sa陣列 int i,j,k=0;//下面由1~N是因為空串在所有後綴中排名必為第0位,sa[0]必定n即開始位置是第N位,ranks[n]本身就等於0所以不記錄 for(i=1;i<=n;i++) ranks[sa[i]]=i;//初始化RANKS,排名第I字尾開始位置對應的字尾排名是i for(i=0;i<n;height[ranks[i++]]=k)//i是r串字元開始位置 //每輪結束更新排名第ranks[i]位的字尾與排名第ranks[i]-1的字尾的LCP為K for(k?k--:0,j=sa[ranks[i]-1] ; r[i+k]==r[j+k] ; k++); //一開始K是零不操作,然後排名第ranks[i]-1位的開始位置記為J,第一輪r[i+k]==r[j+k] //判 R陣列i+k位與j+k位是否相同,同K就增加,不同就退出,K就是最大長度 for(i=1;i<=n;i++)h[i] = height[ranks[i]];//h[i]是排名為i的字尾與排名i-1的字尾的LCP return; } 設suffix(k)是排在suffix(i-1)前一名的字尾,它們的最長公共字首是h[i-1]。 則suffix(k+1)將排在suffix(i)的前面,並且suffix(k+1)和suffix(i)的最長公共字首是h[i-1]-1, 故suffix(i)和在它前一名的字尾的最長公共字首至少是h[i-1]-1 但suffix(k+1)開始的字尾的排名並不一定說是suffix(i)開始的字尾的排名上一位! 舉例設從i-1位開始的字尾的排名為q,從第k位開始的字尾的排名為q-1,LCP=h[i-1] rank[k] = q-1 suffix(k): rabaa rank[i-1] = q suffix(i-1): racadabrabaa h[i-1] = 2; 顯然從i-1位開始的字尾與從第k位開始的字尾,LCP=h[i-1]-1 顯然x<y,但並不一定是相差一,可能排名為y-1的字尾串以acaa開頭的! rank[k+1] = x suffix(k+1): abaa rank[i] = y suffix(i): acadabrabaa h[i] >= h[i-1]-1 = 1; 雖然從第k位開始的字尾排名不一定是從i-1位開始的字尾的排名的前一位,但是因為兩者有LCP=h[i-1]-1,所以從i-1位開始的字尾的排名的前一位的字尾至少也有該LCP長度的字首是相同的