1. 程式人生 > >劉汝佳藍書後綴陣列模板解釋及補全

劉汝佳藍書後綴陣列模板解釋及補全

      相信很多初學字尾陣列的ACMer在學習藍書中的字尾陣列部分遇到了一些障礙,可能像我一樣看明白了P219 ——220的講解和演算法,百度了基數排序的方法,然後被卡在P221的程式碼上了,本文目的即分享我對這段程式碼的理解。

      首先明確其中每個變數的含義,n為字串s的長度,m為字串中可能包含的最大字元值+1(故一開始應置為'z' + 1),sa陣列存的是P220四幅圖中每一幅結束時最下面一行的最終排名對應情況(!!“排名對應情況”看不懂下面還有解釋),y陣列存的是後三幅圖中二元組的第二元的排名對應情況(第一幅沒有第二元),x[i]表示第i種字元/二元組對應的編號,c[i]表示第0種到第i種字元/二元組的總數量。

      先解釋清楚排名對應情況的含義,以P220第二幅圖為例,最終排名結果為1 2 4 1 1 1 2 3 ,那麼他的排名對應情況為0 3 4 5 1 6 7 2,這是怎麼對應的呢?就是先把排名第1的位置下標放在最前面,也就是0 3 4 5,然後再把排第2的下標放前面,就是1 6 ,然後把排第三......

     下面只以k第一次迴圈時的情況說明整段程式碼。

     33 到37行用x陣列統計各類字元的種類,用c陣列統計每種字元出現的次數,然後用sa陣列把他們依次裝入,裝的時候就是基數排序從木桶裡將每一個數拿出來然後放到相應的位置的過程,裝完以後sa的內容就是前文所說的第一幅圖中最後一行的排名對應情況,此時0 —— 7 七個下標正好在sa中各出現一次。

     接下來進入了k的迴圈,k的含義是什麼呢,以第二幅圖為例,第二行每個二元組頭上都有條豎線和一條斜線,斜線所指的位置比豎線指的大k,對,k就是這個意思,可以代入第三四幅圖中,也就是k迴圈的二三次,來看看是不是這樣。

    下面要排序二元組的第二關鍵字,然後把排名裝入y陣列,我們看第二幅圖的中間一行,二元組的第二關鍵字從左至右依次為 1 2 1 1 1 1 2 0,所以排名對應情況為7 0 2 3 4 5 1 6,那麼怎麼實現這個排序呢?程式碼39——41行,為的是把0對應的位置先裝進y數組裡,接下來42——45,是把剩下的放進y陣列。42——45是怎麼做到把剩下的放進去的?看P220的第二幅圖,第一行的數字就是第一幅圖的最後一行數字,而第一幅圖最後一行數字的排名對應情況

已經放到sa數組裡,sa[i] - k表示的是一種對應關係:第二幅圖的第一行裡第i個數字,對應到第二行的第i - k個數字的第二元,只要明白了這種對應關係,程式碼為什麼這麼寫,琢磨一下就可以明白了。

    第46到第52行是排序第一關鍵字,這裡面比較難理解的是51——52行,首先要倒著迴圈是因為i大的y[i]是第二元比較大的,所以第一元相同時要先放第二元比較大的,因此要倒著迴圈。那麼第y[i]個數應該放哪呢?從第二幅圖中看到,第二行中第y[i]個二元組對應的第一元是第一行中的第y[i]個數,第一行中第y[i]個數的排名就是當前的sa[- -c[x[y[i]]]](為什麼?x[y[i]]表示y[i]的種類,c[x[y[i]]]表示放到第x[y[i]]種已經放了多少個,不斷- -使得大小相同的x[y[i]]排出先後,所以第y[i]個二元組放在sa裡是sa[--c[x[y[i] ] ] ])。

   54——58行中,p代表的是不同的二元組的數量,如果p >= n,則build_sa結束,現在sa中已經排完序,所以相等的二元組在sa裡只可能相鄰,56行為的就是判斷有多少相鄰且不等的二元組,這樣來統計這樣排序之後不同的二元組的數量p,59行如果演算法未結束將二元組的種類m更新為p。

至此,build_sa部分的程式碼解釋完了,其他部分的程式碼相對來說要更好理解,先給出補全版的全部程式碼。

#pragma warning(disable:4786)
#pragma comment(linker, "/STACK:102400000,102400000")
#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
#include<stack>
#include<queue>
#include<map>
#include<set>
#include<vector>
#include<cmath>
#include<string>
#include<sstream>
#define LL long long
#define FOR(i,f_start,f_end) for(int i=f_start;i<=f_end;++i)
#define mem(a,x) memset(a,x,sizeof(a))
#define lson l,m,x<<1
#define rson m+1,r,x<<1|1
using namespace std;
const int INF = 0x3f3f3f3f;
const int mod = 1e9 + 7;
const double PI = acos(-1.0);
const double eps = 1e-8;
const int maxn = 1e4 + 5;
const int maxs = 20;
char s[maxn];
int sa[maxn], t[maxn], t2[maxn], c[maxn], n , m;
int d[maxn][maxs];
int height[maxn], rank[maxn];
void build_sa(int m)
{
	int i, *x = t, *y = t2;
	for ( i = 0; i < m; i++)		c[i] = 0;
	for ( i = 0; i < n; i++)		c[x[i] = s[i]]++;
	for ( i = 1; i < m; i++)	c[i] += c[i - 1];
	for (i = n - 1; i >= 0; i--)	sa[--c[x[i]]] = i;
	for (int k = 1; k <= n; k <<= 1){
		int p = 0;
		for (i = n - k; i < n; i++)
			y[p++] = i;
		for (i = 0; i < n; i++){
			if (sa[i] >= k)
				y[p++] = sa[i] - k;
		}
		for (i = 0; i < m; i++)	c[i] = 0;
		for (i = 0; i < n; i++)
			c[x[y[i]]]++;
		for (i = 0; i < m; i++)
			c[i] += c[i - 1];
		for (i = n - 1; i >= 0; i--)
			sa[--c[x[y[i]]]] = y[i];
		swap(x, y);
		p = 1;	x[sa[0]] = 0;
		for (i = 1; i < n; i++){
			x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + k] == y[sa[i] + k] ? p - 1 : p++;
		}
		if (p >= n)	break;
		m = p;
	}
}
int cmp_suffix(char *pattern, int p)
{
	return strncmp(pattern, s + sa[p], m);
}
int find(char *P)
{
	m = strlen(P);
	if (cmp_suffix(P, 0) < 0)	return -1;
	if (cmp_suffix(P, n - 1)>0)	return -1;
	int left = 0, right = n - 1 , mid;
	while (left <= right){
		mid = left + (right - left) / 2;
		int res = cmp_suffix(P, mid);
		if (!res)	return mid;
		if (res < 0)		right = mid - 1;
		else                left = mid + 1;
	}
	return -1;
}
void getHeight()
{
	int i, j, k = 0;
	for (i = 0; i < n; i++)	rank[sa[i]] = i;
	for (i = 0; i < n; i++){
		if (k)	k--;
		 j = sa[rank[i] - 1];
		while (s[i + k] == s[j + k])	k++;
		height[rank[i]] = k;
	}
}
void RMQ_init()
{
    for(int i = 0 ; i<n; i++)       d[i][0] = sa[i];
    for(int j = 1 ; (1<<j) - 1 <=n ; j++){
        for(int i = 0 ; i + (1<<j) - 1 < n ; i++){
            d[i][j] = min(d[i][j-1] , d[i + (1<< (j - 1))][ j -1 ]);
        }
    }
}
int RMQ(int L , int R)
{
    int k = 0;
    while((1<<(k + 1)) <= R - L + 1)    k++;
    return min(d[L][k] , d[R - (1 << k) + 1][k]);
}
int main()
{
	char query[1005];
	scanf("%s", s);
	n = strlen(s);
	build_sa('z' + 1 );
	while (scanf("%s", query) == 1){
		int ans = find(query);
		printf("%d\n", ans);
	}
	return 0;
}