1. 程式人生 > >最長回文串之馬拉車

最長回文串之馬拉車

改變 targe 尋找 name itl 中心 main vector space

這個馬拉車算法Manacher‘s Algorithm是用來查找一個字符串的最長回文子串的線性方法,由一個叫Manacher的人在1975年發明的,這個方法的最大貢獻是在於將時間復雜度提升到了線性,這是非常了不起的。對於回文串想必大家都不陌生,就是正讀反讀都一樣的字符串,比如 "bob", "level", "noon" 等等,那麽如何在一個字符串中找出最長回文子串呢,可以以每一個字符為中心,向兩邊尋找回文子串,在遍歷完整個數組後,就可以找到最長的回文子串。但是這個方法的時間復雜度為O(n*n),並不是很高效,下面我們來看時間復雜度為O(n)的馬拉車算法。

由於回文串的長度可奇可偶,比如"bob"是奇數形式的回文,"noon"就是偶數形式的回文,馬拉車算法的第一步是預處理,做法是在每一個字符的左右都加上一個特殊字符,比如加上‘#‘,那麽

bob --> #b#o#b#

noon --> #n#o#o#n#

這樣做的好處是不論原字符串是奇數還是偶數個,處理之後得到的字符串的個數都是奇數個,這樣就不用分情況討論了,而可以一起搞定。接下來我們還需要和處理後的字符串t等長的數組p,其中p[i]表示以t[i]字符為中心的回文子串的半徑,若p[i] = 1,則該回文子串就是t[i]本身,那麽我們來看一個簡單的例子:

# 1 # 2 # 2 # 1 # 2 # 2 #
1 2 1 2 5 2 1 6 1 2 3 2 1

為啥我們關心回文子串的半徑呢?看上面那個例子,以中間的 ‘1‘ 為中心的回文子串 "#2#2#1#2#2#" 的半徑是6,而未添加#號的回文子串為 "22122",長度是5,為半徑減1。這是個普遍的規律麽?我們再看看之前的那個 "#b#o#b#",我們很容易看出來以中間的 ‘o‘ 為中心的回文串的半徑是4,而 "bob"的長度是3,符合規律。再來看偶數個的情況"noon",添加#號後的回文串為 "#n#o#o#n#",以最中間的 ‘#‘ 為中心的回文串的半徑是5,而 "noon" 的長度是4,完美符合規律。所以我們只要找到了最大的半徑,就知道最長的回文子串的字符個數了。只知道長度無法定位子串,我們還需要知道子串的起始位置。

我們還是先來看中間的 ‘1‘ 在字符串 "#1#2#2#1#2#2#" 中的位置是7,而半徑是6,貌似7-6=1,剛好就是回文子串 "22122" 在原串 "122122" 中的起始位置1。那麽我們再來驗證下 "bob","o" 在 "#b#o#b#" 中的位置是3,但是半徑是4,這一減成負的了,肯定不對。所以我們應該至少把中心位置向後移動一位,才能為0啊,那麽我們就需要在前面增加一個字符,這個字符不能是#號,也不能是s中可能出現的字符,所以我們暫且就用美元號吧,畢竟是博主最愛的東西嘛。這樣都不相同的話就不會改變p值了,那麽末尾要不要對應的也添加呢,其實不用的,不用加的原因是字符串的結尾標識為‘\0‘,等於默認加過了。那此時 "o" 在 "$#b#o#b#" 中的位置是4,半徑是4,一減就是0了,貌似沒啥問題。我們再來驗證一下那個數字串,中間的 ‘1‘ 在字符串 "$#1#2#2#1#2#2#" 中的位置是8,而半徑是6,這一減就是2了,而我們需要的是1,所以我們要除以2。之前的 "bob" 因為相減已經是0了,除以2還是0,沒有問題。再來驗證一下 "noon",中間的 ‘#‘ 在字符串 "$#n#o#o#n#" 中的位置是5,半徑也是5,相減並除以2還是0,完美。可以任意試試其他的例子,都是符合這個規律的,最長子串的長度是半徑減1,起始位置是中間位置減去半徑再除以2。

那麽下面我們就來看如何求p數組,需要新增兩個輔助變量mx和id,其中id為能延伸到最右端的位置的那個回文子串的中心點位置,mx是回文串能延伸到的最右端的位置,這個算法的最核心的一行如下:

p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1;

可以這麽說,這行要是理解了,那麽馬拉車算法基本上就沒啥問題了,那麽這一行代碼拆開來看就是

如果 mx > i, 則 p[i] = min( p[2 * id - i] , mx - i )

否則,p[i] = 1

當 mx - i > P[j] 的時候,以S[j]為中心的回文子串包含在以S[id]為中心的回文子串中,由於 i 和 j 對稱,以S[i]為中心的回文子串必然包含在以S[id]為中心的回文子串中,所以必有 P[i] = P[j],其中 j = 2*id - i,因為 j 到 id 之間到距離等於 id 到 i 之間到距離,為 i - id,所以 j = id - (i - id) = 2*id - i,參見下圖。

技術分享圖片

當 P[j] >= mx - i 的時候,以S[j]為中心的回文子串不一定完全包含於以S[id]為中心的回文子串中,但是基於對稱性可知,下圖中兩個綠框所包圍的部分是相同的,也就是說以S[i]為中心的回文子串,其向右至少會擴張到mx的位置,也就是說 P[i] = mx - i。至於mx之後的部分是否對稱,就只能老老實實去匹配了,這就是後面緊跟到while循環的作用。


技術分享圖片

對於 mx <= i 的情況,無法對 P[i]做更多的假設,只能P[i] = 1,然後再去匹配了。

參見如下實現代碼:

技術分享圖片
#include <vector>
#include <iostream>
#include <string>

using namespace std;

string Manacher(string s) {
    // Insert ‘#‘
    string t = "$#";
    for (int i = 0; i < s.size(); ++i) {
        t += s[i];
        t += "#";
    }
    // Process t
    vector<int> p(t.size(), 0);
    int mx = 0, id = 0, resLen = 0, resCenter = 0;
    for (int i = 1; i < t.size(); ++i) {
        p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1;
        while (t[i + p[i]] == t[i - p[i]]) ++p[i];
        if (mx < i + p[i]) {
            mx = i + p[i];
            id = i;
        }
        if (resLen < p[i]) {
            resLen = p[i];
            resCenter = i;
        }
    }
    return s.substr((resCenter - resLen) / 2, resLen - 1);
}

int main() {
    string s1 = "12212";
    cout << Manacher(s1) << endl;
    string s2 = "122122";
    cout << Manacher(s2) << endl;
    string s = "waabwswfd";
    cout << Manacher(s) << endl;
}
技術分享圖片

最長回文串之馬拉車