字串的模式匹配：Sunday 演算法

阿新 • • 發佈：2019-02-02

　　Sunday演算法是Daniel M.Sunday於1990年提出的字串模式匹配。其核心思想是：在匹配過程中，模式串發現不匹配時，演算法能跳過儘可能多的字元以進行下一步的匹配，從而提高了匹配效率。其效率在匹配隨機的字串時比其他匹配演算法還要更快。Sunday演算法的實現可比KMP，BM的實現容易太多。
　　要理解Sunday演算法，建議先閱讀《字串的模式匹配： BF演算法》、《字串的模式匹配：KMP演算法》、《字串的模式匹配：BM演算法》
　　時間複雜度：最差情況O（MN），最好情況O（N）

演算法思想：

　　在匹配過程中，先從左到右逐個字元比較，當模式串發現不匹配時，跳過儘可能多的字元以進行下一步的匹配，從而提高了匹配效率。
　　模式串向後位移：字串和模式串同時移動的長度 + 模式串的長度 - 該字元在模式串中出現的第一個位置(從右向左尋找模式串，如果尋找不到則為-1)。

　　開始的時候，讓字串”T”的第一個字元T[0]和模式串”P”的第一個字元P[0]匹配，如果不匹配。以字串出現在模式串後面的位置n，取T[n]字元，找到該字元在模式串字元的的位置k，並將模式串p[k]字元與T[n]對齊，即模式串向後位移n-k；若在模式串中找不到T[n]字元，則將模式串p[0]與字串T[n]對齊，模式串向後以模式串長度位移。位移後再比對P[0]和T[N], 按照上述過程依此匹配。
　　下面還是看一下實際的匹配過程，道理可能講的是不夠清晰。

匹配過程：

假設有字串和模式串如下：
字串T: “Lessons tearned en software te”
模式串P:

“software”
模式串P的長度為8。字串T的長度為30。

1、首先字串T和模式串P首字元對齊。如下：

Lessons tearned en software te
software

2、然後T[0]和P[0]字元匹配，也就是”L”和”s”, 這個時候不匹配；根據Sunday演算法要求，以字串出現在模式串後面的位置n，取T[n]字元，找到T[n]即T[8]字元”t”位於模式串P中從後向前查找出現的第一個位置，即模式串的P[3]。模式串向後位移：字串和模式串同時移動的長度 + 模式串的長度 - 該字元在模式串中出現的第一個位置。模式串移動位數 = 0 + 8 - 3 = 5位，位移5位後T[8]與P[3]對齊後得到如下結果：

Lessons tearned en software te
     software

3、比對T[5]和P[0]，也就是”n”和”s”, 這個時候不匹配，再次尋找字串中在模式串後面的那個字元在模式串中出現的位置。也就是字串的tearned 中的”e”,並且尋找”e”在模式串出現的位置，也就是模式串的P[7]位置。此時模式串位移 = 0 + 8 - 7 = 1位。位移後得到結果：

Lessons tearned en software te
      software

4、此時，對比T[6]和P[0]，也就是”s”和”s”, 發現字元匹配。那麼字串和模式串同時向後移1位。對比T[6+1]和P[0+1]，也就是字串的” “和模式串的”o”，發現再次不匹配。找到字串在模式串後移1位T[6+1+8]的字元” “, 尋找字元”d”在模式串的位置，發現模式串中不存在d，也就是說。模式串移動位數 = 1 + 8 - (-1) = 10, 移動結果如下：

Lessons tearned en software te
                software

5、依此類推，直到找到匹配的位置，或者到達字串的末尾。

再假設有字串和模式串如下：
字串T: “Lessonsotearned en software te”
模式串P: “software”
模式串T的長度為8。字串T的長度為30。
其匹配過程，第1、2、3步與上訴例子的1、2、3不一樣，執行後位移如下：

Lessonsotearned en software te
      software

那麼如上對齊後，匹配字串T[6]與模式串P[0]，也就是”s”和”s”, 匹配一致。那麼字串T和模式串P後移1位，匹配字串T[6+1]與模式串P[0+1]，也就是”o”和”o”, 匹配一致。那麼字串T和模式串P再次後移1位，匹配字串T[6+1+1]與模式串P[0+1+1]，也就是”t”和”f”不一致。所以模式串移動位數 = 2 + 8 - 7 = 3，得到結果如下：

Lessonsotearned en software te
         software

直到找到匹配的位置，或者到達字串的末尾。

具體實現（java）：

    /// <summary>
    /// 通過Sunday查詢演算法,查詢text串中pattern字串的第一次出現的位置,沒查詢到返回-1
    /// </summary>
    /// <param name="text">目標(源)串</param>
    /// <param name="pattern">匹配串</param>
    /// <returns>int,返回第一次出現的索引.返回-1表示沒有找到.</returns>
    public static int sundaySearch(char[] text, char[] pattern){
        int i = 0, j = 0, k;/*分別記錄text索引,pattern索引還有,串匹配計數時索引*/
        int tl, pl;/*分別記錄字串text和pattern的長度*/
        int pe;/*分別記錄text匹配pattern最後的索引的下一個索引*/
        int rev=-1;/*記錄返回的索引值,否則無法返回*/

        /*非法情況,直接返回-1*/
        if ((text == null) || (pattern == null) || (tl = text.length) < (pl = pattern.length))
            return -1;

        while (i < tl && j < pl) {
            /* 匹配正確就僅繼續匹配 */
            if (text[i] == pattern[j]) {
                ++i;
                ++j;
                continue;
            }
            pe = i + pl;
            /* 匹配失敗,移動i和j索引值,為下一次匹配做準備 */
            if (pe >= tl) /* 當下一次的位置已經超過text的長度時,返回-1表示沒有找到 */
                return -1;
            for (k = pl - 1; k >= 0 && text[pe] != pattern[k]; --k)
                ;
            i += (pl - k);// (pl - k)表示i需要移動的步長
            rev = i;// 記錄當前的索引
            j = 0;/* j重新開始 */
            // System.out.println("總移動位數:" + rev);
        }
        return i <= tl ? rev : -1;
    }

字串的模式匹配：Sunday 演算法

演算法思想：

匹配過程：

具體實現（java）：

字串的模式匹配：Sunday 演算法

字串模式匹配中BF演算法和KMP演算法的java實現

演算法4-6：KMP字串模式匹配演算法實現（c語言）

演算法：模式匹配之KMP演算法

字串匹配的Sunday演算法--效能上超過KMP和BM演算法

字串模式匹配（簡單模式匹配演算法與KMP演算法）（一）

字串模式匹配KMP演算法

字串模式匹配--布魯特.福斯演算法視訊講解

kmp字串模式匹配中next函式值的演算法

串的比較與模式匹配（BF演算法）

模式識別：遺傳演算法

【模式匹配】KMP演算法的來龍去脈

串的模式匹配（BF演算法，KMP演算法）

c/c++程式之_KMP字串模式匹配詳解（非常不錯的詳解）

簡單講解KMP單模式匹配與AC演算法多模式匹配（KMP篇）

字串模式匹配——KMP

【資料結構與演算法】模式匹配——從BF演算法到KMP演算法（附完整原始碼）

Sunday演算法：最快的字串匹配演算法

資料結構- 串的模式匹配演算法： KMP演算法

ACM-字串-模式串匹配-KMP演算法

字串的模式匹配：Sunday 演算法

演算法思想：

匹配過程：

具體實現（java）：

相關推薦