如何更好地理解和掌握 KMP 演算法?

阿新 • • 發佈：2021-06-18

這篇文章是我見過講的最容易理解的，而且即使時間長了忘記了，也能很快的推匯出來。

　　有些演算法，適合從它產生的動機，如何設計與解決問題這樣正向地去介紹。但KMP演算法真的不適合這樣去學。最好的辦法是先搞清楚它所用的資料結構是什麼，再搞清楚怎麼用，最後為什麼的問題就會有恍然大悟的感覺。我試著從這個思路再介紹一下。大家只需要記住一點，PMT是什麼東西。然後自己臨時推這個演算法也是能推出來的，完全不需要死記硬背。

KMP演算法的核心，是一個被稱為部分匹配表(Partial Match Table)的陣列。我覺得理解KMP的最大障礙就是很多人在看了很多關於KMP的文章之後，仍然搞不懂PMT中的值代表了什麼意思。這裡我們拋開所有的枝枝蔓蔓，先來解釋一下這個資料到底是什麼。

對於字串“abababca”，它的PMT如下表所示：

就像例子中所示的，如果待匹配的模式字串有8個字元，那麼PMT就會有8個值。

我先解釋一下字串的字首和字尾。如果字串A和B，存在A=BS，其中S是任意的非空字串，那就稱B為A的字首。例如，”Harry”的字首包括{”H”, ”Ha”, ”Har”, ”Harr”}，我們把所有字首組成的集合，稱為字串的字首集合。同樣可以定義字尾A=SB，其中S是任意的非空字串，那就稱B為A的字尾，例如，”Potter”的字尾包括{”otter”, ”tter”, ”ter”, ”er”, ”r”}，然後把所有後綴組成的集合，稱為字串的字尾集合。要注意的是，字串本身並不是自己的字尾。

有了這個定義，就可以說明PMT中的值的意義了。PMT中的值是字串的字首集合與字尾集合的交集中最長元素的長度。例如，對於”aba”，它的字首集合為{”a”, ”ab”}，字尾集合為{”ba”, ”a”}。兩個集合的交集為{”a”}，那麼長度最長的元素就是字串”a”了，長度為1，所以對於”aba”而言，它在PMT表中對應的值就是1。再比如，對於字串”ababa”，它的字首集合為{”a”, ”ab”, ”aba”, ”abab”}，它的字尾集合為{”baba”, ”aba”, ”ba”, ”a”}，兩個集合的交集為{”a”, ”aba”}，其中最長的元素為”aba”，長度為3。

好了，解釋清楚這個表是什麼之後，我們再來看如何使用這個表來加速字串的查詢，以及這樣用的道理是什麼。如圖 1.12 所示，要在主字串"ababababca"中查詢模式字串"abababca"。如果在 j 處字元不匹配，那麼由於前邊所說的模式字串 PMT 的性質，主字串中 i 指標之前的 PMT[j −1] 位就一定與模式字串的第 0 位至第 PMT[j−1] 位是相同的。這是因為主字串在 i 位失配，也就意味著主字串從 i−j 到 i 這一段是與模式字串的 0 到 j 這一段是完全相同的。而我們上面也解釋了，模式字串從 0 到 j−1 ，在這個例子中就是”ababab”，其字首集合與字尾集合的交集的最長元素為”abab”，長度為4。所以就可以斷言，主字串中i指標之前的 4 位一定與模式字串的第0位至第 4 位是相同的，即長度為 4 的字尾與字首相同。這樣一來，我們就可以將這些字元段的比較省略掉。具體的做法是，保持i指標不動，然後將j指標指向模式字串的PMT[j −1]位即可。

簡言之，以圖中的例子來說，在 i 處失配，那麼主字串和模式字串的前邊6位就是相同的。又因為模式字串的前6位，它的前4位字首和後4位字尾是相同的，所以我們推知主字串i之前的4位和模式字串開頭的4位是相同的。就是圖中的灰色部分。那這部分就不用再比較了。

有了上面的思路，我們就可以使用PMT加速字串的查找了。我們看到如果是在 j 位失配，那麼影響 j 指標回溯的位置的其實是第 j −1 位的 PMT 值，所以為了程式設計的方便，我們不直接使用PMT陣列，而是將PMT陣列向後偏移一位。我們把新得到的這個陣列稱為next陣列。下面給出根據next陣列進行字串匹配加速的字串匹配程式。其中要注意的一個技巧是，在把PMT進行向右偏移時，第0位的值，我們將其設成了-1，這只是為了程式設計的方便，並沒有其他的意義。在本節的例子中，next陣列如下表所示。

具體的程式如下所示：

int KMP(char * t, char * p) 
{
    int i = 0; 
    int j = 0;

    while (i < strlen(t) && j < strlen(p))
    {
        if (j == -1 || t[i] == p[j]) 
        {
            i++;
                   j++;
        }
         else 
                   j = next[j];
        }

    if (j == strlen(p))
       return i - j;
    else 
       return -1;
}

好了，講到這裡，其實KMP演算法的主體就已經講解完了。你會發現，其實KMP演算法的動機是很簡單的，解決的方案也很簡單。遠沒有很多教材和演算法書裡所講的那麼亂七八糟，只要搞明白了PMT的意義，其實整個演算法都迎刃而解。

現在，我們再看一下如何程式設計快速求得next陣列。其實，求next陣列的過程完全可以看成字串匹配的過程，即以模式字串為主字串，以模式字串的字首為目標字串，一旦字串匹配成功，那麼當前的next值就是匹配成功的字串的長度。

具體來說，就是從模式字串的第一位(注意，不包括第0位)開始對自身進行匹配運算。在任一位置，能匹配的最長長度就是當前位置的next值。如下圖所示。

求next陣列值的程式如下所示：

void getNext(char * p, int * next)
{
    next[0] = -1;
    int i = 0, j = -1;

    while (i < strlen(p))
    {
        if (j == -1 || p[i] == p[j])
        {
            ++i;
            ++j;
            next[i] = j;
        }    
        else
            j = next[j];
    }
}

至此，KMP演算法就全部介紹完了。

如何更好地理解和掌握 KMP 演算法?

如何更好地理解和掌握 KMP 演算法?

蘋果正訓練 Siri，讓其更好地理解口吃使用者

理清javascript中prototype、proto、Object、Function的關係，更好地理解原型繼承

使用pg_stat_monitor擴充套件更好地理解postgresql的負載

愛奇藝針對“會員專屬廣告”解答：為了更好地向用戶做推薦，感謝理解

微軟和英特爾合作，更好地檢測加密貨幣挖礦惡意軟體

如何更好地謀生，從事嵌入式軟體開發五年的感悟和職業焦慮

可解釋的AI (XAI)：如何使用LIME 和 SHAP更好地解釋模型的預測

如何在測試中更好地使用mock

幫助你更好的理解Spring迴圈依賴

分享8個JavaScript庫可更好地處理本地儲存

列舉幾個簡單的例子來更好的理解scrapy工作的原理

女性營銷頻頻翻車：搞懂“女性凝視”可更好地勝任科技領域工作

北鯤雲超算平臺——讓科技更好地服務於使用者

輕鬆調整，提升寫作效率，讓 Word 更好地為你所用

如何更好地提高工作效率?用便籤來縮短工作時間

特斯拉推出安全評分系統：鼓勵司機安全駕駛，更好地進行 FSD 測試專案

Epic：將免費向開發者提供“家長驗證服務”，更好地保護兒童

虛擬機器軟體 Parallels Desktop for Mac 釋出 17.1 版本更新：預設支援 vTPM，可更好地執行 Win11 系統等

谷歌官方詳解 Android 12L：更好地適配大螢幕裝置

如何更好地理解和掌握 KMP 演算法?

相關推薦