轉自知乎-我見過最通俗易懂的KMP演算法詳解

阿新 • • 發佈：2018-12-30

有些演算法，適合從它產生的動機，如何設計與解決問題這樣正向地去介紹。但KMP演算法真的不適合這樣去學。最好的辦法是先搞清楚它所用的資料結構是什麼，再搞清楚怎麼用，最後為什麼的問題就會有恍然大悟的感覺。我試著從這個思路再介紹一下。大家只需要記住一點，PMT是什麼東西。然後自己臨時推這個演算法也是能推出來的，完全不需要死記硬背。KMP演算法的核心，是一個被稱為部分匹配表(Partial Match Table)的陣列。我覺得理解KMP的最大障礙就是很多人在看了很多關於KMP的文章之後，仍然搞不懂PMT中的值代表了什麼意思。這裡我們拋開所有的枝枝蔓蔓，先來解釋一下這個資料到底是什麼。對於字串“abababca”，它的PMT如下表所示：

就像例子中所示的，如果待匹配的模式字串有8個字元，那麼PMT就會有8個值。

我先解釋一下字串的字首和字尾。如果字串A和B，存在A=BS，其中S是任意的非空字串，那就稱B為A的字首。例如，”Harry”的字首包括{”H”, ”Ha”, ”Har”, ”Harr”}，我們把所有字首組成的集合，稱為字串的字首集合。同樣可以定義字尾A=SB，其中S是任意的非空字串，那就稱B為A的字尾，例如，”Potter”的字尾包括{”otter”, ”tter”, ”ter”, ”er”, ”r”}，然後把所有後綴組成的集合，稱為字串的字尾集合。要注意的是，字串本身並不是自己的字尾。

有了這個定義，就可以說明PMT中的值的意義了。PMT中的值是字串的字首集合與字尾集合的交集中最長元素的長度

。例如，對於”aba”，它的字首集合為{”a”, ”ab”}，字尾集合為{”ba”, ”a”}。兩個集合的交集為{”a”}，那麼長度最長的元素就是字串”a”了，長度為1，所以對於”aba”而言，它在PMT表中對應的值就是1。再比如，對於字串”ababa”，它的字首集合為{”a”, ”ab”, ”aba”, ”abab”}，它的字尾集合為{”baba”, ”aba”, ”ba”, ”a”}，兩個集合的交集為{”a”, ”aba”}，其中最長的元素為”aba”，長度為3。

好了，解釋清楚這個表是什麼之後，我們再來看如何使用這個表來加速字串的查詢，以及這樣用的道理是什麼。如圖 1.12 所示，要在主字串"ababababca"中查詢模式字串"abababca"。如果在 j 處字元不匹配，那麼由於前邊所說的模式字串 PMT 的性質，主字串中 i 指標之前的 PMT[j −1] 位就一定與模式字串的第 0 位至第 PMT[j−1] 位是相同的。這是因為主字串在 i 位失配，也就意味著主字串從 i−j 到 i 這一段是與模式字串的 0 到 j 這一段是完全相同的。而我們上面也解釋了，模式字串從 0 到 j−1 ，在這個例子中就是”ababab”，其字首集合與字尾集合的交集的最長元素為”abab”，長度為4。所以就可以斷言，主字串中i指標之前的 4 位一定與模式字串的第0位至第 4 位是相同的，即長度為 4 的字尾與字首相同。這樣一來，我們就可以將這些字元段的比較省略掉。具體的做法是，保持i指標不動，然後將j指標指向模式字串的PMT[j −1]位即可。

簡言之，以圖中的例子來說，在 i 處失配，那麼主字串和模式字串的前邊6位就是相同的。又因為模式字串的前6位，它的前4位字首和後4位字尾是相同的，所以我們推知主字串i之前的4位和模式字串開頭的4位是相同的。就是圖中的灰色部分。那這部分就不用再比較了。

有了上面的思路，我們就可以使用PMT加速字串的查找了。我們看到如果是在 j 位失配，那麼影響 j 指標回溯的位置的其實是第 j −1 位的 PMT 值，所以為了程式設計的方便，我們不直接使用PMT陣列，而是將PMT陣列向後偏移一位。我們把新得到的這個陣列稱為next陣列。下面給出根據next陣列進行字串匹配加速的字串匹配程式。其中要注意的一個技巧是，在把PMT進行向右偏移時，第0位的值，我們將其設成了-1，這只是為了程式設計的方便，並沒有其他的意義。在本節的例子中，next陣列如下表所示。

int KMP(char * t, char * p) 
{
	int i = 0; 
	int j = 0;

	while (i < strlen(t) && j < strlen(p))
	{
		if (j == -1 || t[i] == p[j]) 
		{
			i++;
           		j++;
		}
	 	else 
           		j = next[j];
    	}

    if (j == strlen(p))
       return i - j;
    else 
       return -1;
}

好了，講到這裡，其實KMP演算法的主體就已經講解完了。你會發現，其實KMP演算法的動機是很簡單的，解決的方案也很簡單。遠沒有很多教材和演算法書裡所講的那麼亂七八糟，只要搞明白了PMT的意義，其實整個演算法都迎刃而解。

現在，我們再看一下如何程式設計快速求得next陣列。其實，求next陣列的過程完全可以看成字串匹配的過程，即以模式字串為主字串，以模式字串的字首為目標字串，一旦字串匹配成功，那麼當前的next值就是匹配成功的字串的長度。

具體來說，就是從模式字串的第一位(注意，不包括第0位)開始對自身進行匹配運算。在任一位置，能匹配的最長長度就是當前位置的next值。如下圖所示。

求next陣列值的程式如下所示：

void getNext(char * p, int * next)
{
	next[0] = -1;
	int i = 0, j = -1;

	while (i < strlen(p))
	{
		if (j == -1 || p[i] == p[j])
		{
			++i;
			++j;
			next[i] = j;
		}	
		else
			j = next[j];
	}
}

作者：海納
連結：https://www.zhihu.com/question/21923021/answer/281346746
來源：知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

轉自知乎-我見過最通俗易懂的KMP演算法詳解

轉自知乎-我見過最通俗易懂的KMP演算法詳解

我見過最通俗易懂的快速排序過程講解，轉自《坐在馬桶上看演算法：快速排序》

這是我見過最通俗易懂的Python入門之函式！

最全的最通俗易懂的演算法——排序演算法【1】

"二分法"-"折半法"-查詢演算法-之通俗易懂,圖文+程式碼詳解-java程式設計

通俗易懂的KMP演算法詳解（嚴蔚敏版C語言）

圖的最小生成樹prim演算法詳解

網路最大流-ISAP演算法詳解與模板

C4.5演算法詳解（至今見過寫的最好的演算法詳解）

最小生成樹-MST演算法詳解及程式碼實現

什麼是區塊鏈?這是我見過的最通俗易懂的解釋

極大似然估計與最小二乘法(轉自知乎)

史上最通俗易懂的理解雲計算

IGBT工作原理---轉自知乎

回調函數轉自知乎

攝像機標定--我見過最懶的方法

這是我見過最牛X的Java架構進階學習路線圖，沒有之一！

最通俗易懂的理解什麼是資料庫

最通俗易懂的NIO原理解釋

史上最通俗易懂的IPFS入門介紹：01

轉自知乎-我見過最通俗易懂的KMP演算法詳解

相關推薦