字串匹配——樸素演算法、KMP演算法

阿新 • • 發佈：2018-12-25

字串匹配（string match)是在實際工程中經常會碰到的問題，通常其輸入是原字串(String)和子串（又稱模式，Pattern)組成，輸出為子串在原字串中的首次出現的位置。通常精確的字串搜尋演算法包括樸素搜尋演算法，KMP, BM(Boyer Moore), sunday, robin-karp 以及 bitap。下面分析樸素搜尋演算法和KMP這兩種方法並給出其實現。假設原字元T串長度N，子串P長度為M。

1.NAIVE—STRING—MATCHING.

樸素演算法，該方法又稱暴力搜尋，也是最容易想到的方法。

預處理時間 O(0)

匹配時間複雜度O(N*M)

主要過程：從原字串開始搜尋，若出現不能匹配，則從原搜尋位置+1繼續。

程式碼如下：

void NAIVE_STRING_MATCHING(string T,string P)
{
int n=T.size();
int m=P.size();
int i;
for (int s=0;s<n-m;s++)
{
for (i=0;i<m;i++)
{
if (P[i]!=T[s+i])
{
break;
}
}
if (i==m)
{
cout<<"pattern occurs with shift "<<s<<endl;
}
}
}

2.Knuth—Morris—Pratt演算法

簡稱KMP演算法，舉例來說，有一個字串”BBC ABCDAB ABCDABCDABDE”，我想知道，裡面是否包含另一個字串”ABCDABD”？

許多演算法可以完成這個任務，Knuth-Morris-Pratt演算法（簡稱KMP）是最常用的之一。它以三個發明者命名，起頭的那個K就是著名科學家Donald Knuth。

這種演算法不太容易理解，網上有很多解釋，但讀起來都很費勁。直到讀到Jake Boxer的文章，我才真正理解這種演算法。下面，我用自己的語言，試圖寫一篇比較好懂的KMP演算法解釋。

首先，字串”BBC ABCDAB ABCDABCDABDE”的第一個字元與搜尋詞”ABCDABD”的第一個字元，進行比較。因為B與A不匹配，所以搜尋詞後移一位。

因為B與A不匹配，搜尋詞再往後移。

就這樣，直到字串有一個字元，與搜尋詞的第一個字元相同為止。

接著比較字串和搜尋詞的下一個字元，還是相同。

直到字串有一個字元，與搜尋詞對應的字元不相同為止。

這時，最自然的反應是，將搜尋詞整個後移一位，再從頭逐個比較。這樣做雖然可行，但是效率很差，因為你要把”搜尋位置”移到已經比較過的位置，重比一遍。

一個基本事實是，當空格與D不匹配時，你其實知道前面六個字元是”ABCDAB”。KMP演算法的想法是，設法利用這個已知資訊，不要把”搜尋位置”移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。

怎麼做到這一點呢？可以針對搜尋詞，算出一張《部分匹配表》（Partial Match Table）。這張表是如何產生的，後面再介紹，這裡只要會用就可以了。

已知空格與D不匹配時，前面六個字元”ABCDAB”是匹配的。查表可知，最後一個匹配字元B對應的”部分匹配值”為2，因此按照下面的公式算出向後移動的位數：

　　移動位數 = 已匹配的字元數 – 對應的部分匹配值

因為 6 – 2 等於4，所以將搜尋詞向後移動4位。

10.

因為空格與Ｃ不匹配，搜尋詞還要繼續往後移。這時，已匹配的字元數為2（”AB”），對應的”部分匹配值”為0。所以，移動位數 = 2 – 0，結果為 2，於是將搜尋詞向後移2位。

11.

因為空格與A不匹配，繼續後移一位。

12.

逐位比較，直到發現C與D不匹配。於是，移動位數 = 6 – 2，繼續將搜尋詞向後移動4位。

13.

逐位比較，直到搜尋詞的最後一位，發現完全匹配，於是搜尋完成。如果還要繼續搜尋（即找出全部匹配），移動位數 = 7 – 0，再將搜尋詞向後移動7位，這裡就不再重複了。

14.

下面介紹《部分匹配表》是如何產生的。

首先，要了解兩個概念：”字首”和”字尾”。 “字首”指除了最後一個字元以外，一個字串的全部頭部組合；”字尾”指除了第一個字元以外，一個字串的全部尾部組合。

15.

“部分匹配值”就是”字首”和”字尾”的最長的共有元素的長度。以”ABCDABD”為例，

　　－　”A”的字首和字尾都為空集，共有元素的長度為0；

－　”AB”的字首為[A]，字尾為[B]，共有元素的長度為0；

－　”ABC”的字首為[A, AB]，字尾為[BC, C]，共有元素的長度0；

－　”ABCD”的字首為[A, AB, ABC]，字尾為[BCD, CD, D]，共有元素的長度為0；

－　”ABCDA”的字首為[A, AB, ABC, ABCD]，字尾為[BCDA, CDA, DA, A]，共有元素為”A”，長度為1；

－　”ABCDAB”的字首為[A, AB, ABC, ABCD, ABCDA]，字尾為[BCDAB, CDAB, DAB, AB, B]，共有元素為”AB”，長度為2；

－　”ABCDABD”的字首為[A, AB, ABC, ABCD, ABCDA, ABCDAB]，字尾為[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度為0。

16.

“部分匹配”的實質是，有時候，字串頭部和尾部會有重複。比如，”ABCDAB”之中有兩個”AB”，那麼它的”部分匹配值”就是2（”AB”的長度）。搜尋詞移動的時候，第一個”AB”向後移動4位（字串長度-部分匹配值），就可以來到第二個”AB”的位置。

KMP演算法主要分為兩個部分：

一、求子串P部分匹配值陣列；

上面已經分析過，具體程式碼如下，其中pi指的是部分匹配陣列；

void COMPUTE_PREIFX_FUNCTION(string P,vector<int>& pi)
{
int m=P.size();
pi[0]=0;
pi[1]=0;
int k=0;
for (int q=2;q<m;q++)
{
while (k>0&&P[k+1]!=P[q])
{
k=pi[k];
}
if (P[k+1]==P[q])
{
k=k+1;
}
pi[q]=k;
}
}

二、求字元匹配位置；

按上面分析給出如下程式碼，為了方便，我們給T,P前面分別增加一個字元“%”和“*”，這樣字串中的第i個字元在程式碼中的下標也為i，這樣可以防止陣列溢位，易於理解。

void KMP_MATCHER(string &T,string &P)
{
T="%"+T;
P="*"+P;
int m=P.size();
vector<int> pi(m);
int n=T.size();
COMPUTE_PREIFX_FUNCTION(P,pi);
int q=0;
int i;
for (i=1;i<n;i++)
{
while (q>0&&P[q+1]!=T[i])
{
q=pi[q];
}
if (P[q+1]==T[i])
{
q=q+1;
}
if (q==m-1)
{
cout<<"pattern occurs with shift "<<i-q<<endl;
q=pi[q];
}
}
}

完整程式碼如下：

標頭檔案：

#include <iostream>
#include <string>
#include <vector>
using namespace std;
void COMPUTE_PREIFX_FUNCTION(string P,vector<int>& pi);
void KMP_MATCHER(string &T,string &P);
void NAIVE_STRING_MATCHING(string T,string P);

main函式：

#include"head.h"
void main()
{
string T="BBC ABCDAB ABCDABCDABDEFABCDABDff";
string P="ABCDABD";
cout<<"NAIVE:"<<endl;
NAIVE_STRING_MATCHING(T,P);
cout<<"KMP:"<<endl;
KMP_MATCHER(T,P);
}
void COMPUTE_PREIFX_FUNCTION(string P,vector<int>& pi)
{
int m=P.size();
pi[0]=0;
pi[1]=0;
int k=0;
for (int q=2;q<m;q++)
{
while (k>0&&P[k+1]!=P[q])
{
k=pi[k];
}
if (P[k+1]==P[q])
{
k=k+1;
}
pi[q]=k;
}
}
void KMP_MATCHER(string &T,string &P)
{
T="%"+T;
P="*"+P;
int m=P.size();
vector<int> pi(m);
int n=T.size();
COMPUTE_PREIFX_FUNCTION(P,pi);
int q=0;
int i;
for (i=1;i<n;i++)
{
while (q>0&&P[q+1]!=T[i])
{
q=pi[q];
}
if (P[q+1]==T[i])
{
q=q+1;
}
if (q==m-1)
{
cout<<"pattern occurs with shift "<<i-q<<endl;
q=pi[q];
}
}
}
void NAIVE_STRING_MATCHING(string T,string P)
{
int n=T.size();
int m=P.size();
int i;
for (int s=0;s<n-m;s++)
{
for (i=0;i<m;i++)
{
if (P[i]!=T[s+i])
{
break;
}
}
if (i==m)
{
cout<<"pattern occurs with shift "<<s<<endl;
}
}
}

執行結果如下：

ABCDABD繼BBC ABCDAB ABCDABCDABDEFABCDABDff第15個元素出現了一次，繼第24個元素之後出現了一次。

本文程式碼參照演算法導論第32章虛擬碼編寫；

部分內容參考：http://blog.jobbole.com/39066/

字串匹配——樸素演算法、KMP演算法

1.NAIVE—STRING—MATCHING.

2.Knuth—Morris—Pratt演算法

【演算法分析】字串匹配：BF、KMP演算法

字串匹配——樸素演算法、KMP演算法

字串匹配問題（BF演算法、KMP演算法）

字串匹配(BF,BM,Sunday,KMP演算法解析)

串匹配問題-BF演算法、KMP演算法、BM演算法

Manacher演算法、KMP演算法

資料結構-字串匹配（KMP演算法、BF演算法、BM演算法）

字串匹配演算法之KMP演算法詳情

字串模式匹配中BF演算法和KMP演算法的java實現

字串模式匹配（簡單模式匹配演算法與KMP演算法）（一）

字串匹配：求給定字串的next陣列以及KMP演算法

快速字串匹配一: 看毛片演算法（KMP）

字串匹配-BF演算法和KMP演算法

雙目立體視覺匹配演算法之視差圖disparity計算——SAD演算法、SGBM演算法

有關串的模式匹配問題中的kmp演算法（俗稱看毛片演算法）

雙目立體視覺匹配演算法-----SAD匹配演算法、BM演算法、SGBM演算法、GC演算法

資料結構- 串的模式匹配演算法： KMP演算法

串的模式匹配（BF演算法，KMP演算法）

串的模式匹配演算法（BF演算法和KMP演算法）

【資料結構與演算法】模式匹配——從BF演算法到KMP演算法（附完整原始碼）

字串匹配——樸素演算法、KMP演算法

1.NAIVE—STRING—MATCHING.

2.Knuth—Morris—Pratt演算法

相關推薦