什麽是KMP算法？KMP算法推導

阿新 • • 發佈：2018-04-06

下標 code 條件 logs 沒有 str left back 除了

花了大概3天時間，了解，理解，推理KMP算法，這裏做一次總結！希望能給看到的人帶來幫助！！

1.什麽是KMP算法？

在主串Str中查找模式串Pattern的方法中，有一種方式叫KMP算法

KMP算法是在模式串字符與主串字符匹配失配時，利用已經匹配的模式串字符子集的最大塊對稱性，讓模式串盡量後移的算法。

這裏有3個概念：失配，已經匹配的模式串子集，塊對稱性

失配和隱含信息

在模式串的字符與主串字符比較的過程中，字符相等就是匹配，字符不等就是失配；

隱含信息是，失配之前，都是匹配。

在主串S[0，100]中查找模式串P[0，6]，從下標0開始查找，在下標為5的位置失配，記為P[0，5]失配，則有

P[5]!=S[5]，又有S[0，4]=P[0，4]

則P[0,4]都是匹配的！

已經匹配的模式串子集

接上一例，模式串是P[0，6]，而P[0，4]都是匹配的，所以，已經匹配的模式串子集有

Pcs={ P[0，4]，P[0，3]，P[0，2]，P[0，1]，P[0] }

2.塊對稱性

什麽是塊對稱性？

塊對稱性，就是字符串前綴，後綴重疊；

比如： a b c d a b c

前綴：除了最後一個字母外，所有的前綴子集；

如： a，ab，abc，abcd，abcda，abcdab

後綴：除了第一個字母外，所有的後綴子集

如： bcdabc，cdabc，dabc，abc，bc，c

這裏前綴abc和後綴abc重合

技術分享圖片

可以把這個重合看做，相對於綠塊對稱，所以叫它塊對稱性

塊對稱有很多種；比如：

技術分享圖片

咦？大家都在一水平排，怎麽有一個飛起來了？

飛起來那個將在利用最大快對稱性 小節講解。

塊有什麽特點？

特點：擁有塊對稱性的字符串至少有2塊對稱重合的的部分；

分析，對稱是修飾，重合是關鍵。而且重合的是前綴和後綴。

如何利用塊對稱性？

技術分享圖片

模式串如圖，如果模式串和主串Str匹配的過程中，在l這失配即P[0，7]失配，你會怎樣？

分析，

第一，模式串的P[0，6]和主串放入S[0，6]是完全匹配的

第二，P[0，6]串是塊對稱的！

因為P[0，6]剛好有塊對稱性，我可以把前綴abc移動到後綴abc的位置，然後讓d與主串去匹配，這樣就利用快對稱性了對吧？

技術分享圖片

總結，可以在P[7]失配時，看失配字符的最大前綴P[0，6]是否有塊對稱性，如果有，我們就可以向右移動模式串，讓左邊的重合前綴移動到右邊的重合後綴，再讓模式串和主串比較！

利用最大塊對稱性？什麽意思？

什麽是KMP算法小節裏，說KMP是在模式串與主串匹配失配時，利用已經匹配的模式串子集的最大塊對稱性，盡量讓模式串右移！這裏的利用最大塊對稱性是什麽意思？

這裏利用最大塊對稱性意味著可能發生遞歸！

把上個案例的d換成k，如下圖：

技術分享圖片

KMP算法會預先計算出模式串所有前綴子集中哪些前綴有塊對稱性，在這些有塊對稱性的前綴的後一個字符失配時，利用其塊對稱性；

比如本例中P[0，6]有塊對稱性，那麽在P[0，7]也就是l失配時，

會先利用P[0，6]的塊對稱性，即P[0，2]和P[4，6]相遇於字符P[3]塊對稱，

如果不行，會看P[0，2]塊對稱重合的部分有沒有塊對稱性，

有，就利用；以此類推，一直遞歸到沒有塊對稱性為止。

塊對稱長度的意義-編程

第一次移動中，3是什麽？塊對稱重合長度，也是下次開始比較的位置！

第二次移動中，1是什麽？塊對稱重合長度，也是下次開始比較的位置！

技術分享圖片

3.next數組推導-計算塊對稱性

單獨的塊對稱性是沒有意義的，塊對稱性必須結合上失配，才能利用塊對稱性！

所以，應該計算出Pattern所有前綴子集失配時的塊對稱性！放到一個叫next[]數組的地方！

如何計算呢？

next數組是計算失配時的塊對稱性，

當第1個字符失配時，壓根就沒有前綴後綴的說法，所以有next[0]是不存在塊對稱性的，記為next[0]=-1；

當第2個字符失配時，它的子集只有1個字符，也是沒有前綴後綴，沒有塊對稱性，所以記為next[1]=0；

再看圖，對於值k，已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，則有next[j] = k。

next[j] = k代表了什麽呢？

代表在Pj之前，有長度為k的塊對稱性，有2個長度為k的重合部分。

總結一下，前提條件如下：

條件1.next[0]是不存在的，next[1]=0；

條件2.對於下標值k，已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，則有next[j] = k。

next[]數組是從0開始被初始的，如果我們能推導出next[j+1] = 什麽，是不是就可以計算出next[]數組？是吧

下面來推導next[j+1]

技術分享圖片

已知：

p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，==》 next[j] = k

如果pk與pj匹配，

則有p0 p1, ..., pk-1,pk = pj-k pj-k+1, ..., pj-1pj，==》 next[j+1] = k+1;

原來有2個長度為k的對稱重合部分，pk與pj匹配後，2個長度為k對稱重合的部分又有了1對字符重合，所以有next[j+1]=k+1；

再看圖，next[j]=k，當pj失配時，下一次用pk去和主串匹配；所以next[j]的實際意義是，當pj失配時，下一次應該用哪個字符去和主串匹配！！

條件3.next[ ]數組的值就是當次失配時，下一次匹配的位置！

如果pk與pj不匹配，next[j+1]=?

next[j+1]的實際意義是，p[0，j+1]的pj+1失配時，p[0，j]的塊對稱重合長度，也是下一次匹配時應該用模式串的哪個字符與主串匹配，哪個字符的下標就是next[j+1]。

具體詳參塊對稱長度的意義-編程

下一次用哪個字符比較呢？

技術分享圖片

設a1=p0 p1,...,pk-1，a2=pj-k pj-k+1,...,pj-1；a1==a2

當pk與pj不匹配時，不能用a1替換a2，如圖綠叉；

因為a2是離與主串最近的部分，所以這時候應該分析a2是否有塊對稱性，

如果a2有塊對稱性，那麽a1也有塊對稱性，如圖綠框；

所以，這時應該分析p[0，k]的塊對稱性，也就是next[k]。

設x1與x2關於綠框對稱；

x3與x4關於綠框對稱；

那麽把x1移動到x4的位置，是不是就可以最大利用上；

所以next[j+1]=next[k]；

總結一下

If ( p[k] == p[j] ) next[j+1]=k+1

else next[k+1]= next[k]

4.參考文獻

https://blog.csdn.net/v_july_v/article/details/7041827

http://www.codeceo.com/kmp-next-array.html

https://www.zhihu.com/question/21474082 next數組推導

https://blog.csdn.net/yearn520/article/details/6729426 next數組推到原則

https://www.xahkbg.com/

KMP中，計算目標查詢串T的next[]數組是關鍵；

https://zhuanlan.zhihu.com/p/24274982

https://blog.csdn.net/yearn520/article/details/6729426

http://www.cnblogs.com/c-cloud/p/3224788.html

https://zhuanlan.zhihu.com/p/24649304

什麽是KMP算法？KMP算法推導

什麽是安全散列算法SHA256？

col 發生發布還需秘密 bubuko als 輸入資料　　安全散列算法SHA（Secure Hash Algorithm）是美國國家安全局（NSA）設計，美國國家標準與技術研究院（NIST）發布的一系列密碼散列函數，包括 SHA-1、SHA-224、SHA

什麽是KMP算法？KMP算法推導

下標 code 條件 logs 沒有 str left back 除了花了大概3天時間，了解，理解，推理KMP算法，這裏做一次總結！希望能給看到的人帶來幫助！！ 1.什麽是KMP算法？在主串Str中查找模式串Pattern的方法中，有一種方式叫KMP算法 K

MySQL分頁優化中的“INNER JOIN方式優化分頁算法”到底在什麽情況下會生效？

表結構 files key 效率 ref 兩個 ges 參考如果本文出處：http://www.cnblogs.com/wy123/p/7003157.html 最近無意間看到一個MySQL分頁優化的測試案例，並沒有非常具體地說明測試場景的情況下，給出了

關於算法運行時間以及“管道”為什麽引入

cin blog for sed 常數 scanf 結果運行時 pre 1. 關於算法運行時間以及“管道”為什麽引入。我以前畢設比較不同譯碼算法的時候，直接用一個clock（）來比較不同算法運行速率。現在想起來，這是及其錯誤了！《算法競賽入門經典》P64 一個

什麽是私有密鑰密碼技術——密鑰加密算法采用同一把密鑰進行加密和解密

解密網絡安全位操作線性復雜對稱大量控制全局相位什麽是私有密鑰密碼技術私有密鑰(Symmetric Key)，又叫對稱密鑰。密鑰加密算法采用同一把密鑰進行加密和解密。它的優點是加密和解密速度非常快，但密鑰的分發和管理比較困難。信息的發送者和接收者必須明確同

為什麽我們像馴化小狗那樣馴化算法

人類結構幫助無法解析事件產出 lan 閃電工作原文鏈接人類進化學家當中有一種理論，說的是小狗這種寵物是從野獸進化而來，因為只有那些獲得了社會化智慧的犬科動物才能存活下來。幾千年前狼群在人類聚集地的周圍活動，逐漸開始熟悉了人類的意圖和心情。換句話說，它

算法 - KMP算法

itl 意義下一個復雜比較字符串 mage 示例 ima 1 解決問題從一個字符串中查找子串，如果存在返回字串在字符串中的位置。示例：字符串（T）：“BBC ABCDAB ABCDABCDABDE” 子串( P)：“ABCDABD” 通過算法查找字串P在字符串

我為什麽要設計自己的流量調度算法？

網站由於那種 bsp 系統調用調度算法增加流量共享背景公司使用阿裏的雲主機部署計算型的服務，就是特別耗cpu的那種。使用過程中有一件事情很苦惱，那就是雲主機的性能是不一致的，機器間的性能可相差30%，更嚴重的是由於是共享雲主機，經常在晚上8點鐘左右（各大網站

jvm內存模型-回收算法-和內存分配以及jdk、jre、jvm是什麽關系(阿裏，美團，京東面試題)

ati alt 字面量可用內存硬件都是 escape 物理 nap 1.什麽是jvm?（1）jvm是一種用於計算設備的規範，它是一個虛構出來的機器，是通過在實際的計算機上仿真模擬各種功能實現的。（2）jvm包含一套字節碼指令集，一組寄存器，一個棧，一個垃圾回收堆和一個

串模式匹配算法KMP的C語言實現

退回 lib false else 不同存在 == 根據 status #include "string.h"#include "stdio.h" #include "stdlib.h" #include "io.h" #include "math.h" #

[雜談] 編程為什麽要學算法 - 某程序媛計劃有感

積分計時器 lis 而在有感 cti current src 但是最近那誰出的程序媛計劃，先不說這個事情是好是壞，這個程序做的是好是壞（壞）... 只是最近微博上，尤其是非CST專業的人，居然有很多人認為入門學編程不需要學習算法.... 連程序媛計劃的發起人都在微博中

《機器學習實戰》中的程序清單2-1 k近鄰算法classify0都做了什麽

列表關鍵字難解 items 位置 class 做了 ict top k def start(): group,labels = createDataSet() return classify0([3,3], group, l

字符串算法①——kmp

pos col class kmp算法 strlen 兩種 cnblogs log 可能 kmp算法是用來找A字符串的子串B的出現次數和位置的一種算法；在看後面之前先看一個鏈接https://kb.cnblogs.com/page/176818/ 然後對算法就有個大概的理

算法面試課程筆記001 算法面試到底是什麽鬼

書籍工作內容如何解決 lin 優化 abi cor 分數每一個算法面試課程筆記001算法面試到底是什麽鬼 ===============================================================================

《區塊鏈100問》第60集：非對稱加密算法是什麽？

有用 form link 區塊 log OS 保存是什麽 png 對稱加密算法是指在加密和解密時使用的是同一個秘鑰。與對稱加密算法不同，非對稱加密算法需要公鑰和私鑰。公鑰和私鑰是一對，如果用公鑰對數據進行加密，只有用對應的私鑰才能解密。　　非對稱加密與對稱加密相比，其

什麽鬼算法

說明 isp function 操作 var rst div detail urn var testarr = [] var prevScroll = 0 var cache = 0scroll: function (e) { var that = this;

被算法陰影支配的我——算是什麽鬼

產生小白 ron 水平是不是一個評論 -s 導論什麽是算法？現在，作為一個小白的我（曾小白），思考討論這個問題並把它寫成這篇隨筆，應該是一個不自量力，很狂妄的行為。雖然寫出來的東西可能有不少謬誤，會讓人貽笑大方，但是要深入的去探究一下算法，還是要思考一下算法的

圖像文字識別(OCR)用什麽算法小結

說明 3.2 ecc AC egl 之間算法 bsp 暴力說明：主要考慮深度學習的方法，傳統的方法不在考慮範圍之內。 1.文字識別步驟 1.1detection：找到有文字的區域（proposal)。 1.2classification：識別區域中的文字。 2.文字檢測

KMP字符匹配算法

bsp strlen pan tps num sin using printf https 上個假期就學了KMP，但是基本不用，所以忘幹凈了。。。這個的核心思想就是next數組，next數組學名叫最長相同前綴後綴。還不錯的算法，KMP 匹配的過程中比原來的暴力匹配多了一個

為什麽聚類不能用來作分類算法？

得到任務分類郵件類方法還需要好的可能信息關於常見的聚類算法的詳解可以參見K均值聚類和高斯混合聚類一文。本文內容僅適於機器學習初學者可能剛接觸機器學習過後都知道，聚類屬於無監督學習的範疇，而分類問題是有監督學習裏常見的任務，二者都有個劃分類別的過程，為什

什麽是KMP算法？KMP算法推導

1.什麽是KMP算法？

失配和隱含信息

已經匹配的模式串子集

2.塊對稱性

什麽是塊對稱性？

塊有什麽特點？

如何利用塊對稱性？

利用最大塊對稱性？什麽意思？

塊對稱長度的意義-編程

3.next數組推導-計算塊對稱性

4.參考文獻

相關推薦