《數據結構》學習筆記3——串匹配

阿新 • • 發佈：2019-01-18

圖1 cnblogs style 進制 count 記錄 uil ref www

/*.. 前言：感謝學堂在線的學習資源！！！感謝鄧公！！本文代碼均整理自課件 ..*/

通常，字符種類不多，而串長>>字符種類數量。

% grep <pattern> <text> 定義：模式P 文本T

Pattern matching: detection? location? counting? enumeration?（本文主要討論出現位置）

數據結構，借助C++中<cstring>頭文件：

詳情參考 http://www.cplusplus.com/reference/cstring/ http://www.cplusplus.com/reference/string/string/

算法性能評估：隨機T，對成功、失敗的匹配分別測試（成功，在T中，隨機取出長度為m的子串作為P，分析平均復雜度；失敗，采用隨機P，統計平均復雜度）

蠻力算法：O(m*n)

 1 int match_BruteForce(char * P, char * T) {
 2     size_t n = strlen(T), i = 0;
 3     size_t m = strlen(P), j = 0;
 4     for (i = 0; i <= n - m; ++i) {
 5         for (j = 0; j < m; ++j)
 6             if (T[i + j] != P[j]) break 
;
 7         if (m <= j) break; // 找到匹配子串
 8     }
 9     return (i > n - m ) ? -1 : i; // 返回-1表示匹配失敗。
10 }

int match_BruteForce(char * P, char * T)

KMP算法（Kunth Morris Pratt三位大家)：O(m+n)

相比蠻力算法優化：P快速右移，避免重復比對(利用成功匹配的經驗，構造next表)。

【下圖1體會KMP比對過程，優化前的next表】【圖2 next表構造思路】【圖3自繪優化後的next表構造程序流程圖，啊哈哈哈】

當使用蠻力算法，單次匹配概率越小時（比如P中為較少出現的字符），此時最好情況接近O(n)，KMP相比蠻力算法優勢不明顯。而例如二進制串匹配，則KMP算法性能優勢明顯。

 1 int match_KMP(char * P, char * T) {
 2     int * next = buildNext(P);
 3     int n = (int)strlen(T), i = 0;
 4     int m = (int)strlen(P), j = 0;
 5     while (j < m && i < n)
 6         if (j < 0 || T[i] == P[j]) { // 匹配
 7             i++; j++;
 8         }
 9         else  // 失敗
10             j = next[j]; 
11     delete[] next;
12     // return i - j; // 返回
13     return (i - j > n - m) ? -1 : i; // 返回-1表示匹配失敗。
14 }

int match_KMP(char * P, char * T)

BM_BC算法 [ Boyer + Moore, 1997] ：最好O(n/m)，最差O(n*m) （壞字符 Bad Character – 失敗教訓）

相比KMP算法，由於越靠後的位置，作用越大，因此對模式串P從後向前匹配。（利用匹配失敗的經驗）

構建bc表：記錄全字符在匹配串中的位置，在匹配失敗時【右】移動至匹配的位置，使得當前匹配成功。

優點：單次匹配概率越小時，性能優勢越明顯（大字母表，特別是Unicode）；P越長，移動效果越明顯。

缺點：單次匹配概率越大的場合，性能越接近蠻力算法（小字母表，DNA）。

1 int * buildBC(char * P) {
2      int * bc = new int[256]; //bc表，與字母表等長
3      for (size_t j = 0; j < 256; ++j) bc[j] = -1; // 此初始化可省略
4      for (size_t m = strlen(P), j = 0; j < m; j++)
5          bc[P[j]] = j; //不斷覆蓋P[j]的出現位置
6      return bc;
7 }

int * buildBC(char * P)

BM_GS算法：兼顧BM_BC算法和KMP算法的思路（好後綴 Good Suffix – 成功經驗）

【下圖體會一下同時考慮匹配好後綴，和壞字符的策略】

性能比較：BM_GS算法最壞O(n/m)，最好O(m+n)

Karp-Rabin 算法：串即是數！（這是一種思想！）

算法：散列+ 相鄰串的位運算O(1)

利用散列（模余函數）對串進行篩選，再進一步確認是否匹配；每一次篩選，即從上一個串的散列值到下一個串的散列值，計算只需要O(1)時間。

《數據結構》學習筆記3——串匹配

圖1 cnblogs style 進制 count 記錄 uil ref www /*.. 前言：感謝學堂在線的學習資源！！！感謝鄧公！！本文代碼均整理自課件 ..*/ 通常，字符種類不多，而串長>>字符種類數量。 % grep <pattern>

數據結構學習筆記（二）線性表的順序存儲和鏈式存儲

出錯初始化 node != test span 輸入 des val 線性表：由同類型數據元素構成有序序列的線性結構　　--》表中元素的個數稱為線性表的長度　　--》沒有元素時，成為空表　　--》表起始位置稱表頭，表結束位置稱表尾順序存儲：　　 1 package

數據結構學習筆記-排序/隊/棧/鏈/堆/查找樹/紅黑樹

算法數據結構排序：插入排序：每次從剩余數據中選取一個最小的，插入已經排序完成的序列中合並排序：將數據分成左右兩組分別排序，然後合並，對每組數據的排序遞歸處理。冒泡排序：重復交換兩個相鄰元素，從a[1]開始向a[0]方向冒泡，然後a[2]...當a[i]無法繼續往前擠的時候說明前面的更小了，而且越往前越小(擠

數據結構學習筆記（圖）

普裏姆算法 visit 復雜 jks 代碼出現 creat 深度優先只需要　　　　　　　　　　　　　　　　　　　　　　　　　　一　　　　　　　　　　　　　　　　　　　　　　　　（基本概念） 1.圖的定義：圖是由頂點的有窮非空集合和頂點之間邊的集合組成，通常

數據結構學習筆記（五）樹的創建和遍歷

一個後序遍歷 for -1 堆棧 nor ext cnblogs 復制創建（先序創建和根據先序和中序進行創建）和遍歷（先序遍歷、中序遍歷、後序遍歷、非遞歸堆棧遍歷、層次遍歷）：　　 package tree; public class XianCreateTree

數據結構學習筆記-----------------線性表

數據結構線性結構的特點：在數據的非空有限集中一、存在唯一一個被稱為“第一個”的數據元素二、存在唯一一個被稱為“最後一個”的數據元素三、除第一個之外，集合中每個數據元素均只有一個前驅四、除最後一個之外，集合中每個數據元素均只有一個後繼一個線性表是n個數據元素的有限序列序偶關系：兩個固定次序的客體組成一個序偶，它

數據結構學習筆記-----------------緒論

數據結構為了加深自己對數據結構的理解：所以這個專題下會記錄我的學習的筆記。程序設計的實質：對確定的問題選擇一種好的結構，加上設計一個好的算法！計算機解決一個具體的問題，需要經過下列幾個步驟：一、從具體問題抽象出一個適當的數學模型。二、設計一個解這個數學模型的算法。三、編寫程序進行測試、調整直至得到最終解答。

數據庫學習筆記3 基本的查詢流 2

學習筆記 ast 裏的 cti post pla 排序 ace 數據庫 order by子句對查詢結果集進行排序多列和拼接多列的方式就很簡單了 select firstname,lastname from person.person order by lastna

數據結構學習筆記_0

存儲方式進行自動什麽是類型變量數據類型二叉轉換使用什麽是數據結構將生活中大量的復雜的問題轉化成特定的數據類型和特定的存儲結構存儲在主存儲器（內存）中。為了完成某個目標（排序，求和等）而執行特定的操作。針對同一個目標，如果用不同的數據類型和存儲結構。

數據結構學習筆記之線性表

所有圖片指定表頭 rem 過程序列位置 png 一、概念什麽是線性表呢？一個簡單的理解如下：線性表是由稱為元素（Element）的數據項組成的一種有限且有序的序列其中，這裏有一個需要註意的地方：有序是指線性表中的每個元素都有自己的位置，而不是指線

數據結構學習筆記(一)數組

於平 style 動態 clas ram 添加元素二次 pan exception 基本概念所謂數組，是有序的元素序列。也就是把數據碼成一排存放的一種結構。最大的優點快速查詢,根據索引可以快速查找相應的元素二次封裝自己的數組一個數組應該具備的功能(並不固定,還可

數據結構學習筆記（目錄）

最大流處理雙鏈表霍夫曼回路平衡樹搜索樹 avl 目錄　　數據結構真的是一個好東西，讓你又愛又恨，雖然學了一個學期，但是最後的考試內容和上課的東西一點關系都沒有，哭了，即使如此，還是來整理整理在數據結構課上學習過的算法吧第一部分線性結構單鏈表雙

數據結構學習之字符串匹配算法(BF||KMP)

優秀代碼 esp 數組得到最大寫法知識好玩 lar 數據結構學習之字符串匹配算法(BF||KMP) 0x1 實驗目的 ? 通過實驗深入了解字符串常用的匹配算法(BF暴力匹配、KMP、優化KMP算法)思想。 0x2 實驗要求 ? 編寫出BF暴力匹配、KMP、優化KM

《大話數據結構》筆記（7-3）--圖：圖的遍歷

結構圖的遍歷 -- 前序遍歷 pan 鄰接矩陣時間 earch img 第七章圖圖的遍歷從圖中某一個頂點出發訪遍圖中其余頂點，且使每一個頂點僅被訪問一次，這一過程就叫做圖的遍歷（Traversing Graph）。深度優先遍歷（Depth Fir

數據結構（三）串---BF算法（樸素模式匹配）

pan return 後退 style 都是 ret http while 當我（一）BF算法了解 BF算法，即暴風(Brute Force)算法，是普通的模式匹配算法。BF算法的思想就是將目標串S的第一個字符與模式串T的第一個字符進行匹配，若相等，則繼續比較S的第二個

數據結構（三）串---KMP模式匹配算法之獲取next數組

要求求值直接都是 malloc image turn src 計算（一）獲取模式串T的next數組值 1.回顧我們所知道的KMP算法next數組的作用 next[j]表示當前模式串T的j下標對目標串S的i值失配時，我們應該使用模式串的下標為next[j]接著去和

數據結構（三）串---KMP模式匹配算法實現及優化

warn 查看技術分享方法 sign 匹配 pan 相同 span KMP算法實現 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include

20172312 2018-2019-1 《程序設計與數據結構》第3周學習總結

queue 分享 html ora ack 復雜我不順序 tar 教材學習內容總結第五章隊列 1.隊列是先進先出的數據結構（FIFO）與棧不同，隊列的兩端可分別進行操作 2.first與front相同，返回首段的值 3.API中的隊列方法，有add,eleme

20172303 2018-2019-1 《程序設計與數據結構》第3周學習總結

aci 效率 link 數據移動數組 emp logs 雙端隊列 20172303 2018-2019-1 《程序設計與數據結構》第3周學習總結教材學習內容總結本周學習了課本第五章的內容，主要介紹了一種新的線性集合——隊列。講解了關於隊列的相關概念以及使用鏈表和數

【學習總結】《大話數據結構》- 第3章-線性表

數學家 1+n algorithm 鏈表結構循環創建方法 com 高斯公式【學習總結】《大話數據結構》- 總啟示：線性表：零個或多個數據元素的有限序列。目錄 3.1 開場白 3.2 線性表的定義 3.3 線性表的抽象數據類型 3.4 線性表的順序存儲結構

《數據結構》學習筆記3——串匹配

相關推薦