正則（高階）（轉）

阿新 • • 發佈：2018-11-03

深入理解正則表示式高階教程 Featured

作者： Zjmainstay

本文是一篇正則表示式高階教程，主要通過對正則表示式幾個概念的介紹，深入探討正則表示式高階功能，以期達到通俗化解釋正則表示式高深概念的目的。

深入理解正則表示式應用

前面已經寫過一篇文章《我眼裡的正則表示式（入門）》介紹過正則表示式的基礎和基本套路正則三段論：定錨點，去噪點，取資料了，接下來這篇文章，補充一點相對高階的概念：

    1. 概念一：按單字元匹配
    2. 概念二：匹配優先和不匹配優先
    3. 概念三：貪婪模式與非貪婪模式
    4. 概念四：環視（斷言）
    5. 概念五：平衡組
    6. 概念六：模式修飾符
    7. 附：正則三段論應用

概念一：按單字元匹配

正則裡面的資料都是按照單個字元來進行匹配的，這個通過數值區間的例子最容易體現出來，比如，示例一：

我要匹配0-15的數值區間，用正則來寫的話，便是[0-9]|1[0-5]，這裡，便是把0-9這種單字元的情況，和10-15這種多字元的情況拆分開了，使用分支|來區分開，表示要麼是0-9，要麼是10-15。
上面是兩位數值的情況，現在延伸至1-65535，我個人的處理思想是從大到小，一塊塊分解：

1. 65530-65535 ==> 6553[0-5] 末位區間0-5
2. 65500-65529 ==> 655[0-2][0-9] 第四位區間0-2，末位區間0-9
3. 65000-65499 ==> 65[0-4][0-9]{2} 第三位區間0-4，後兩位0-9
4. 60000-64999 ==> 6[0-4][0-9]{3} 第二位區間0-4，後三位0-9
5. 10000-59999 ==> [1-5][0-9]{4} 第一位區間1-5，後四位0-9
6. 1-9999 ==> [1-9][0-9]{0,3} 第一位只能是1-9，後三位可有可無

最後組合起來：
(6553[0-5]|655[0-2][0-9]|65[0-4][0-9]{2}|6[0-4][0-9]{3}|[1-5][0-9]{4}|[1-9][0-9]{0,3})
便得到1-65535匹配正則。

根據資料處理需求，可以在正則前後加上^和$，以匹配整個資料串，或者前後加入\b，把它當做單詞邊界處理。沒有限定字元的邊界往往是js正則判斷中常見的錯誤之一。

概念二：匹配優先和不匹配優先

匹配優先和不匹配優先從字面理解也是比較容易的，所謂匹配優先，就是，能匹配我就先匹配；不匹配優先就是，能不匹配我就先不匹配，這段匹配先跳過，先看看後面的匹配能不能通過。

概念三：貪婪模式與非貪婪模式

正則的貪婪模式和非貪婪模式是一個比較容易混淆的概念，不過，我們可以這麼理解，一個人很貪婪，所以他會能拿多少拿多少，換過來，那就是貪婪模式下的正則表示式，能匹配多少就匹配多少，儘可能最多。而非貪婪模式，則是能不匹配就不匹配，儘可能最少。

下面舉個例子，示例二：

需求：匹配1後面跟任意個0
源串：10001
使用貪婪模式：10*       結果：1000 和 1
使用非貪婪模式：10*?    結果：1 和 1

首先，*是匹配0個或多個的意思。

貪婪模式下，它表示，首先匹配一個1，然後匹配1後面的0，最多可以匹配3個0，因此得到1000，然後第二次又匹配到一個1，但是後面沒有0，因此得到1；

非貪婪模式下，它表示，首先匹配一個1，然後1後面的0，能不匹配就不匹配了，所以，它每次都只是匹配了一個1。

看到這裡，也許，有些人覺得，哎呀，我懂了！
那麼，下來我們改改，看看你是不是真懂了。

示例三：

需求：匹配1後面跟任意個0，再跟一個1
源串：10001
使用貪婪模式：10*1       結果：10001
使用非貪婪模式：10*?1    結果：10001

為什麼這兩次的結果一樣了？

因為，正則表示式要判斷完這整個正則才算成功，這種情況下，

貪婪模式，首先匹配一個1，然後匹配1後面儘可能多的0，發現3個，再匹配0後面的一個1，正則表示式匹配完，完成匹配，得到10001；

非貪婪模式，首先匹配一個1，然後，0*?是非貪婪模式，它不想匹配了（非貪婪模式不匹配優先），看看後面是不是1了？然後發現哎媽呀，後面是個0啊，然後它回頭，不能再偷懶了，用0*?匹配一個0吧，然後匹配到10，又不想匹配了，看看後面有沒有1了，還是沒有，又回去用0*?匹配掉一個0，得到100，繼續偷懶，但是發現後面還不是1，然後又用0*?匹配得到1000，最後，發現真不容易啊，終於看到1了，匹配得到10001，正則表示式匹配完，完成匹配。

看到這裡，是不是懂了？
那究竟哪個模式好呢？

什麼時候使用貪婪模式，什麼時候使用非貪婪模式，哪個效能好，哪個效能不好，不能一概而論，要根據情況分析。
下面我舉個例子：
原始碼：

<a href="http://www.zjmainstay.cn/my-regexp" target="_blank" title="我眼裡的正則表示式（入門）">我眼裡的正則表示式（入門）</a>
<a title="我眼裡的正則表示式（入門）" href="http://www.zjmainstay.cn/my-regexp" target="_blank">我眼裡的正則表示式（入門）</a>

正則1：<a [^>]*?href="([^"]*?)"[^>]*?>([^<]*?)</a>（238次）
正則2：<a [^>]*?href="([^"]*)"[^>]*>([^<]*)</a>（65次）
正則3：<a [^>]*href="([^"]*)"[^>]*>([^<]*)</a>（136次）
附：執行次數的獲取請下載正則表示式測試工具：RegexBuddy 4.1.0-正則測試工具.rar，使用裡面的Debug功能。

正則1是通用寫法，正則2是在確定字元不會溢位的情況下消除非貪婪模式，正則3是證明並不是全部消除非貪婪模式就是最優。

因此，關於貪婪模式好還是非貪婪模式好的討論，只能說根據需求而定，不過，在平時的時候用，一般使用非貪婪模式較多，因為貪婪模式經常會由於元字元範圍限制不嚴謹而導致匹配越界，得到非預期結果。

在確定的資料結構裡，可以嘗試使用[^>]*>這樣的排除字元貪婪模式替換非貪婪模式，提升匹配的效率。注意，貪婪部分（[^>]*）的匹配，最好不要越過其後面的字元（>），否則會導致貪婪模式下的回溯，如正則3，[^>]*的匹配越過了href，一直匹配到>為止，而這時候再匹配href，會匹配不到而導致多次回溯處理，直到回溯到href前的位置，後面才繼續了下去。

另外，需要注意一點，無論使用貪婪模式還是非貪婪模式，在不同語言需要注意回溯次數和巢狀次數的限制，比如在PHP中，pcre.backtrack_limit=100000，pcre.recursion_limit=100000。

概念四：環視（斷言/零寬斷言）

環視，在不同的地方又稱之為零寬斷言，簡稱斷言。
用一句通俗的話解釋：
環視，就是先從全域性環顧一遍正則，（然後斷定結果，）再做進一步匹配處理。
斷言，就是先從全域性環顧一遍正則，然後斷定結果，再做進一步匹配處理。

兩個雖然字面不一樣，意思卻是同一個，都是做全域性觀望，再做進一步處理。

環視的作用相當於對其所在位置加了一個附加條件，只有滿足這個條件，環視子表示式才能匹配成功。

環視主要有以下4個用法：
(?<=exp) 匹配前面是exp的資料
(?<!exp) 匹配前面不是exp的資料
(?=exp) 匹配後面是exp的資料
(?!exp) 匹配後面不是exp的資料

示例四：
(?<=B)AAA 匹配前面是B的資料，即BAAA匹配，而CAAA不匹配
(?<!B)AAA 匹配前面不是B的資料，即CAAA匹配，而BAAA不匹配
AAA(?=B) 匹配後面是B的資料，即AAAB匹配，而AAAC不匹配
AAA(?!B) 匹配後面不是B的資料，即AAAC能匹配，而AAAB不能匹配

另外，還會看到(?!B)[A-Z]這種寫法，其實它是[A-Z]範圍裡，排除B的意思，前置的(?!B)只是對後面資料的一個限定，從而達到過濾匹配的效果。

因此，環視做排除處理是比較實用的，比如，示例五：

需求：字母、數字組合，不區分大小寫，不能純數字或者純字母，6-16個字元。
通用正則：^[a-z0-9]{6,16}$    字母數字組合，6-16個字元
    排除純字母：(?!^[a-z]+$)
排除純數字：(?!^[0-9]+$)
    組合起來：(?!^[a-z]+$)(?!^[0-9]+$)^[a-z0-9]{6,16}$

注意，環視部分是不佔寬度的，所以有零寬斷言的叫法。
所謂不佔寬度，可以分成兩部分理解：
1、環視的匹配結果不納入資料結果
2、環視它匹配過的地方，下次還能用它繼續匹配。

如果不是環視，則匹配過的地方，不能再匹配第二次了。

上面示例四體現了：環視的匹配結果不納入資料結果，它的結果：

(?<=B)AAA 源串：BAAA 結果：AAA
(?<!B)AAA 源串：CAAA 結果：AAA
AAA(?=B) 源串：AAAB 結果：AAA
AAA(?!B) 源串：AAAC 結果：AAA

而示例五體現了：環視它匹配過的地方，下次還能用它繼續匹配
因為，整個匹配過程中，正則表示式一共走了3次字串匹配，第一次匹配不全部是字母，第二次匹配不全部是數字，第三次匹配全部是字母數字組合，6-16個字元。

擴充套件部分：
`[A-Z](?<=B)` [A-Z]範圍等於B
`[A-Z](?<!B)` [A-Z]範圍排除B
`(?!B)[A-Z]` [A-Z]範圍排除B

附： js不支援(?<=exp) 和 (?<!exp) 語法

概念五：平衡組

平衡組並不是所有程式語言都支援，而我本人使用的PHP語言就不支援，所以平時接觸也是比較少的。

平衡組主要用到下面四個語法：

(?'group') 把捕獲的內容命名為group,並壓入堆疊(Stack)
(?'-group') 從堆疊上彈出最後壓入堆疊的名為group的捕獲內容，如果堆疊本來為空，則本分組的匹配失敗
(?(group)yes|no) 如果堆疊上存在以名為group的捕獲內容的話，繼續匹配yes部分的表示式，否則繼續匹配no部分
(?!) 零寬負向先行斷言，由於沒有後綴表示式，如沒有(?!B)的B，試圖匹配總是失敗

在PHP中是支援(?(group)yes|no)語法的，這裡的group是分組編號，即子模式編號，如(A)?(?(1)yes|no) ，匹配Ayes 和 no

下面這裡引用《正則表示式30分鐘入門教程#平衡組》關於<>配對匹配的例子，展示平衡組用法，

< #最外層的左括號
[^<>]* #最外層的左括號後面的不是括號的內容
(
(
(?'Open'<) #碰到了左括號，在黑板上寫一個"Open"
[^<>]* #匹配左括號後面的不是括號的內容
)+
(
(?'-Open'>) #碰到了右括號，擦掉一個"Open"
[^<>]* #匹配右括號後面不是括號的內容
)+
)*
(?(Open)(?!)) #在遇到最外層的右括號時，判斷黑板上還有沒有沒擦掉的"Open"；如果還有，則匹配失敗
> #最外層的右括號
平衡組的一個最常見的應用就是匹配HTML,下面這個例子可以匹配巢狀的<div>標籤：
<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>

概念六：模式修飾符

模式修飾符在許多程式語言中都支援的，比如最常見的是i，不區分大小寫，如javascript裡的/[a-z0-9]/i，表示匹配字母數字，不區分大小寫。

本人在寫php正則時常用的模式修飾符主要有i和s，如：
$pattern = '#[a-z0-9]+#is';

模式修飾符s的作用主要是的.能夠匹配換行，在處理換行資料時，通常會用到。

在PHP中，模式修飾符有兩種用法，一種是上面的，在分隔符後面的模式修飾符，它的作用範圍是全域性；另一種是在正則表示式中間的。
例如：

正則：/((?i)[A-Z]+)c/
測試字元：abcABC
匹配：abc
說明：區域性（ab）的大小寫被忽略了，(?i)的作用範圍在分組1內

如果把正則改成：/([A-Z]+)c/i，則匹配結果將是：abcABC
示例地址：PHP正則表示式中間的模式修飾符

關於PHP模式修飾符的講解，請檢視PHP手冊中的《PHP模式修飾符》。

七：正則三段論應用

《我眼裡的正則表示式（入門）》和本文《深入正則表示式應用》幾乎傾盡本人正則學習全部思想，但是很多讀者反饋，看暈了！看到如此點評，實屬無奈，因此，有必要追加本節，來個整體統籌運用，希望能讓大家猶如撥雲見月，洞悉其中的精義。

正則三段論：定錨點，去噪點，取資料

兩篇文章中，最重要的部分當屬正則三段論：定錨點，去噪點，取資料，它是整個正則處理過程中的靈魂，它貫穿整個正則撰寫過程。

下面舉例說明它的思想，示例六：

源資料：標題：深入正則表示式應用，作者：Zjmainstay
需求：匹配作者名字

我要從源資料取到Zjmainstay這個作者名，那麼，在這裡，作者：就是我們所說的錨點，因為在上面這段資料中它能夠唯一定位到我們的資料Zjmainstay（就在它後面），因此，我們得到

(1) 定錨點：作者：

而在這裡，我們不需要關心標題什麼的，因此，標題：深入正則表示式應用，就是我們的噪點，因此，我們得到

(2) 去噪點

最後，我們確定作者：後面就是我們的資料，這個資料可以是任意字元，因此，我們得到正則：
作者：(.*)

而噪點部分，因為不會對資料取值造成干擾，直接去掉，不需要引入正則中。

下面再舉一個噪點干擾的例子，示例七：

源資料： <a href="http://www.zjmainstay.cn/my-regexp" class="demo8" title="正則三段論應用舉例">正則表示式入門教程</a>
需求：提取連結和標題，還有a標籤的文字

看到這個源資料和需求，我們必須定位好錨點，主要有：
1. <a //必須是a標籤
2. href=" 和 " //href=""的內容得到連結
3. title=" 和 " //title=""的內容得到標題
4. > 和 </a> //>和</a>的內容得到標籤文字

然後，其他的都是噪點，使用.*?替代，需要提取的資料部分使用括號獲取子模式，得到分組資料，因此得到正則：
<a href="(.*?)".*?title="(.*?)">(.*?)</a>

看到這裡，也許有朋友覺得，我還是不會寫，那麼，再來一個更簡單的構建方法，細化步驟，從源串逐步得到正則，示例八：

1. 直接拷貝源串，特殊字元處理轉義（本例沒特殊字元）
<a href="http://www.zjmainstay.cn/my-regexp" class="demo8" title="正則三段論應用舉例">正則表示式入門教程</a>
2. 從左到右，一段段轉化
2.1 <a href="(.*?)" class="demo8" title="正則三段論應用舉例">正則表示式入門教程</a>
2.2 <a href="(.*?)".*?title="正則三段論應用舉例">正則表示式入門教程</a>
2.3 <a href="(.*?)".*?title="(.*?)">正則表示式入門教程</a>
2.4 <a href="(.*?)".*?title="(.*?)">(.*?)</a>
3. 得到最終的正則
<a href="(.*?)".*?title="(.*?)">(.*?)</a>

至此，正則三段論的基本思想已經展示完畢，大家還有什麼不解請評論留言，本人看到會第一時間給予回覆。

熟悉正則三段論處理思想，剩下的便是基本語義的熟練程度了，這個通過多用多練可以達到熟能生巧的境界。

最後留下一句至尊提醒：.是萬能字元，大家看著用，遇到換行使用[\s\S]替換.即可。

轉載請附帶本文原文地址：深入理解正則表示式高階教程，首發自 Zjmainstay學習筆記

正則（高階）（轉）

深入理解正則表示式高階教程 Featured

概念一：按單字元匹配

概念二：匹配優先和不匹配優先

概念三：貪婪模式與非貪婪模式

概念四：環視（斷言/零寬斷言）

概念五：平衡組

概念六：模式修飾符

七：正則三段論應用

正則三段論：定錨點，去噪點，取資料

正則表達式大全（轉）

正則表示式並不難（轉）

notepad++ 正則表示式高階查詢替換技巧（一）

JavaScript 正則表示式驗證數字（包含小數），然後轉成千分位的格式

正則表示式轉義字元（轉）

[轉]常用正則表示式大全！（例如：匹配中文、匹配html）

【Python】正則表達式1（未完）

3.2 re--正則表達式操作（Regular expression operations）

javascript正則表達式筆記（轉載）

學習正則表達式筆記（二）

jmeter 正則表達式學習（一）

15/18位身份證號碼驗證的正則表達式總結（詳細版）

Python 正則表達式入門（初級篇）

正則表達式儲備（一）

JS正則對象 RegExp（有變量的時候使用），用來匹配搜索關鍵字（標紅）

Python正則表達式初識（四）

linux正則表達式，（以grep為例）

Python正則表達式初識（六）

Python正則表達式初識（七）

php正則表達式驗證（郵件地址、Url地址、電話號碼、郵政編碼）

正則（高階）（轉）

深入理解正則表示式高階教程 Featured

概念一：按單字元匹配

概念二：匹配優先和不匹配優先

概念三：貪婪模式與非貪婪模式

概念四：環視（斷言/零寬斷言）

概念五：平衡組

概念六：模式修飾符

七：正則三段論應用

正則三段論：定錨點，去噪點，取資料

相關推薦