正則表示式常見的4種匹配模式小結
目錄
- 0.寫在前面
- 1.不區分大小寫模式
- 2.點號通配模式
- 3.多行匹配模式
- 4.註釋模式
- 5.寫在最後
0.寫在前面
今天一起來學習下正則中的匹配模式,所謂的匹配模式,就是指正則中的一些 改變元字元匹配行為 的方式,比如匹配時不區分英文字母的大小寫。
還記得我們在第二篇文章中學過的貪婪模式、非貪婪模式和獨佔模式嗎,這些模式會改變正則中量詞的匹配行為,今天來看一些和量詞無關的匹配模式,一共有4種,分別是不區分大小寫模式、點號通配模式、多行匹配模式、註釋模式。
1.不區分大小寫模式
顧名思義,不區分大小寫模式就是我想要匹配目標字串中的Cat,我不關心是大貓CAT,還是小貓cat,只要給我匹配上就可以了。
模式修飾符是通過 (?模式標識)
不區分大小寫的英文是 Case-Insensitive,模式標識用首字母的小寫來表示就是 (?i),上面提到的栗子正則可以這麼寫 (?i)cat,看下:
上一篇文章中,我們學習了分組與引用,如果匹配兩個貓就是 (?i)(cat) \1:
對應的 程式碼如下:
import re
result = re.findall(r"(http://www.cppcns.com?i)(cat) (\1)","cat cat CAT Cat")
print(result)
輸出:[('cat','cat'),('CAT','Cat')]
可以看到,前後兩個cat大小寫不一致,也可以匹配上,如果我們想要匹配前後大小寫一致的貓該怎麼辦呢,可以在外面加上一層括號 ((?i)cat) \1,看下:
測試連結:https://regex101.com/r/tPXuGX/1
注意:在 Python 語言中,使用 re 庫呼叫上面的正則會報下面的異常,換成 regex 庫就可以,但是不能準確的匹配兩個大小寫一致的 cat。
DeprecationWarning: Flags not at thttp://www.cppcns.comhe start of the expression
import regex result = regex.findall(r"((?i)cat) (\1)",'Cat')]
2.點號通配模式
在第一篇文章中,我們學習了元字元的相關知識,還記的英文的點 . 代表什麼含義嗎,它可以匹配任TSSIUSaj意字元,但是不能匹配換行。當我們需要匹配真正的任意字元時,可以使用 [\s\S] 或 [\d\D] 或 [\w\W] 等來表示。
但是這樣寫不夠優雅,所以正則提供了一種模式,讓英文的 . 能夠匹配上換行在內的所有字元,這種模式就叫做點號通配模式。
點號通配模式,在很多地方被稱為單行模式,英文表示為 Single Line,取其首字母,所以單行模式對應的修飾符是 (?s),舉個栗子:
3.多行匹配模式
在正則中 ^ 用於匹配整個目標字串的開頭,$ 使用者匹配整個目標字串的結尾:
如果我們想要讓表示式匹配上每行的開頭和結尾呢,多行匹配模式就上場了,多行的英文是 Multiline,所以多行模式對應的修飾符是 (?m),看下效果:
4.註釋模式
當我們寫了一大長串的表示式之後,當時可能只有你和上帝知道它什麼意思,過了半年,就只有上帝知道它什麼意思了。
註釋的英文是 Comment,所以註釋模式對應的修飾符是 (?#comment),注意沒有用首字母,還多了一個 # 號,拿我們之前寫的 IPv4 地址匹配正則舉個例:
複製程式碼 程式碼如下:
^(?:[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?#comment IP地址第一個值)(?:\.(?:0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}(?#comment IP地址後三個值)$
在很多語言中也提供了 x 模式來書寫正則,也可以起到註釋的作用,以 Python 為例:
import re regex = r'''(?mx) # 使用多行模式和x模式 ^ # 開頭 (\d{4}) # 年 (\d{2}) # 月 $ # 結尾 ''' result = re.findall(regex,'202006\n202106') print(result) 輸出:[('2020','06'),('2021','06')]
在 x 模式下,所有的換行和空格都會被忽略,如果要匹配的話,可以把換行和空格轉義,或者放在字元組中:
import re
regex = r'''(?mx) # 使用多行模式和x模式
^ www.cppcns.com # 開頭
(\d{4}) # 年
[ ] # 空格
(\d{2}) # 月
$ # 結尾
'''
result = re.findall(regex,'2020 06\n2021 06')
print(result)
輸出:[('2020','06')]
5.寫在最後
最後在總結下http://www.cppcns.com上面講到的內容:
正則表示式線上校驗工具:https://regex101.com/
到此這篇關於正則表示式常見的4種匹配模式小結的文章就介紹到這了,更多相關正則表示式 匹配模式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!