淺談Python中的正則表示式
裡的正則表示式
Python裡的正則表示式,無需下載外部模組,只需要引入自帶模組:re:
import re
官方re模組文件: https://docs.python.org/zh-cn/3.9/library/re.html
同時,Python的正則表示式是PCRE標準的,相較於廣泛應用在Unix上的POSIX標準,還是有些區別的(主要是簡化)
基本方法
觀察re原始碼,其主要的介面方法有:
- match(…):從字串的起始位置匹配一個模式,如果無法匹配成功,則match()就返回none
- fullmatch(…):是match函式的完全匹配(從字串開頭到結尾)版本
- search(…):掃www.cppcns.com
- sub(…):用於替換字串中的匹配項
- subn(…):和sub(…)類似,但返回值多一個替換次數
- split(…):分割字串,返回列表形式f
- indall(…):在字串中找到正則表示式所匹配的所有子串,並返回一個列表形式,如果沒有找到匹配的,則返回空列表。finditer(…):和 findall 類似,在字串中找到正則表示式所匹配的所有子串,並把它們作為一個迭代器返回
- compile(…):用於編譯正則表示式,生成一個正則表示式( Pattern )物件,供 match() 和 search() 這兩個函式使用
- purge(…):用於清除正則表示式快取
其中,本文主要會介紹的方法為:match(...)
、search(...)
、findall(...)
和spilt(...)
。不過,方法都類似,會這些方法,剩下的也大同小異。
元字元與預定義字符集
我認為,元字元算和預定義字符集是正則表示式的核心內容了。
預定義字符集:
預定義字元 | 說明 |
---|---|
\w | 匹配下劃線“”或任何字母(a-zA-Z)與數字(0-9)等價於a-zA-Z0-9 |
\W | 與\w相反,匹配特殊字元等價於**^a-zA-Z0-9_** |
\s | 匹配任意的空白字元,等價於**<空格>\r\n\f\v** |
\S | 與\s相反,匹配任意非空白字元的字元,www.cppcns.com等價於**^\s** |
\d | 匹配任意數字,等價於0-9 |
\D | 與\d相反,匹配任意非數字的字元,等價於**^\d** |
\b | 匹配單詞的邊界 |
\B | 與\b相反,匹配不出現在單詞邊界的元素 |
\A | 僅匹配字串開頭,等價於^ |
\Z | 僅匹配字串結尾,等價於$ |
元字元:
元字元 | 說明 |
---|---|
. | 匹配任何一個字元(除換行符**\n**除外) |
^ | 脫字元,匹配行的開始 |
$ | 美元符,匹配行的結束 |
| | 連線多個可選元素,匹配表示式中出現的任意子項 |
[] | 字元組,匹配其中的出現的任意一個字元 |
- | 連字元,表示範圍,如“1-5”等價於“1、2、3、4、5” |
? | 匹配其前導元素0次或1次 |
* | 匹配其前導元素0次或多次 |
+ | 匹配其前導元素1次或多次 |
{n}/{m,n} | 匹配其前導元素n次/匹配其前導元素m~n次 |
() | 在模式中劃分出子模式,並儲存子模式的匹配結果 |
一般來說,使用+
、?
、*
、{n}
、{n,}
和{n,m}
時,即啟用正則表示式的貪婪模式。可以在其後加入?
來取消貪婪模式。
貪婪模式
一般來見,重複多次匹配就是貪婪模式,也就是儘可能匹配多個字元。
比如:
import re lineOne = "Who is the Mintimate" # 貪婪模式 print(re.findall(r'\w+',lineOne)) # 非貪婪模式 print(re.findall(r'\w',lineOne)) print(re.findall(r'\w+?',lineOne))
輸出:
['Who','is','the','Mintimate']
['W','h','o','i','s','t','e','M','n','m','a','e']
['W','e']
可以看到,使用**?**來啟用非貪婪模式,基本是讓多次匹配無效化。
捕獲與非捕獲括號
之所以捕獲與非捕獲括號單獨出來講,其實是我當時學習正則時候,這邊卡了很久。
- 捕獲括號:
()
- 非捕獲括號:
(?:)
捕獲括號其實就是程式碼裡的優先順序一樣,比如:
2*(2+3)=10
之所以,我們會先算2+3,是因為有**()的存在。正則裡也是,如果存在()**,則會優先捕獲()內的內容:
import re lineOne = "Who is Mintimate?" # 未使用捕獲括號 print(re.findall(r'Mintimate',lineOne)) # 使用捕獲括號 print(re.findall(r'M(intimate)',lineOne)) # 使用非捕獲括號 print(re.findall(r'M(?:intimate)',lineOne))
輸出結果:
['Mintimate']
['intimate']
['Mintimate']
而非捕獲括號主要與|
同時使用:
import re lineOne = "This is the Mintimate,not the Minimen?" print(re.findall(r'M(?:intimate|inimen)',lineOne))
輸出結果:
['Mintimate','Minimen']
正則匹配(判斷目標格式)
主要講解Python下的幾個方法使用方法。
match匹配
match(…)即:
re.match(pattern,string,flags=0)
引數的具體含義如下:
- pattern:表示需要傳入的正則表示式。
- string:表示待匹配的目標文字。
- flags:表示使用的匹配模式。如:是否區分大小寫,多行匹配等等。可省略,預設為0
使用match進行正則匹配,可以方便我們對字串內型別的判斷,如:是否為純數字或第一位數否為數字
import re lineOne = "7704194" lineTwo = "My UID in Tencent Community is:7704194" print(re.match(r"\d",lineOne)) print(re.match(r"\d+",lineOne)) print("===") print(re.match(r"\d",lineTwo)) print(re.match(r"\d+",lineTwo))
輸出結果:
<re.Match object; span=(0,1),match='7'>
<re.Match object; span=(0,7),match='7704194'>
===
None
None
其中,\d
為匹配0-9的數字型別,而+
是匹配出現1次或多次。
正則搜尋(提取/分組字元)
正則搜尋,常用的是search和findall方法了,方法體均一樣:
re.search(pattern,flags=0) re.findall(pattern,flags=0)
search和march類似,均是匹配字串內容,不符合返回None。但是主要區別:
- re.match() 從第一個字元開始找,如果第一個字元就不匹配就返回None,不繼續匹配. 用於判斷字串開頭或整個字串是否匹配,速度快。
- re.search() 會整個字串查詢,直到找到一個匹配。
程式碼中更形象:
import re lineOne = "7704194" lineTwo = "My UID in Tencent Community is:7704194" # 使用match搜尋純數字字串 print(re.match(r"\d",lineOne)) # 使用search搜尋純數字字串 print(re.search(r"\d",lineOne)) # 使用match搜尋複合字符串 phttp://www.cppcns.comrint(re.match(r"\d",lineTwo)) # 使用search搜尋複合字符串 print(re.search(r"\d",lineTwo))
其輸出結果:
<re.Match object; span=(0,match='7'>
None
<re.Match object; span=(31,32),match='7'>
而findall,在上match和search的前提下,進一步封裝。相對於強化版的match和search:
import www.cppcns.comre
lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))
輸出結果:
['7','7','0','4','1','9','4']
['7','4']
而如果你想完成提取:
print(re.findall(r"\d+",lineTwo))
輸出:
['7704194']
方便在資料處理時,快速提取連續數字╮( ̄▽ ̄"")╭。
操作例項
單單看文件,總是不實際。這邊我演示幾個正則表示式的例項(我根據我自己使用環境所寫,可能在其他特殊環境有問題)
URL去參
在寫爬蟲時候,有時候得到的URL是帶標籤(#)或者Get請求rhssc(?id=*)的,但是有時候我們需要去除這些引數,得到純淨的URL地址,這個時候可以用正則表示式:
lineOne = "https://www.mintimate.cn#mintimate" lineTwo = "https://www.mintimate.cn?user=mintimate" print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne)) print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))
效果:
['https://www.mintimate.cn']
['https://www.mintimate.cn']
這裡主要的細節:
- https?:匹配http或https
- (?😃:非捕獲括號,用於和後續
|
進行配合
IPv4匹配
用正則匹配IPv4就比較複雜了,我是這樣寫的:
import re lineOne = "192.168.1.1" lineTwo="這不是IPv4嗷" isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}') print(isIPv4.search(lineOne)) print(isIPv4.search(lineTwo))
輸出結果為:
<re.Match object; span=(0,11),match='192.168.1.1'>
None
解釋一下:
- 末尾的
{3}
,代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))
重複三次匹配, - 而前面的
((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})
我們可以拆分為兩部分,(2(5[0-5]|[0-4]\d))
和0-1?\d{1,2}:前者是匹配首位為2開頭、第二位為1到5或1到4、最後一位為0到9;後者是匹配第一位為0或1,且?代表可以不存在這一項,後兩位為兩位0-9的數字。
效率問題
使用正則表示式,很大程度是為了精簡程式碼,但是存在一下問題:
- 程式碼可讀性降低:普通的匹配數字還好,但是如果都像IPv4這樣的,一定程度可讀性就降低了,維護成本高(雖然後期一般不回去改)
- 解析時間長:這個還是要看具體程式碼,但是總的來說:貪婪模式相比懶惰模式以及獨佔模式有一個回溯過程,消耗資源會更多。
解決方案:
- 一條正則表示式規則如果運用上百次,可以使用compile()方法進行預先載入。
- 減少使用貪婪模式。
總結
正則表示式是一個很重要的工具,尤其是在Python資料處理時,能高效處理問題事件。看完這篇文章後,應該對正則表示式不在陌生,感興趣可以自己寫個正則規則,如:強密碼判斷、IPv6的判斷等。
另外,因為篇幅所限,更多Python內的細則,可以參考官方文件:
https://docs.python.org/zh-cn/3.9/library/re.html
到此這篇關於淺談Python中的正則表示式的文章就介紹到這了,更多相關Python正則表示式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!