淺談Python中的正則表示式

阿新 • • 發佈：2021-06-29

裡的正則表示式

Python裡的正則表示式，無需下載外部模組，只需要引入自帶模組：re：

import re

官方re模組文件： https://docs.python.org/zh-cn/3.9/library/re.html

同時，Python的正則表示式是PCRE標準的，相較於廣泛應用在Unix上的POSIX標準，還是有些區別的（主要是簡化）

基本方法

觀察re原始碼，其主要的介面方法有：

match(…)：從字串的起始位置匹配一個模式，如果無法匹配成功，則match()就返回none
fullmatch(…)：是match函式的完全匹配（從字串開頭到結尾）版本
search(…)：掃www.cppcns.com

描整個字串並（預設）返回第一個成功的匹配
sub(…)：用於替換字串中的匹配項
subn(…)：和sub(…)類似，但返回值多一個替換次數
split(…)：分割字串，返回列表形式f
indall(…)：在字串中找到正則表示式所匹配的所有子串，並返回一個列表形式，如果沒有找到匹配的，則返回空列表。finditer(…)：和 findall 類似，在字串中找到正則表示式所匹配的所有子串，並把它們作為一個迭代器返回
compile(…)：用於編譯正則表示式，生成一個正則表示式（ Pattern ）物件，供 match() 和 search() 這兩個函式使用

purge(…)：用於清除正則表示式快取

其中，本文主要會介紹的方法為：match(...)、search(...)、findall(...)和spilt(...)。不過，方法都類似，會這些方法，剩下的也大同小異。

元字元與預定義字符集

我認為，元字元算和預定義字符集是正則表示式的核心內容了。

預定義字符集:

預定義字元	說明
\w	匹配下劃線“”或任何字母（a-zA-Z）與數字（0-9）等價於a-zA-Z0-9
\W	與\w相反，匹配特殊字元等價於^a-zA-Z0-9_
\s	匹配任意的空白字元，等價於<空格>\r\n\f\v
\S	與\s相反，匹配任意非空白字元的字元，www.cppcns.com等價於^\s
\d	匹配任意數字，等價於0-9
\D	與\d相反，匹配任意非數字的字元，等價於^\d
\b	匹配單詞的邊界
\B	與\b相反，匹配不出現在單詞邊界的元素
\A	僅匹配字串開頭，等價於^
\Z	僅匹配字串結尾，等價於$

元字元：

元字元	說明
.	匹配任何一個字元（除換行符\n除外）
^	脫字元，匹配行的開始
$	美元符，匹配行的結束
\|	連線多個可選元素，匹配表示式中出現的任意子項
[]	字元組，匹配其中的出現的任意一個字元
-	連字元，表示範圍，如“1-5”等價於“1、2、3、4、5”
?	匹配其前導元素0次或1次
*	匹配其前導元素0次或多次
+	匹配其前導元素1次或多次
{n}/{m,n}	匹配其前導元素n次/匹配其前導元素m~n次
()	在模式中劃分出子模式，並儲存子模式的匹配結果

一般來說，使用+、?、*、{n}、{n,}和{n,m}時，即啟用正則表示式的貪婪模式。可以在其後加入?來取消貪婪模式。

貪婪模式

一般來見，重複多次匹配就是貪婪模式，也就是儘可能匹配多個字元。

比如：

import re

lineOne = "Who is the Mintimate"
# 貪婪模式
print(re.findall(r'\w+',lineOne))
# 非貪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

輸出：

['Who','is','the','Mintimate']
['W','h','o','i','s','t','e','M','n','m','a','e']
['W','e']

可以看到，使用**?**來啟用非貪婪模式，基本是讓多次匹配無效化。

捕獲與非捕獲括號

之所以捕獲與非捕獲括號單獨出來講，其實是我當時學習正則時候，這邊卡了很久。

捕獲括號：()
非捕獲括號：(?:)

捕獲括號其實就是程式碼裡的優先順序一樣，比如：

2*(2+3)=10

之所以，我們會先算2+3，是因為有**()的存在。正則裡也是，如果存在()**，則會優先捕獲()內的內容：

import re

lineOne = "Who is Mintimate?"
# 未使用捕獲括號
print(re.findall(r'Mintimate',lineOne))
# 使用捕獲括號
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕獲括號
print(re.findall(r'M(?:intimate)',lineOne))

輸出結果：

['Mintimate']
['intimate']
['Mintimate']

而非捕獲括號主要與|同時使用：

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

輸出結果：

['Mintimate','Minimen']

正則匹配（判斷目標格式）

主要講解Python下的幾個方法使用方法。

match匹配

match(…)即：

re.match(pattern,string,flags=0)

引數的具體含義如下：

pattern：表示需要傳入的正則表示式。
string：表示待匹配的目標文字。
flags：表示使用的匹配模式。如：是否區分大小寫，多行匹配等等。可省略，預設為0

使用match進行正則匹配，可以方便我們對字串內型別的判斷，如：是否為純數字或第一位數否為數字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
print(re.match(r"\d",lineOne))
print(re.match(r"\d+",lineOne))
print("===")
print(re.match(r"\d",lineTwo))
print(re.match(r"\d+",lineTwo))

輸出結果：

<re.Match object; span=(0,1),match='7'>
<re.Match object; span=(0,7),match='7704194'>
===
None
None

其中，\d為匹配0-9的數字型別，而+是匹配出現1次或多次。

正則搜尋（提取/分組字元）

正則搜尋，常用的是search和findall方法了，方法體均一樣：

re.search(pattern,flags=0)
re.findall(pattern,flags=0)

search和march類似，均是匹配字串內容，不符合返回None。但是主要區別：

re.match() 從第一個字元開始找,如果第一個字元就不匹配就返回None,不繼續匹配. 用於判斷字串開頭或整個字串是否匹配,速度快。
re.search() 會整個字串查詢,直到找到一個匹配。

程式碼中更形象：

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
# 使用match搜尋純數字字串
print(re.match(r"\d",lineOne))
# 使用search搜尋純數字字串
print(re.search(r"\d",lineOne))
# 使用match搜尋複合字符串
phttp://www.cppcns.comrint(re.match(r"\d",lineTwo))
# 使用search搜尋複合字符串
print(re.search(r"\d",lineTwo))

其輸出結果：

<re.Match object; span=(0,match='7'>
None
<re.Match object; span=(31,32),match='7'>

而findall，在上match和search的前提下，進一步封裝。相對於強化版的match和search：

import www.cppcns.comre

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

輸出結果：

['7','7','0','4','1','9','4']
['7','4']

而如果你想完成提取：

print(re.findall(r"\d+",lineTwo))

輸出：

['7704194']

方便在資料處理時，快速提取連續數字╮(￣▽￣"")╭。

操作例項

單單看文件，總是不實際。這邊我演示幾個正則表示式的例項（我根據我自己使用環境所寫，可能在其他特殊環境有問題）

URL去參

在寫爬蟲時候，有時候得到的URL是帶標籤（#）或者Get請求rhssc（?id=*）的，但是有時候我們需要去除這些引數，得到純淨的URL地址，這個時候可以用正則表示式：

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果：

['https://www.mintimate.cn']
['https://www.mintimate.cn']

這裡主要的細節：

https?：匹配http或https
(?😃：非捕獲括號，用於和後續|進行配合

IPv4匹配

用正則匹配IPv4就比較複雜了，我是這樣寫的：

import re

lineOne = "192.168.1.1"
lineTwo="這不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

輸出結果為：

<re.Match object; span=(0,11),match='192.168.1.1'>
None

解釋一下：

末尾的{3}，代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重複三次匹配，
而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我們可以拆分為兩部分，(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}：前者是匹配首位為2開頭、第二位為1到5或1到4、最後一位為0到9；後者是匹配第一位為0或1，且?代表可以不存在這一項，後兩位為兩位0-9的數字。