Python3 正則表示式

阿新 • • 發佈：2022-05-18

　　正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

　　Python 自1.5版本起增加了re 模組，它提供 Perl 風格的正則表示式模式。

　　re 模組使 Python 語言擁有全部的正則表示式功能。

　　compile 函式根據一個模式字串和可選的標誌引數生成一個正則表示式物件。該物件擁有一系列方法用於正則表示式匹配和替換。

　　re 模組也提供了與這些方法功能完全一致的函式，這些函式使用一個模式字串做為它們的第一個引數。

　　本章節主要介紹 Python 中常用的正則表示式處理函式，如果你對正則表示式不瞭解，可以去學習正則表示式 - 教程。

1.re.match函式

　　re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。

　　函式語法：

re.match(pattern, string, flags=0)

　　函式引數說明：

　　匹配成功re.match方法返回一個匹配的物件，否則返回None。

　　我們可以使用group(num) 或 groups() 匹配物件函式來獲取匹配表示式。

import re
print(re.match('www', 'www.google.com').span())  # 在起始位置匹配
print(re.match('com', 'www.google.com 
'))         # 不在起始位置匹配

以上例項執行輸出結果為：
(0, 3)
None

#!/usr/bin/python3
import re
 
line = "Cats are smarter than dogs"
# .* 表示任意匹配除換行符（\n、\r）之外的任何單個或多個字元
# (.*?) 表示"非貪婪"模式，只儲存第一個匹配到的子串
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)  #re.M在正則表示式修飾符 - 可選標誌章節會講解到。
 
if matchObj:
   print ("matchObj.group() :  
", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")


以上例項執行結果如下：
matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter

2.re.search方法

　　re.search 掃描整個字串並返回第一個成功的匹配。

　　函式語法：

re.search(pattern, string, flags=0)

　　函式引數說明：

　　匹配成功re.search方法返回一個匹配的物件，否則返回None。

　　我們可以使用group(num) 或 groups() 匹配物件函式來獲取匹配表示式。

import re

print(re.search('www', 'www.google.com').span())  # 在起始位置匹配
print(re.search('com', 'www.google.com').span())         # 不在起始位置匹配

以上結果輸出為:
(0, 3)
(11, 14)

#!/usr/bin/python3
 
import re
 
line = "Cats are smarter than dogs"
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if searchObj:
   print ("searchObj.group() : ", searchObj.group())
   print ("searchObj.group(1) : ", searchObj.group(1))
   print ("searchObj.group(2) : ", searchObj.group(2))
else:
   print ("Nothing found!!")

以上例項執行結果如下：
searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter

3.re.match與re.search的區別

　　re.match 只匹配字串的開始，如果字串開始不符合正則表示式，則匹配失敗，函式返回 None，而 re.search 匹配整個字串，直到找到一個匹配。

#!/usr/bin/python3
 
import re
 
line = "Cats are smarter than dogs"
 
matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")
 
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print ("search --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

以上例項執行結果如下：
No match!!
search --> matchObj.group() :  dogs

4.檢索和替換

　　Python 的re模組提供了re.sub用於替換字串中的匹配項。

　　語法：

re.sub(pattern, repl, string, count=0, flags=0)

　　引數：

pattern : 正則中的模式字串。
repl : 替換的字串，也可為一個函式。
string : 要被查詢替換的原始字串。
count : 模式匹配後替換的最大次數，預設 0 表示替換所有的匹配。
flags : 編譯時用的匹配模式，數字形式。

　　前三個為必選引數，後兩個為可選引數。

#!/usr/bin/python3
import re
 
phone = "2004-959-559 # 這是一個電話號碼"
 
# 刪除註釋
num = re.sub(r'#.*$', "", phone)
print ("電話號碼 : ", num)
 
# 移除非數字的內容
num = re.sub(r'\D', "", phone)
print ("電話號碼 : ", num)

以上例項執行結果如下：

電話號碼 :  2004-959-559 
電話號碼 :  2004959559

4.1 repl 引數是一個函式

　　以下例項中將字串中的匹配的數字乘於 2：

#!/usr/bin/python
 
import re
 
# 將匹配的數字乘於 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

執行輸出結果為：
A46G8HFD1134

4.2 compile 函式

　　compile 函式用於編譯正則表示式，生成一個正則表示式（ Pattern ）物件，供 match() 和 search() 這兩個函式使用。

　　語法格式為：

re.compile(pattern[, flags])

　　引數：

pattern : 一個字串形式的正則表示式
flags 可選，表示匹配模式，比如忽略大小寫，多行模式等，具體引數為：
re.I 忽略大小寫
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境
- re.M 多行模式
- re.S 即為' . '並且包括換行符在內的任意字元（' . '不包括換行符）
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字元屬性資料庫
- re.X 為了增加可讀性，忽略空格和' # '後面的註釋

>>>import re
>>> pattern = re.compile(r'\d+')                    # 用於匹配至少一個數字
>>> m = pattern.match('one12twothree34four')        # 查詢頭部，沒有匹配
>>> print( m )
None
>>> m = pattern.match('one12twothree34four', 2, 10) # 從'e'的位置開始匹配，沒有匹配
>>> print( m )
None
>>> m = pattern.match('one12twothree34four', 3, 10) # 從'1'的位置開始匹配，正好匹配
>>> print( m )                                        # 返回一個 Match 物件
<_sre.SRE_Match object at 0x10a42aac0>
>>> m.group(0)   # 可省略 0
'12'
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

　　在上面，當匹配成功時返回一個 Match 物件，其中：

group([group1, …]) 方法用於獲得一個或多個分組匹配的字串，當要獲得整個匹配的子串時，可直接使用 group() 或 group(0)；
start([group]) 方法用於獲取分組匹配的子串在整個字串中的起始位置（子串第一個字元的索引），引數預設值為 0；
end([group]) 方法用於獲取分組匹配的子串在整個字串中的結束位置（子串最後一個字元的索引+1），引數預設值為 0；
span([group]) 方法返回 (start(group), end(group))。

　　再看看一個例子：

>>>import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小寫
>>> m = pattern.match('Hello World Wide Web')
>>> print( m )                            # 匹配成功，返回一個 Match 物件
<_sre.SRE_Match object at 0x10bea83e8>
>>> m.group(0)                            # 返回匹配成功的整個子串
'Hello World'
>>> m.span(0)                             # 返回匹配成功的整個子串的索引
(0, 11)
>>> m.group(1)                            # 返回第一個分組匹配成功的子串
'Hello'
>>> m.span(1)                             # 返回第一個分組匹配成功的子串的索引
(0, 5)
>>> m.group(2)                            # 返回第二個分組匹配成功的子串
'World'
>>> m.span(2)                             # 返回第二個分組匹配成功的子串索引
(6, 11)
>>> m.groups()                            # 等價於 (m.group(1), m.group(2), ...)
('Hello', 'World')
>>> m.group(3)                            # 不存在第三個分組
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
IndexError: no such group

4.3 findall

　　在字串中找到正則表示式所匹配的所有子串，並返回一個列表，如果有多個匹配模式，則返回元組列表，如果沒有找到匹配的，則返回空列表。

　　注意：match 和 search 是匹配一次, findall 匹配所有。

　　語法格式為：

re.findall(pattern, string, flags=0)
或
pattern.findall(string[, pos[, endpos]])

　　引數：

pattern 匹配模式。
string 待匹配的字串。
pos 可選引數，指定字串的起始位置，預設為 0。
endpos 可選引數，指定字串的結束位置，預設為字串的長度。

　　查詢字串中的所有數字：

import re

result1 = re.findall(r'\d+','lizexiong 123 google 456')

pattern = re.compile(r'\d+')   # 查詢數字
result2 = pattern.findall('lizexiong 123 google 456')
result3 = pattern.findall('lize88xiong123google456', 0, 15)

print(result1)
print(result2)
print(result3)


結果輸出為:
['123', '456']
['123', '456']
['88', '123']

　　多個匹配模式，返回元組列表：

import re

result = re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
print(result)
[('width', '20'), ('height', '10')]

4.4 re.finditer

　　和 findall 類似，在字串中找到正則表示式所匹配的所有子串，並把它們作為一個迭代器返回。

re.finditer(pattern, string, flags=0)

　　引數：

import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

輸出結果：
12 
32 
43 
3

4.5 re.split

　　split 方法按照能夠匹配的子串將字串分割後返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

　　引數：

>>>import re
>>> re.split('\W+', 'google, google, google.')
['google', 'google', 'google', '']
>>> re.split('(\W+)', ' google, google, google.') 
['', ' ', 'google', ', ', 'google', ', ', 'google', '.', '']
>>> re.split('\W+', ' google, google, google.', 1) 
['', 'google, google, google.']
 
>>> re.split('a*', 'hello world')   # 對於一個找不到匹配的字串而言，split 不會對其作出分割
['hello world']

5.正則表示式物件

　　re.RegexObject

　　re.compile() 返回 RegexObject 物件。

　　re.MatchObject

　　group() 返回被 RE 匹配的字串。

- start() 返回匹配開始的位置
- end() 返回匹配結束的位置
- span() 返回一個元組包含匹配 (開始,結束) 的位置

6.正則表示式修飾符 - 可選標誌

　　正則表示式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。多個標誌可以通過按位 OR(|) 它們來指定。如 re.I | re.M 被設定成 I 和 M 標誌：

7.正則表示式模式

　　模式字串使用特殊的語法來表示一個正則表示式。

　　字母和數字表示他們自身。一個正則表示式模式中的字母和數字匹配同樣的字串。

　　多數字母和數字前加一個反斜槓時會擁有不同的含義。

　　標點符號只有被轉義時才匹配自身，否則它們表示特殊的含義。

　　反斜槓本身需要使用反斜槓轉義。

　　由於正則表示式通常都包含反斜槓，所以你最好使用原始字串來表示它們。模式元素(如 r'\t'，等價於 \\t )匹配相應的特殊字元。

　　下表列出了正則表示式模式語法中的特殊元素。如果你使用模式的同時提供了可選的標誌引數，某些模式元素的含義會改變。

8.正則表示式例項

python3 正則表示式基礎廖雪峰

字串是程式設計時涉及到的最多的一種資料結構，對字串進行操作的需求幾乎無處不在。比如判斷一個字串是否是合法的Email地址，雖然可以程式設計提取@前後的子串，再分別判斷是否是單詞和域名，但這樣做不但麻煩，而且

Python3正則表示式search和findall差異討論

一、背景說明自從整理了“正則表示式書寫規則說明”後，使用正則表示式的地方都基本能應對。唯一搞不清的是不懂為什麼re.search的還要用group()才能獲取匹配的結果（而且是group這麼個感覺和獲取字串完全

Python3 正則表示式特殊符號及用法（詳細列表）

正則表示式的強大之處在於特殊符號的應用，特殊符號定義了字元集合、子組匹配、模式重複次數。正是這些特殊符號使得一個正則表示式可以匹配字串集合而不只是一個字串。注1：為了便於理解，難點的地方均用斜體舉了栗子

Python3 正則表示式

　　正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

Python3正則表示式_re模組_教程詳解_筆記_完整內容

正則表示式，用於在一大堆資料中查詢資訊，學習後有利於爬蟲資訊抓取。 “. ^ $ * + ? { } [ ] \\ | ( )”是元字元（關鍵字），如要匹配原字元則需加“\\”，如“\\[”“\\\\”。為避免與轉義符（\\n、\\b）衝突，可

python3 spider --- BeautifulSoup替代正則表示式

import requests, re, json, bs4, lxml from bs4 import * html_doc = \"\"\" <html><head><title>學習python的正確姿勢</title></head>

Python3.8_正則表示式

以下內容來源於老男孩正則表示式定義和作用 #正則表示式是什麼? 它是約束字串匹配某種形式的規則

Python3使用re模組解析正則表示式

正則表示式是程式語言中一種重要的功能，用於按指定規則從文字中匹配出指定的值。

正則表示式在iOS開發中的應用

在iOS開發過程中，正則的使用還是比較常見，用來判斷使用者名稱、手機號等的輸入。當碰到這種需求的時候，部分開發的第一印象可能是使用 NSPredicate 的 SELF MATCHES %@ 進行判斷，但遺憾的是此方法並非萬能，存在檢

iOS深思篇 | 正則表示式

一. 背景 1.1 簡介關於正則表示式，相信大家並不陌生，可能平時只是貼上下相關程式碼，並不瞭解裡面所寫匹配規則。這篇文章我們將介紹iOS相關正則表示式基本語法和一些例項，希望看完此文大家能有所收穫；

正則表示式之Matcher類中group方法

前言同事把一個excel表給我，裡面的資料大概有幾千的樣子吧。自己需要把裡面的資料一個一個拿出來做一個http請求，對得到的結果進行過濾，然後再寫到上面去。這是就涉及到用指令碼來進行操作了，於是自己搞了一個Ja

c++11中regex正則表示式示例簡述

regex庫中涉及到的主要型別有：以std::string為代表的處理字串的型別（我們知道還有儲存wchar_t的wstring類、原生c式字串const char*等等，為了簡化處理僅介紹std::string型別相關的操作，當你把握住了regex的主脈

使用pyqt5 tablewidget 單元格設定正則表示式

tablewidget pyqt5的tablewidget元件比較特殊，每個方格可以裝載其他元件來搭配實現不同的效果，所以在qtdesigner上找不到視覺化直接設定mask或者其他可以限制填入單元格的設定

python 利用正則表示式提取特殊資訊

1、刪除字串中的 Python註釋案例： import re time = \"2020-01-01 # 這是一個日期\" num = re.sub(r\'#.*$\',\"\",time)#以#為分隔，去掉後面的資訊

Eclipse使用正則表示式快速修改程式碼的方法

背景：因為pyhon2.7將停止維護，公司pyhon專案需要將python版本從2.7升級到3.8。所以在python中例如data.has_key(\'json\')將不可使用了，那麼需要全部更換成\'json\' in data

JS正則表示式驗證埠範圍(0-65535)

javascript正則表示式驗證IP地址的埠合法性 if (!(/^[1-9]\\d*$/.test(port) && 1 <= 1 * port && 1 * port <= 65535)){

通過正則表示式驗證IP和埠格式的正確性

在網頁開發中可能會遇到需要對在頁面輸入的ip和埠進行正確性驗證，那麼正則表示式就是最有力的工具：

Python正則表示式匹配字串中的數字

1.使用“\\d+”匹配全數字程式碼： import re zen = \"Arizona 479,501,870. Carlifornia 209,213,650.\"

python 正則表示式引數替換例項詳解

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

常用正則表示式大全(金錢,非負整數,正整數,郵箱,手機號碼)

什麼是正則表示式？正則表示式是由一個字元序列形成的搜尋模式。當你在文字中搜索資料時，你可以用搜索模式來描述你要查詢的內容。

Python3 正則表示式

1.re.match函式

2.re.search方法

3.re.match與re.search的區別

4.檢索和替換

4.1 repl 引數是一個函式

4.2 compile 函式

4.3 findall

4.4 re.finditer

4.5 re.split

5.正則表示式物件

6.正則表示式修飾符 - 可選標誌

7.正則表示式模式

8.正則表示式例項

相關推薦