網路爬蟲筆記【6】 Python 中的正則表示式模組與應用

阿新 • • 發佈：2018-12-17

python3 內建的 re 模組，包含了正則表示式的操作集。 re 模組的一般使用步驟如下：

編譯正則表示式，即使用 compile() 函式將正則表示式的字串形式編譯為一個 Pattern 物件。
對目標字串進行匹配，即通過 Pattern 物件提供的一些列方法對文字進行匹配查詢，獲得匹配結果（Match 物件）
提取結果資訊，即使用 Match 物件提供的屬性和方法獲得資訊，還可以根據需要進行其他操作。

compile 函式

Compile 函式用於編譯正則表示式，生成一個 Pattern 物件。一般使用形式如下：

import re
pattern = re.compile(一個正則表示式)

成功編譯並構造 pattern 物件後，就可以使用 pattern 物件方法查詢、替換、統計目標字串中與正則表示式匹配的子字串了。pattern 物件可呼叫的方法有：

match 方法：從起始位置開始查詢，一次匹配
search
fullmatch
sub
subn
split
purge
template
escape
error
findall
finditer 事實上，這些函式不僅是物件可呼叫的，也是可以使用 re 模組直接呼叫的。

match 方法

match 方法用於在字串起始位置進行模式匹配，若匹配則返回 Match 物件，否則返回 None。

match(pattern, string, flags=0) 
# method of re module Try to apply the pattern at the start of the string, returning a match object, or None if no match was found. 

match(string=None, pos=0, endpos=None, pattern=None) 
# method of Pattern instance Matches zero or more characters at the beginning of the string.

下面舉例說明：

''' re 模組 compile 方法與 match 方法示例'''
import re

text1 = 'sdaksfhksjdfnkfsjldhfsk234sfd65s1df55s3sdf4156sd4et489t74t6'
text2 = 'SDakufasdakru9013rgp2k;.,/,.;.t2,445,3/4l,63;lk,3;l,43'

print('執行結果：\n')
pattern = re.compile('sdak')

# <_sre.SRE_Match object; span=(0, 4), match='sdak'>
match = pattern.match(text1)
print(match)
print('---'*10)

# None
match = pattern.match(text2)
print(match)
print('---'*10)

# <_sre.SRE_Match object; span=(7, 11), match='sdak'>
match = pattern.match(text2, pos = 7)
print(match)

if match:
    # sdak
    print(match.group())
print('---'*10)

# re.IGNORECASE 忽略大小寫
pattern = re.compile('sdak', flags = re.IGNORECASE)
match = pattern.match(text2)

if match:
    # SDak
    print(match.group())
print('---'*10)

執行結果：

<_sre.SRE_Match object; span=(0, 4), match='sdak'>
------------------------------
None
------------------------------
<_sre.SRE_Match object; span=(7, 11), match='sdak'>
sdak
------------------------------
SDak
------------------------------

Match 物件

match 物件是正則表示式匹配目標字串後返回的結果物件。它可呼叫以下方法：

group([group1, …])方法，用於獲得一個或多個分組匹配的字串，當要獲得整個匹配的子串時，可直接使用 group() 或 group(0)；
start([group]) 方法用於獲取分組匹配的子串在整個字串中的起始位置（子串第一個字元的索引），引數預設值為 0；
end([group]) 方法用於獲取分組匹配的子串在整個字串中的結束位置（子串最後一個字元的索引+1），引數預設值為 0；
span([group]) 方法返回 (start(group), end(group))。

import re

text = '[email protected]中文QQ郵箱'

# 定義正則表示式，匹配目標字串中的電子郵箱
regexstr = '\[email protected]\w+\.[a-z]+'

# 將正則表示式編譯成 Pattern 物件
pattern = re.compile(regexstr)

# 匹配
match = pattern.match(text)

if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())

執行結果：

[email protected]
0
15
(0, 15)

search 方法

Search 方法用於查詢字串的任何位置，它只返回從左到右第一個匹配的結果，而不是查詢所有匹配的結果。

# search 方法示例

import re

text = 'one12twothree34four'

# 設定正則表示式查詢第一個數字串
regexstr = '\d+'
pattern = re.compile(regexstr)

# match 方法是從第一個字元開始匹配，這裡第一個字元不是數字，則返回 None
match = pattern.match(text)

print('pattern.match:')
print(match)
    
print('---'*10)
# search 方法是從左往右檢索，返回第一個匹配到的結果，這裡返回 12
match = pattern.search(text)
print('pattern.search:')

if match:
    print(match.group())
    print(match.span())

執行結果：

pattern.match:
None
------------------------------
pattern.search:
12
(3, 5)

findall 與 finditer 方法

上面的 match 和 search 方法都是一次性匹配，而有時需要獲取目標字串中所有匹配的結果，這需要使用 findall 或 finditer 方法。使用形式如下：

findall(string[, pos[, endpos]])
其中，string 是待匹配的字串，pos 和 endpos 是可選引數，指定字串的起始和終點位置，預設值分別是 0 和 len (字串長度)。

finditer 方法的行為跟 findall 的行為類似，也是搜尋整個字串，獲得所有匹配的結果，但是它返回一個順序訪問每一個匹配結果（Match 物件）的迭代器。

簡單講就是，findall 會把所有結果一次性返回，finditer 得用迴圈一個一個返回

import re

text = '你好[email protected]中文QQ郵箱'

# 定義正則表示式，匹配字串中的中文
regexstr = u'[\u4e00-\u9fa5]+'

pattern = re.compile(regexstr)
matchlist = pattern.findall(text)

if matchlist:
    print(matchlist)
    
else:
    print('None')

print('---'*10)

matchiter = pattern.finditer(text)
if matchiter:
    print(matchiter)
    for m in matchiter:
        print('Match result:{}, postion: {}'.format(m.group(),m.span()))
else:
    print('None')

執行結果：

['你好', '中文', '郵箱']
------------------------------
<callable_iterator object at 0x00000165B601D630>
Match result:你好, postion: (0, 2)
Match result:中文, postion: (17, 19)
Match result:郵箱, postion: (21, 23)

split 方法

split 方法按照能夠匹配的子串將字串分割後返回列表，它的使用形式如下：

split(string[, maxsplit])
其中，maxsplit 用於指定最大分割次數，不指定將全部分割。

import re

text = 'a,b;;c d  ,;e'
# 正則表示式，字串前加 r，表示該字串是 raw string。
regexstr = r'[\,\;\s]+'

pattern = re.compile(regexstr)
match = pattern.split(text)

if match:
    print(match)
else:
    print('None')

執行結果：

['a', 'b', 'c', 'd', 'e']

sub 方法

sub 方法用於替換。它的使用形式如下：

sub(repl, string[, count])

repl 可以是字串也可以是一個函式
- 如果 repl 是字串，則會使用 repl 去替換字串每一個匹配的子串，並返回替換後的字串，另外，repl 還可以使用 id 的形式來引用分組，但不能使用編號 0；
- 如果 repl 是函式，這個方法應當只接受一個引數（Match物件），並返回一個字串用於替換（返回的字串中不能再引用分組）。
count 用於指定最多替換次數，不指定時全部替換。

import re

# 設定模式：兩個英文字元或數字的分組，中間用空格隔開
text = 'Hello 123, Hello 456'
regexstr = r'(\w+) (\w+)'
repl = 'Hello World'
pattern = re.compile(regexstr)

# 使用 'Hello World' 替換 'Hello 123' 和 'Hello 456'
res = pattern.sub(repl,text)
print(res)
print('---'*10)

# 引用分組
repl = r'\2 \1'
# regexstr 第一個括號裡匹配到的是 \1 ,第二個括號裡匹配到的是 \2
res = pattern.sub(repl,text)
print(res)
print('---'*10)

# 指定替換次數
def func(m):
    return ('hi' + ' ' + m.group(2))

print(pattern.sub(func,text))
print(pattern.sub(func,text,1))

執行結果：

Hello World, Hello World
------------------------------
123 Hello, 456 Hello
------------------------------
hi 123, hi 456
hi 123, Hello 456

貪婪模式與非貪婪模式

貪婪模式，指的是整個表示式匹配成功的前提下，儘可能多的匹配（使用 * ），python 裡數量詞預設是貪婪的；
非貪婪模式，指的是整個表示式匹配成功的前提下，儘可能少的匹配（使用 *? ）

# demo 1

import re

text = 'abbbbbbbbbbbbccccc'
regexStr1 = 'ab*'
regexStr2 = 'ab*?'

pattern = re.compile(regexStr1)
match = pattern.match(text)
print('貪婪模式：' + match.group())

print('---'*10)

pattern = re.compile(regexStr2)
match = pattern.match(text)
print('非貪婪模式：' + match.group())

執行結果：

貪婪模式：abbbbbbbbbbbb
------------------------------
非貪婪模式：a

# demo 2

import re

text = 'aa<div>test1</div>bb<div>test2</div>cc'
regexStr1 = '<div>.*</div>'
regexStr2 = '<div>.*?</div>'

pattern = re.compile(regexStr1)
m = pattern.search(text)
print(m.group())

print('---'*10)

pattern = re.compile(regexStr2)
m = pattern.search(text)
print(m.group())

執行結果：

<div>test1</div>bb<div>test2</div>
------------------------------
<div>test1</div>

網路爬蟲筆記【6】 Python 中的正則表示式模組與應用

python3 內建的 re 模組，包含了正則表示式的操作集。 re 模組的一般使用步驟如下：編譯正則表示式，即使用 compile() 函式將正則表示式的字串形式編譯為一個 Pattern 物件。對目標字串進行匹配，即通過 Pattern 物件提供的一些列方法對文字

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

1000行程式碼徒手寫正則表示式引擎【1】--JAVA中正則表示式的使用

簡介：本文是系列部落格的第一篇，主要講解和分析正則表示式規則以及JAVA中原生正則表示式引擎的使用。在後續的文章中會涉及基於NFA的正則表示式引擎內部的工作原理，並在此基礎上用1000行左右的JAVA程式碼,實現一個支援常用功能的正則表示式引擎。它支援貪婪匹配和懶惰匹配；支援零寬度字元（如“\b”， “\B

【Leetcode】Python實現正則表示式匹配

給定一個字串 (s) 和一個字元模式 (p)。實現支援 ‘.’ 和 ‘*’ 的正則表示式匹配。 ‘.’ 匹配任意單個字元。 ‘*’ 匹配零個或多個前面的元素。匹配應該覆蓋整個字串 (s) ，而不

1000行代碼徒手寫正則表達式引擎【1】--JAVA中正則表達式的使用

基礎上 unicode 要求 [1] 分配 find 通過 images char 簡介：本文是系列博客的第一篇，主要講解和分析正則表達式規則以及JAVA中原生正則表達式引擎的使用。在後續的文章中會涉及基於NFA的正則表達式引擎內部的工作原理，並在此基礎上用1000行左右

【RegExp】JavaScript中正則表達式判斷匹配規則以及常用方法

返回空字符串 tro true 正則表達式 str 本地大小表示範圍字符串是編程時涉及到的最多的一種數據結構，對字符串進行操作的需求幾乎無處不在。正則表達式是一種用來匹配字符串的強有力的武器。它的設計思想是用一種描述性的語言來給字符串定義一個規則，凡是符合規則的字

【2017-11+10】 JS中正則表示式詳解

在JS的開發過程中，很多時候都需要驗證表單的正確性；使用正則表示式能夠很好的簡化表單的驗證過程。在JS中，內建了 RegExp 物件，用來進行正則匹配。一. RegExp 物件的使用

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

Python中正則表示式常用函式sub,search,findall,split等使用

1.原生字串r python中字串前面加上 r 表示原生字串,不會轉義。與大多數程式語言相同，正則表示式裡使用"\"作為轉義字元，這就可能造成反斜槓困擾。假如你需要匹配文字中的字元"\"，那麼使用程式語言表示的正則表示式裡將需要4個反斜槓"\\"：前兩個和後兩個分別用於在程式語言裡轉義成反斜

Python中正則表示式對單個字元，多個字元，匹配邊界等使用

Regular Expression，正則表示式，又稱正規表示式、正規表示法、正則表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），是電腦科學的一個概

python中正則表示式1

1.模式語言 1）任何字元只與其本身匹配 2）"."匹配任意字元 3）"*" 表示其前面那個字元可匹配0個或任意多個相同字元 4）"^"只匹配目標串的開頭 5）"$"只匹配目標串的結尾 2.原始字串定義:在常規字串前加上r或者R字首. r'd:\test\1.t

python中正則表示式的使用

正則表示式 python中需要使用正則表示式對字串進行匹配的時候，需要匯入re模組 #coding=utf-8 # 匯入re模組 import re # 使用match方法進行匹配操作 result = re.match(正

Python中正則表示式介紹

正則正則表通常是用來檢索、替換那些符合某個模式(規則)的文字。也就是說使用正則表示式可以在字串中匹配出你需要的字元或者字串，甚至可以替換你不需要的字元或者字串。正則（不是python特有的）匹配字串,其他語言也有正則表示式例項：需求：輸入字元，判斷字

【JavaScrpit】字串和正則表示式的4個相關方法

字串和正則表示式的4個方法：split( ); search( ); match( ); replace( ); 下面介紹4個方法的各自作用： split( ); ：可以將一個字串拆分為

python 中正則表示式用法 re.findall()

參考部落格原址：https://blog.csdn.net/YZXnuaa/article/details/79346963 <link rel="stylesheet" href="https://csdnimg.cn/relea

【Go】常用的正則表示式

/*********************************************************** *名字 golang 正則工具 *功能支援數字，字母，字元，常用資訊（電話，郵箱）等的正則匹配 *作者 Razil *****************

【Struts2】validation.xml 正則表示式不起作用

配置檔案中，<param name=''></param>標籤中的name屬性值有兩種，regexExpression和expression，當配置檔案中的正則表示式不起作用時，可嘗試替換name值； ps：初步學習Struts2，在練習中遇到過這種問

python中正則表示式庫re的使用（regex）

一、正則表示式庫的引用在python中，你要使用正則表示式，需要引用程式庫re。 import re 二、正則表示式函式說明： match =》嘗試在字串的開頭運用模式，返回一個match物件

Python中-正則表示式-說明

正則表示式: (regular expression) —>>>正則表示式是用來簡潔表達一組字串的表示式是一個描述字串模式的物件正則表示式主要用來驗證使用者的資料, 以及對文字內容的資訊過濾,獲取滿足條件的內容這樣做的好處是提高匹配效率,

爬蟲筆記（六）——如何寫正則表示式詳解

什麼是正則表示式？　　正則表示式(Regular Expression)是一種文字模式，在編寫處理字串的程式或網頁時，經常會有查詢符合某些規則的字串的需求。正則表示式就是用於描述這些規則的工具，換句話說，正則表示式就是記錄文字規則的程式碼。我們將分別從原子、元子符、模式修

網路爬蟲筆記【6】 Python 中的正則表示式模組與應用

compile 函式

match 方法

Match 物件

search 方法

findall 與 finditer 方法

split 方法

sub 方法

貪婪模式與非貪婪模式

相關推薦