1. 程式人生 > 程式設計 >python網路爬蟲精解之正則表示式的使用說明

python網路爬蟲精解之正則表示式的使用說明

目錄
  • 一、常見的匹配規則
  • 二、常見的匹配方法
    • 1、match()
    • 2、search()
    • 3、findall()
    • 4、sub()
    • 5、compile()

一、常見的匹配規則

在這裡插入圖片描述

二、常見的匹配方法

1、match()

match()方法從字串的起始位置開始匹配,該方法有兩個引數,第一個是正則表示式,第二個是需要匹配的字串;

re.match(正則表示式,字串)

如果該方法匹配成功,返回的是SRE_Match物件,如果未匹配到,則返回None。

返回成功後有兩個方法,group()方法用來檢視匹配到的字串,span()方法用來輸出匹配的範圍。

import rhttp://www.cppcns.come
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W\d\d\d\s\d{3}',content)
print(result)
print(result.group())
print(result.span())

【執行結果】

<re.Match object; span=(0,19),match='Hello_World,123 456'>
Hello_World,123 456
(0,19)

子字串匹配

在上述我們匹配到了完整的字串,但是實際需求中可能只需要其中的一部分,這時我們僅需要在要獲取的子字串匹配時加上括號即可。

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W(\d+)\s(\d{3})',content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))

【執行結果】

<re.Match object; span=(0,19)
123
456

這樣通過加括號的形式,將字串中的數字匹配出來。

通用匹配符

.* 其中.用來匹配任意字元(除換行符),*代表前面出現的字元無限次。因此之前的匹配形式可以寫為:

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\.*456$',content)
print(result.group())

【執行結果】

Hello_World,123 456

貪婪匹配和非貪婪匹配

.*匹配是貪婪匹配

.*http://www.cppcns.com

?是非貪婪匹配

二者的主要區別是,貪婪匹配儘可能多的去匹配字元,而非貪婪匹配是儘可能少的匹配字元。下列程式碼能夠更直觀的瞭解二者之間的區別

import re
content = 'number 12345678 test'
result_1 = re.match('^number.*(\d+).*test$',content)
print('貪婪匹配得到的數字:' + result_1.group(1))
result_2 = re.match('^number.*?(\d+).*test$',content)
print('非貪婪匹配得到的數字:' + result_2.group(1))

【執行結果】

貪婪匹配得到的數字:8
非貪婪匹配得到的數字:12345678

大家會有這樣一個疑問為什麼貪婪匹配得到的數字少,而非貪婪匹配得到的多,這與前面講的不太符合啊。

注意,在匹配的時候,貪婪匹配是儘可能多的去匹配字元,因此.*就匹配的是' 1234567‘,只留下8給\d+匹配,非貪婪匹配是儘可能少的匹配字元,故.*?匹配的是' ',留下12345678給\d+匹配,就會得到上述結果。

修飾符

修飾符 作用
re.I 忽略大小寫進行匹配
re.L 做本地化識別匹配
re.M 多行匹配,影響^和$
re.S 使.匹配包含換行符在內的所有字元
re.U 根據Unicode字符集解析字元
re.X 更加靈活的編寫正則表示式

轉義匹配

匹配特殊字元時,在其前面加反斜線(\)完成轉義匹配。

2、search()

在匹配時會掃描整個字串,然後返回第一個成功匹配的結果。如果將整個字串搜尋完了之後還是沒有匹配到,則返回None。

3、findall()

與search()不同的是,findall()方法是將返回所有符合正則表示式匹配的內容。返回結果是一個列表,列表中的每個元素都是元組型別。

4、sub()

修改文字內容,原客棧理是對要修改的內容進行替換。

import re
temp = "abcdef123ghi456"
temp = re.sub("\d+","",temp)
print(temp)

【執行結果】

abcdefghi

sub()中的引數分析,第一個引數是正則表示式匹配要更改的內容,第二個引數是使用該引數內容進行替換,第三個引數是要更改的字串。

5、compile()

將正則字串編譯成正則表示式物件,以便在後面的匹配中進行復用。

到此這篇關於網路爬蟲精解之正則表示式的使用說明的文章就介紹到這了,更多相關python 正則表示式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!