Python爬蟲學習必備知識點：正則表示式模組詳解

阿新 • • 發佈：2018-11-07

一、基礎語法總結

1.1、匹配單個字元

a . d D w W s S [...] [^...]

匹配單個字元（.）

規則：匹配除換行之外的任意字元
In [24]: re.findall("f.o","foo is not fao")
Out[24]: ['foo', 'fao']

匹配任意（非）數字字元（d D）

d [0-9]
D [^0-9]

匹配任意（非）普通字元（w W）

w 普通字元 包括[_0-9A-Za-z] 同時也包括漢字
W 非普通字元

匹配任意（非）空字元（s S）

s 匹配任意空字元 [
	]
S 匹配任意非空字元

匹配字元集合（[...]）

[A-Z][a-z][0-9][_123a-z]

匹配字符集（[^...]）

規則：字符集取非，除列出的字元之外的任意一個字元
[^abc] --> 除a b c之外任意字元

1.2、匹配多個字元

* 匹配0次或者多次
+ 匹配1次或者多次
? 匹配0次或者1次
{m} 匹配m次
{m,n} 匹配m次到n次區間內的任意一次

1.3、匹配位置

^ 匹配開始位置
$ 匹配結束位置
A 匹配開始位置
Z 匹配結束位置
 匹配單詞邊界位置（一般用於首字母大寫的匹配）
B 匹配非單詞邊界問題

1.4、轉義

在正則表示式中有一類特殊字元需要轉移，只需要在特殊字元之間加上表示轉移即可

. * + ? ^ $ [] {} () |

1.5、子組

使用() 可以為正則表示式建立內部分組，子組為正則表示式的一部分，可以看做一個內部整體。

In [61]: re.search(r"(https|http|ftp)://w+.w+.(com|cn)","https://www.baidu.com").group(0)
Out[61]: 'https://www.baidu.com'
In [62]: re.search(r"(https|http|ftp)://w+.w+.(com|cn)","https://www.baidu.com").group(1)
Out[62]: 'https'

1.6、貪婪模式和非貪婪模式

正則表示式的重複匹配總是儘可能多的向後匹配更多的內容。貪婪模式包括：* + ? {m,n}

非貪婪模式：儘可能少的匹配內容貪婪模式轉換為非貪婪模式：*? +? ?? {m,n}?

In [106]: re.findall(r"ab+?","abbbbbbbb")
Out[106]: ['ab']
In [107]: re.findall(r"ab??","abbbbbbbb")
Out[107]: ['a']

二、Re模組

Python爬蟲學習必備知識點：正則表示式模組詳解

接下來我所有函式裡面的引數解釋如下：

pattern：正則表示式
string：目標字串
pos：擷取目標字串起始位置
endpose：擷取目標字串結束位置
flags:功能標誌
replaceStr：替換的字串
max：最多替換幾處（預設替換全部）

有上圖我們看出來，接下來我們要將的Python中re模組、regex物件、match物件三者之間是存在一定關係的。

1、re模組的compile方法返回一個regex物件
2、re模組和regex物件的finditer()、fullmatch()、match()、search()等方法返回一個match物件
3、他們分別有自己的屬性和方法

2.1、compile

regex = re.compile(pattern, flags = 0) # 生成正則表示式物件

2.2、findall

re.findall(pattern,string,pos,endpose) # 從目標字串中匹配所有符合條件的內容

2.3、split

re.split(pattern,string,flags) #根據正則表示式對目標字串進行分割
In [79]: re.split(r's+',"Hello World")
Out[79]: ['Hello', 'World']

2.4、sub

re.sub(pattern,replaceStr,string,max,flags)
In [80]: re.sub(r's+',"##","hello world")
Out[80]: 'hello##world'

2.5、subn

re.subn(pattern,replaceStr,string,max,flags) #功能同sub，但是返回值返回替換後的字串和替換了幾處
In [80]: re.sub(r's+',"##","hello world")
Out[80]: ('hello##world',1)

2.6、finditer

re.finditer(pattern,string) #使用正則表示式匹配目標字串，返回一個match物件，match物件呼叫group()之後才能拿到值
In [87]: it = re.finditer(r'd+',"2014nianshiqiqngduo 08aoyun 512dizhen")
In [88]: for i in it:
 ....: print(i)
 ....: 
<_sre.SRE_Match object at 0x7f0639767920>
<_sre.SRE_Match object at 0x7f0639767ac0>
<_sre.SRE_Match object at 0x7f0639767920>
In [93]: it = re.finditer(r'd+',"2014nianshiqiqngduo 08aoyun 512dizhen")
In [94]: for i in it:
 ....: print(i.group())
 ....: 
2014
08
512

2.7、fullmatch

fullmatch(pattern,string,flags) #完全匹配目標字串，相當於加了^ 和 $

2.8、match

re.match(pattern,string,flags) #匹配目標字串開頭的位置

2.9、search

re.search(pattern,string,flags) # 正則表示式匹配目標字串，只匹配第一處

三、一些練習題

3.1、匹配首字母大寫的單詞

import re
f = open('test.txt')
pattern= r'[A-Z][a-zA-Z]*s*'
# pattern= r'[A-Z]S'
L = []
for i in f:
 L += re.findall(pattern,i)
print(L)

test.txt文件內容如下：

Hello World -12.6
Nihao 123
How are you -12
1.24
asdk 34%,
佔比 1/2
2003 - 2005./%

3.2、匹配數字（正數、負數、小數、百分數、分數）

import re
pattern = "-?d+((/?d+)|((.)?d+)|((%)?))"
f = open('test.txt')
l = []
for line in f:
 l += re.finditer(pattern,line)
for i in l:
 print(i.group())

Python爬蟲學習必備知識點：正則表示式模組詳解

一、基礎語法總結 1.1、匹配單個字元 a . d D w W s S [...] [^...] 匹配單個字元（.）規則：匹配除換行之外的任意字元 In [24]: re.findall("f.o","foo is not fao") Out[24]: ['foo',

python爬蟲學習筆記6：正則表示式及re庫

正則表示式語法常用操作符 re庫 import re re庫的主要功能函式 re.search() re.search(pattern,string,f

Python爬蟲學習（四）正則表示式

正則表示式是用來匹配字串非常強大的工具，在其他程式語言中同樣有正則表示式的概念，Python同樣不例外，利用了正則表示式，我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。貪婪模式與非貪婪模式正則表示式通常用於在文字中查詢匹配的字串。Python裡數量詞

Python 正則表示式模組詳解

由於最近需要使用爬蟲爬取資料進行測試，所以開始了爬蟲的填坑之旅，那麼首先就是先系統的學習下關於正則相關的知識啦。所以將下面正則方面的知識點做了個整理。語言環境為Python。主要講解下Python的Re模組。下面的語法我就主要列出一部分，剩下的在python官網直接查閱即可：docs.python.org

python爬蟲學習第五章正則

多行匹配 href out 地址常見 apt 分別是 all arch html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,b

Python 學習筆記之：正則表示式

一、正則表示式的概念 1.使用單個字串來描述匹配一系列符合某個句法規則的字串； 2.是對字串操作的一種邏輯公式； 3.其應用場景為處理文字和資料； 4.正則表示式的執行過程：依次拿出表示式和文字中的字串比較，如果每個字元都能匹配成功，則匹配成功；否則匹配失敗。二、re模

Python學習筆記26：正則表示式

使用 ? 和 * 萬用字元來查詢硬碟上的檔案。? 萬用字元匹配檔名中的 0 個或 1 個字元，而 * 萬用字元匹配零個或多個字元。像 data(\w)?\.dat 這樣的模式將查詢下列檔案： data.dat data

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python的學習筆記DAY10---關於正則表示式

正則表示式用來匹配查詢文字和資料，簡單的說，是一些由字元和特殊符號組成的字串，描述了模式的重複或者表述多個字元。其能按照某種模式匹配一系列有相似特徵的字串。 Python中的正則表

python爬蟲的re庫（正則表示式匹配）

re庫是python中自帶的一個庫，不需要外部匯入。它主要是支援正則表示式匹配。下面來說一下其主要功能函式：函式說明 re.search() 在一個字串中搜索匹配正則表示式的第

爬蟲第三課：正則表示式

Regular expression 正則表示式正則表示式可以非常簡潔的表達一組很長字串的特徵，所以把正則表達說成一行勝千言。可以把一組字串的特徵或特點表達出來。比如說有一組字串：無窮多個以L開頭後面有一個或無窮多個H字串。 ‘LH’ ‘LHH’ ‘LHHH’ …

Python爬蟲教程第3節-正則表示式

正則表示式（Regular Expression)對於正則表示式，我們要搞懂公式怎麼寫、寫出來表示什麼。即弄懂它怎麼產生、又怎麼去用。what:正則表示式是操作字串的一種邏輯公式，是一種邏輯表示式，是對一類有規律字串的抽象。where:正則表示式主要用於字串匹配，即將與正則表

python3爬蟲——正則表示式re詳解（1）

（一）什麼是正則表示式還早呢過這表示式是對字串操作的一種邏輯公式，就是用實現定義好的一些特定的字元，及這些特定的字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯 ps：正則表示式非python獨有，使用re模組即可實現（二

LeetCode Hard 10 正則表示式匹配詳解 Python 動規

def isMatch(self, s, p): """ Solution Method 演算法:動規思路：動規的思路是在遞迴的"暴力"解法下啟發的，暴力解法首先是將正則表示式匹配問題看成是比較兩個字串相互匹配的變種問題，就從頭開始一個字

QT---之正則表示式QRegExp詳解

引言正則表示式（regular expression）就是用一個“字串”來描述一個特徵，然後去驗證另一個“字串”是否符合這個特徵。比如表示式“ab+” 描述的特徵是“一個 'a' 和任意個 'b' ”，那麼 'ab', 'abb', 'abbbbbbbbb

MySQL之聚合查詢、子查詢、合併查詢、正則表示式查詢詳解

一：聚合查詢 1：MySQL之聚合函式基本表orderitems表結構如下： 2：count()函式 2.1：count()函式用來統計記錄的條數 2.2：與group by 關鍵字一起使用 SQL語句如下: 查詢的結果如下： 3：su

Python3 如何優雅地使用正則表示式（詳解一）

正則表示式介紹正則表示式（Regular expressions 也稱為 REs，或 regexes 或 regex patterns）本質上是一個微小的且高度專業化的程式語言。它被嵌入到 Python 中，並通過 re 模組提供給程式猿使用。使用正則表示式，你需要指定一些規則來描述那些你

Python3 如何優雅地使用正則表示式（詳解六）

上一篇：Python3 如何優雅地使用正則表示式（詳解五）修改字串我們已經介紹完如何對字元進行搜尋，接下來我們講講正則表示式如何修改字串。正則表示式使用以下方法修改字串：方法用途 split(

Python3 如何優雅地使用正則表示式（詳解五）

上一篇：Python3 如何優雅地使用正則表示式（詳解四）非捕獲組和命名組精心設計的正則表示式可能會劃分很多組，這些組不僅可以匹配相關的子串，還能夠對正則表示式本身進行分組和結構化。在複雜的正則表示式中，由於有太多的組，因此通過組的序號來跟蹤和使用會變得困難。有兩個

Python3 如何優雅地使用正則表示式（詳解四）

上一篇：Python3 如何優雅地使用正則表示式（詳解三）更多強大的功能到目前為止，我們只是介紹了正則表示式的一部分功能。在這一篇中，我們會學習到一些新的元字元，然後再教大家如何使用組來獲得被匹配的部分文字。更多元字元還有一些元字元我們

Python爬蟲學習必備知識點：正則表示式模組詳解

相關推薦