python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

阿新 • • 發佈：2018-11-01

一、簡介

正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。

r標識代表後面是正則的語句

二、正則表示式中常用的字元含義

1、普通字元和11個元字元：

普通字元	匹配自身	abc	abc
.	匹配任意除換行符"\n"外的字元(在DOTALL模式中也能匹配換行符	a.c	abc
\	轉義字元，使後一個字元改變原來的意思	a\.c;a\\c	a.c;a\c
*	匹配前一個字元0或多次	abc*	ab;abccc
+	匹配前一個字元1次或無限次	abc+	abc;abccc
?	匹配一個字元0次或1次	abc?	ab;abc
^	匹配字串開頭。在多行模式中匹配每一行的開頭	^abc	abc
$	匹配字串末尾，在多行模式中匹配每一行的末尾	abc$	abc
\|	或。匹配\|左右表示式任意一個，從左到右匹配，如果\|沒有包括在()中，則它的範圍是整個正則表示式	abc\|def	abc def
{}	{m}匹配前一個字元m次，{m,n}匹配前一個字元m至n次，若省略n，則匹配m至無限次	ab{1,2}c	abc abbc
[]	字符集。對應的位置可以是字符集中任意字元。字符集中的字元可以逐個列出，也可以給出範圍，如[abc]或[a-c]。[^abc]表示取反，即非abc。所有特殊字元在字符集中都失去其原有的特殊含義。用\反斜槓轉義恢復特殊字元的特殊含義。	a[bcd]e	abe ace ade
()	被括起來的表示式將作為分組，從表示式左邊開始沒遇到一個分組的左括號“（”，編號+1. 分組表示式作為一個整體，可以後接數量詞。表示式中的\|僅在該組中有效。	(abc){2} a(123\|456)c	abcabc a456c

2、預定義字符集（可以寫在字符集[...]中）

\d	數字:[0-9]	a\dc	a1c
\D	非數字:[^\d]	a\Dc	abc
\s	匹配任何空白字元:[<空格>\t\r\n\f\v]	a\sc	a c
\S	非空白字元:[^\s]	a\Sc	abc
\w	匹配包括下劃線在內的任何字字元:[A-Za-z0-9_]	a\wc	abc
\W	匹配非字母字元，即匹配特殊字元	a\Wc	a c
\A	僅匹配字串開頭,同^	\Aabc	abc
\Z	僅匹配字串結尾，同$	abc\Z	abc
\b	匹配\w和\W之間，即匹配單詞邊界匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。	\babc\b a\b!bc	空格abc空格 a!bc
\B	[^\b]	a\Bbc	abc

三、re模組中常用功能函式

1、compile()

編譯正則表示式模式，返回一個物件的模式。（可以把那些常用的正則表示式編譯成正則表示式物件，這樣可以提高一點效率。）

格式：

re.compile(pattern,flags=0)

pattern: 編譯時用的表示式字串。

flags 編譯標誌位，用於修改正則表示式的匹配方式，如：是否區分大小寫，多行匹配等。常用的flags有：

標誌	含義
re.S(DOTALL)	使.匹配包括換行在內的所有字元
re.I（IGNORECASE）	使匹配對大小寫不敏感
re.L（LOCALE）	做本地化識別（locale-aware)匹配，法語等
re.M(MULTILINE)	多行匹配，影響^和$
re.X(VERBOSE)	該標誌通過給予更靈活的格式以便將正則表示式寫得更易於理解
re.U	根據Unicode字符集解析字元，這個標誌影響\w,\W,\b,\B

import re
tt = "Tina is a good girl, she is cool, clever, and so on..."
rr = re.compile(r'\w*oo\w*')
print(rr.findall(tt))   #查詢所有包含'oo'的單詞
執行結果如下：
['good', 'cool']

2、match()

決定RE是否在字串剛開始的位置匹配。//注：這個方法並不是完全匹配。當pattern結束時若string還有剩餘字元，仍然視為成功。想要完全匹配，可以在表示式末尾加上邊界匹配符'$'

格式：

re.match(pattern, string, flags=0)

print(re.match('com','comwww.runcomoob').group())
print(re.match('com','Comwww.runcomoob',re.I).group())
執行結果如下：
com
com

3、search()

格式：

re.search(pattern, string, flags=0)

re.search函式會在字串內查詢模式匹配,只要找到第一個匹配然後返回，如果字串沒有匹配，則返回None。

print(re.search('\dcom','www.4comrunoob.5com').group())
執行結果如下：
4com

*注：match和search一旦匹配成功，就是一個match object物件，而match object物件有以下方法：

group() 返回被 RE 匹配的字串
start() 返回匹配開始的位置
end() 返回匹配結束的位置
span() 返回一個元組包含匹配 (開始,結束) 的位置
group() 返回re整體匹配的字串，可以一次輸入多個組號，對應組號匹配的字串。

a. group（）返回re整體匹配的字串，
b. group (n,m) 返回組號為n，m所匹配的字串，如果組號不存在，則返回indexError異常
c.groups（）groups() 方法返回一個包含正則表示式中所有小組字串的元組，從 1 到所含的小組號，通常groups()不需要引數，返回一個元組，元組中的元就是正則表示式中定義的組。

import re
a = "123abc456"
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))   #123abc456,返回整體
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))   #123
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))   #abc
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))   #456
###group(1) 列出第一個括號匹配部分，group(2) 列出第二個括號匹配部分，group(3) 列出第三個括號匹配部分。###

4、findall()

re.findall遍歷匹配，可以獲取字串中所有匹配的字串，返回一個列表。

格式：

re.findall(pattern, string, flags=0)

p = re.compile(r'\d+')
print(p.findall('o1n2m3k4'))
執行結果如下：
['1', '2', '3', '4']

import re
tt = "Tina is a good girl, she is cool, clever, and so on..."
rr = re.compile(r'\w*oo\w*')
print(rr.findall(tt))
print(re.findall(r'(\w)*oo(\w)',tt))#()表示子表示式 
執行結果如下：
['good', 'cool']
[('g', 'd'), ('c', 'l')]

5、finditer()

搜尋string，返回一個順序訪問每一個匹配結果（Match物件）的迭代器。找到 RE 匹配的所有子串，並把它們作為一個迭代器返回。

格式：

re.finditer(pattern, string, flags=0)

iter = re.finditer(r'\d+','12 drumm44ers drumming, 11 ... 10 ...')
for i in iter:
    print(i)
    print(i.group())
    print(i.span())
執行結果如下：
<_sre.SRE_Match object; span=(0, 2), match='12'>
12
(0, 2)
<_sre.SRE_Match object; span=(8, 10), match='44'>
44
(8, 10)
<_sre.SRE_Match object; span=(24, 26), match='11'>
11
(24, 26)
<_sre.SRE_Match object; span=(31, 33), match='10'>
10
(31, 33)

6、split()

按照能夠匹配的子串將string分割後返回列表。

可以使用re.split來分割字串，如：re.split(r'\s+', text)；將字串按空格分割成一個單詞列表。

格式：

re.split(pattern, string[, maxsplit])

maxsplit用於指定最大分割次數，不指定將全部分割。

print(re.split('\d+','one1two2three3four4five5'))
執行結果如下：
['one', 'two', 'three', 'four', 'five', '']

7、sub()

使用re替換string中每一個匹配的子串後返回替換後的字串。

格式：

re.sub(pattern, repl, string, count)

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print(re.sub(r'\s+', '-', text))
執行結果如下：
JGood-is-a-handsome-boy,-he-is-cool,-clever,-and-so-on...

其中第二個函式是替換後的字串；本例中為'-'

第四個引數指替換個數。預設為0，表示每個匹配項都替換。

re.sub還允許使用函式對匹配項的替換進行復雜的處理。

如：re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0)；將字串中的空格' '替換為'[ ]'。

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print(re.sub(r'\s+', lambda m:'['+m.group(0)+']', text,0))
執行結果如下：
JGood[ ]is[ ]a[ ]handsome[ ]boy,[ ]he[ ]is[ ]cool,[ ]clever,[ ]and[ ]so[ ]on...

8、subn()

返回替換次數

格式：

subn(pattern, repl, string, count=0, flags=0)

print(re.subn('[1-2]','A','123456abcdef'))
print(re.sub("g.t","have",'I get A,  I got B ,I gut C'))
print(re.subn("g.t","have",'I get A,  I got B ,I gut C'))
執行結果如下：
('AA3456abcdef', 2)
I have A,  I have B ,I have C
('I have A,  I have B ,I have C', 3)

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

python—【爬蟲】學習_2(正則表示式篇）3.re模組函式的深入理解

1. re.complie() 作用：如果需要重複地使用某個正則表示式，那麼你可以先將該正則表示式編譯成模式物件。complie（）函式就幫助我們將正則表示式，編譯成為一個pattern物件。 2.re.search(pattern ,string) regex.search(strin

python—【爬蟲】學習_1(基本知識篇）

首先介紹下urllib的用法 urllib提供了一系列用於操作URL的功能。常用的模組： urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 request（） urllib的ruquest模組可以非常方便地

python—【爬蟲】學習_3(異常處理）

1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用try-except語句來包圍並捕獲相應的異常。 2.HTTPError HTTPError是URLErr

【前端】JavaScript與正則表示式

一、正則表示式(regular expression簡稱res) 1、定義一個正則表示式就是由普通字元以及特殊字元（稱為元字元）組成的文字模式。該模式描述在查詢文字主體時待匹配的一個或多個字串。正則表示式作為一個模板，將某個字元模式與所搜尋的字串進行匹配。 2、作用正則表示式

【JavaScrpit】字串和正則表示式的4個相關方法

字串和正則表示式的4個方法：split( ); search( ); match( ); replace( ); 下面介紹4個方法的各自作用： split( ); ：可以將一個字串拆分為

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

【Go】常用的正則表示式

/*********************************************************** *名字 golang 正則工具 *功能支援數字，字母，字元，常用資訊（電話，郵箱）等的正則匹配 *作者 Razil *****************

【Struts2】validation.xml 正則表示式不起作用

配置檔案中，<param name=''></param>標籤中的name屬性值有兩種，regexExpression和expression，當配置檔案中的正則表示式不起作用時，可嘗試替換name值； ps：初步學習Struts2，在練習中遇到過這種問

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

【 MATLAB 】逆離散餘弦變換（idct）的基礎知識介紹

基礎知識介紹逆離散餘弦變換從離散餘弦變換 (DCT) 係數中重建序列。idct 函式是 dct 函式的逆。 The DCT has four standard variants. For a tr

python爬蟲學習之正則表示式的基本使用

一、正則表示式　　1. 正則表示式是字串處理的有力工具和技術。　　2. 正則表示式使用某種預定義的模式去匹配一類具有共同特徵的字串，主要用於處理字串，可以快速、準確地完成複雜的查詢、替換等處理要求，在文字編輯與處理、網頁爬蟲之類的場合中有重要應用。　　3. Python中，re模組提供了正則表示式操作所需

python網路爬蟲學習(三)正則表示式的使用之re.match方法

一.為什麼要學習正則表示式很好，我們現在已經能夠寫出獲得網站原始碼的程式了，我們有了第一個問題:如何從雜亂的程式碼中找到我們所需的資訊呢？此時，正則表示式的學習就顯得很有必要了。有人打趣說，當你想到用正則表示式解決一個問題時，你就擁有了兩個問題。從這句話中可

【JAVA學習】常用的正則表示式

一、校驗數字的表示式 1 數字：^[0-9]*$ 2 n位的數字：^\d{n}$ 3 至少n位的數字：^\d{n,}$ 4 m-n位的數字：^\d{m,n}$ 5 零和非零開頭的數字：^(0|[1-9][0-9]*)$ 6 非零開頭的最多帶兩位小數的數字：^(

【RegExp】JavaScript中正則表達式判斷匹配規則以及常用方法

返回空字符串 tro true 正則表達式 str 本地大小表示範圍字符串是編程時涉及到的最多的一種數據結構，對字符串進行操作的需求幾乎無處不在。正則表達式是一種用來匹配字符串的強有力的武器。它的設計思想是用一種描述性的語言來給字符串定義一個規則，凡是符合規則的字

Python數據分析學習-re正則表達式模塊

如果 dal nds 隨機數 choice 而且 inf groups 對象正則表達式為高級的文本模式匹配、抽取、與/或文本形式的搜索和替換功能提供了基礎。簡單地說，正則表達式（簡稱為 regex）是一些由字符和特殊符號組成的字符串，它們描述了模式的重復或者表述多個字

Python學習：正則表示式

正則表示式 python 使用正則表示式（re）來進行匹配引擎搜尋正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串” 關於正則表示式，必須先學會它的元字元元字元： ^ $ * +&

python學習 re正則表示式

一、正則的常用符號： . 匹配任一字元，換行符\n除外 * 匹配前一個字元0次或無限次？匹配前一個字元0次或1次 .* 貪心演算法（儘可能多的匹配） .*? &nb

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介

二、正則表示式中常用的字元含義

三、re模組中常用功能函式

相關推薦