python 正則表示式學習

阿新 • • 發佈：2018-11-28

re.match()函式：

函式語法： re.mathch ( pattern , string , flags = 0)

引數說明：

pattem	匹配的正則表示式
string	要匹配的字串
flags	標誌位，用於控制正則的匹配方式；如大小寫區分，多行匹配等

匹配成功 re.match 方法返回一個匹配的物件（object），否則返回None

可以使用group(num)或

groups()匹配物件函式來獲取匹配表示式

group(num)	匹配整個表示式的字串，可以一次輸入多個組號，在這種情況下將返回一個包含那些組所對應值得元組
group( )	返回一個包含那些小組字串得元組，從1到所含得小組號

例項：

>>> import re

>>> print(re.match('www','www.google.com').span())  #在起始位匹配

(0, 3)

>>> print 
(re.match('com','www.google.com'))#不在起始位匹配

None

例項：

>>> import re

>>> line = "Cats are smarter than dogs"

>>> # .* 表示任意匹配除換行符（\n \r）之外的任何單個或多個字元

>>> match0bj = re.match(r'(.*)are(.*?).*',line,re.M|re.I)

>>> if match0bj:

print('match0bj.group(): 
',match0bj.group())

print('match0bj.group(1):',match0bj.group(1))

print('match0bj.group(2):',match0bj.group(2))

>>> else:

print('No match!!!')

 

match0bj.group(): Cats are smarter than dogs

match0bj.group(1): Cats

match0bj.group(2):

re.search()函式：掃描整個字串並返回第一個成功的匹配

函式語法： re.search( pattern , string , flags=0 )

引數說明：

pattem	匹配的正則表示式
string	要匹配的字串
flags	標誌位，用於控制正則的匹配方式；如大小寫區分，多行匹配等

匹配成功 re.match 方法返回一個匹配的物件（object），否則返回None

可以使用group(num)或groups()匹配物件函式來獲取匹配表示式

group(num)	匹配整個表示式的字串，可以一次輸入多個組號，在這種情況下將返回一個包含那些組所對應值得元組
group( )	返回一個包含那些小組字串的元組，從1到所含得小組號

例項：

>>> import re

>>> print(re.search('www','www.google.com').span())#在起始位匹配

(0, 3)

>>> print(re.search('com','www.google.com'),span())#不在起始位匹配

(11, 14)

re.match與re.search的區別：

re.match 只匹配字串的開始，如果字串開始不符合正則表示式，則匹配失敗，函式返回None；而 re.search匹配整個字串，直到找到一個匹配。

>>> import re

>>> line = 'Cats are smarter than dogs'

>>> match0bj = re.match( r'dogs',line,re.M|re.I)

>>> if match0bj:

print("match --> match0bj.group():",match0bj.group())

else:

print("No match!!!")

 

No match!!!

>>> match0bj = re.search(r'dogs',line,re.M|re.I)

>>> if match0bj:

print("match --> match0bj.group():",match0bj.group())

else:

print("No match!!!")

 

match --> match0bj.group(): dogs

re.sub()函式:（檢索和替換）用於替換字串中的匹配項

語法：    re.sub( pattern , rep1 , string , coun=0 )

引數：

pattern	正則中的模式字串
repl	替換的字串，也可為一個函式
string	要被查詢替換的原始字串
count	模式匹配後替換的最大次數，預設0表示替換所有的匹配

例項：

>>> import re

>>> phone = '2004-959-559  # 這是一個號碼'

>>> #刪除註釋

>>> num = re.sub (r'#.*$',"",phone)

>>> print("電話號碼：",num)

電話號碼： 2004-959-559  

>>> #移除非數字的內容

>>> num = re.sub(r'-',"",phone)

>>> print("電話號碼：",num)

電話號碼： 2004959559  # 這是一個號碼

 

repl引數是一個函式：

>>> import re

>>> #將匹配的數字乘於 2

>>> def double(matched):

value = int(matched.group('value'))

return str(value * 2)

 

>>> s = 'A23G4HFD567'

>>> print(re.sub('(?P<value>\d+)',double,s))

A46G8HFD1134

re.compile()函式：

用於編譯正則表示式，生成一個正則表示式（Pattern）物件，供match()和search()這兩個函式使用！

語法格式：    re.compile( pattern [, flags ] )

引數：

pattem

一個字串形式的正則表示式

flags

（可選）表示匹配模式，比如忽略大小寫，多行模式等

具體引數：

re.I	忽略大小寫
re.L	表示特殊字符集\w,\W,\b,\B,\s,\S 依賴當前環境
re.M	多行模式
re.S	即‘ . ’並且包括換行符在內的任意字元（‘ . ’不包括換行符）
re.U	表示特殊字符集\w,\W,\b,\B,\s,\S依賴於Unicode字元屬性資料庫
re.X	為了增加可讀性，忽略空格和‘ # ’後面的註釋

例項：

>>> import re

>>> pattern = re.compile(r'\d+')

>>> m = pattern.match('one12twothree34four') #查詢頭部，沒有匹配

>>> print(m)

None

>>> m = pattern.match('one12twothree34four',2,10)  #從e的位置開始匹配，沒有匹配

>>> print(m)

None

>>> m = pattern.match('one12twothree34four',3,10)#從1的位置開始匹配，正好匹配

>>> print(m)#返回一個 Match 物件

<_sre.SRE_Match object; span=(3, 5), match='12'>

 

>>> m.group(0)#可省略 0

'12'

>>> m.start(0)#可省略 0

3

>>> m.end(0)#可省略 0

5

>>> m.span(0)#可省略 0

(3, 5)

在例項中，當匹配成功返回一個Match物件，其中：

group([group1,...])	用於獲得一個或多個分組匹配的字串，當要獲得整個匹配的子串時，可直接使用group()或group(0)
start([group])	用於獲取分組匹配的子串在整個字串中的起始位置（子串第一個字元索引）預設 0
end([group])	獲取分組匹配的子串在整個字串中的結束位置（子串最後一個字元的索引+1）預設0
span([group])	返回（start（group），end(group)）

例項+續

>>> import re

>>> pattern = re.compile(r'([a-z]+) ([a-z]+)',re.I)#re.I表示忽略大小寫

>>> m = pattern.match('hello world wide web')

>>> print (m)#匹配成功，返回一個 Match 物件

<_sre.SRE_Match object; span=(0, 11), match='hello world'>

>>> m.group(0)#返回匹配成功的整個字串

'hello world'

>>> m.span()#返回匹配成功的整個子串的索引

(0, 11)

>>> m.group(1)#返回第一個分組匹配成功的子串

'hello'

>>> m.span (1)#返回第一個分組匹配成功的子串的索引

(0, 5)

>>> m.group(2)#返回第二個分組匹配成功的子串

'world'

>>> m.span (2)#返回第二個分組匹配成功的子串的索引

(6, 11)

>>> m.groups()#等價於 (m.group(1),m.group(2), ...)

('hello', 'world')

>>> m.group(3)#不存在第三個分組——報錯error

Traceback (most recent call last):

  File "<pyshell#12>", line 1, in <module>

    m.group(3)

IndexError: no such group

findall()函式：

在字串中找到正則表示式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的則返回空list。

注意：match和search是匹配一次/findall匹配所有。

語法格式：    findall( string[, pos[, endpos]])

引數：

string	待匹配的字串
pos	可選引數，指定字串的起始位置（預設 0）
endpos	可選引數，指定字串的結束位置，（預設字串總長度）

例項：

>>> import re

>>> pattern = re.compile(r'\d+') #查詢數字

>>> result1 = pattern.findall('runoob 123 google 456')

>>> result2 = pattern.findall('run88oob123google456',0,10)

      

>>> print(result1)

['123', '456']

>>> print(result2)

['88', '12']

re.finditer()函式：

——和findall類似，在字串中找到正則表示式所匹配的所有子串，並把他們作為一個迭代器返回。

語法格式：    re.finditer( pattern, string, flags=0 )

引數:

pattern	匹配的正則表示式
string	要匹配的字串
flags	標誌位

例項：

>>> import re

>>> it = re.finditer(r'\d+','12a32bc43jf3')

>>> for match in it:

print(match.group())

 

12

32

43

3

re.split()函式：

split方法按照能夠匹配的子串將字串分割後返回列表list，語法如下：

　　re.split( pattern, string[,maxsplit=0, flags=0])

引數：

pattern	匹配的正則表示式
string	要匹配的字串
maxsplit	分隔次數，maxsplit=1>>分隔一次，預設為0 不限次數
flags	標誌位

例項：

>>>import re

>>> re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

>>> re.split('(\W+)', ' runoob, runoob, runoob.')

['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']

>>> re.split('\W+', ' runoob, runoob, runoob.', 1)

['', 'runoob, runoob, runoob.']

>>> re.split('a*', 'hello world') #對於一個找不到匹配的字串而言，split 不會對其作出分割

['hello world']

正則表示式物件：

·re.compile() 返回 RegexObject 物件

·re.MatchObject

group()返回被RE匹配的字串

——start() :返回匹配開始的位置

—— end() :返回匹配結束的位置

——span() :返回一個元組包含匹配（開始，結束）的位置

正則表示式修飾符——可選標誌：

正則表示式可以包含一些可選標誌修飾符來控制匹配的模式；修飾符被指定為一個可選的標誌；多個標誌可以通過按位 OR（I）它們來指定。（如re.I | re.M 被設定成I和M標誌）：

修飾符	作用
re.I	使匹配大小寫不敏感（忽略大小寫）
re.L	做本地化識別（locale-aware）匹配
re.M	多行匹配，影響 ^ 和 $
re.S	使 . 匹配包括換行在內的所有字元
re.U	根據Unicode字符集解析字元，這個標誌影響\w,\W,\b,\B
re.X	該標誌通過給予你更靈活的格式以便你將正則表示式寫的更易於理解

正則表示式模式：

·模式字串使用特殊的語法來表示一個正則表示式；

·字母和數字表示他們自身；一個正則表示式模式中的字母和數字匹配同樣的字串；

·多數字母和數字前加一個反斜槓時會擁有不同的含義；

·標點符號只有被轉義時才匹配自身，否則它們表示特殊的含義；

·反斜槓本身需要使用反斜槓轉義；

·由於正則表示式通常都包含反斜槓，所以你最好使用原始的字串來表示它們。

·模式元素： r'\t' 等價於 \\t 匹配相應的特殊字元；

·下表列出了re表示式模式語法中的特殊元素。如果你使用模式的同時提供了可選的標誌引數，某些模式元素的含義會該改變：

模式	作用
^	匹配字串的開頭
$	匹配任意字元，除了換行符，當DOTALL標記被指定時，則可以匹配包括換行符的任意字元
[...]	用來表示一組字元，單獨列出：[amk]匹配’a’,’m’或’k’
[^...]	不在[]中的字元：[^abc]匹配除了a,b,c之外的字元
re*	匹配0個或多個的表示式
re+	匹配1個或多個的表示式
re?	匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
re{ n}	匹配n個前面表示式（例如：”o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的“o”）
re{ n,}	精確匹配n個前面表示式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等價於"o+"。"o{0,}"則等價於"o*"。
re{n,m}	匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
a\|b	匹配a或b
(re)	匹配括號內的表示式，也表示一個組
(?imx)	正則表示式包含三種可選標誌：i,m或x —隻影響括號中的區域
(?-imx)	正則表示式關閉i，m，或x可選標誌
(?:re)	類似（...），但是不表示一個組
(?imx:re)	在括號內使用i，m，x 可選標誌
(?-imx:re)	在括號內不使用i，m，x 可選標誌
(?#...)	註釋
(?=re)	前向肯定界定符。如果所含正則表示式，以 ... 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表示式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊
(?!re)	前向否定界定符。與肯定界定符相反；當所含表示式不能在字串當前位置匹配時成功。
(?>re)	匹配的獨立模式，省去回溯。

\w	匹配數字字母下劃線
\W	匹配非數字字母下劃線
\s	匹配任意空白字元（等價於\t \n \r \f）
\S	匹配任意非空字元
\d	匹配任意數字（等價於[0-9]）
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束（如果存在換行，只匹配到換行前的結束字元）
\z	匹配字串結束
\G	匹配最後匹配完成的位置
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置（例如：‘er\b’可以匹配“never”中的‘er’但不能匹配“verb”中的‘er’
\B	匹配非單詞邊界（例如：'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'）
\n \t 等	匹配一個換行符，匹配一個製表符等
\1...\9	匹配第n個分組的內容
\10	匹配第n個分組的內容，如果它經匹配；否則指的時八進位制字元碼的表示式

正則表示式例項：

字元匹配：

[Pp]ython	匹配“Python”或“python”
rub[ye]	匹配“ruby”或“rube”
[aeiou]	匹配中括號內任意一個字母
[0-9]	匹配任何數字
[a-z]	匹配任何小寫字母
[A-Z]	匹配任何大寫字母
[a-zA-Z0-9]	匹配任何數字和字母
[^aeiou]	除了aeiou字母以外的所有字元
[^0-9]	匹配除了數字以外的字元

特殊字元類：

.	匹配除“\n”之外的任何單個字元，匹配“\n”之內的使用“ [.\n] ”模式
\d	匹配一個數字字元
\D	匹配一個非數字字元
\s	匹配任何空白字元
\S	匹配任何非空白字元
\w	匹配包含下劃線的任何單詞字元
\W	匹配任何非單詞的字元

python正則表示式學習筆記

正則表示式學習資源:https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books-zh.md 正則表達例子： | A|B

python 正則表示式學習

re.match()函式：函式語法： re.mathch ( pattern , string , flags = 0) 引數說明： pattem 匹配的正則表示式

Python正則表示式學習（1）——re.sub()基礎

re.sub（pattern，repl，string，count = 0，flags = 0） re.sub用於替換字串中的匹配項個人理解：返回將string中的pattern部分替換為repl的

Python 正則表示式學習（4）：查詢以“one”結尾，前面包含0個或多個英文字母（不能是數字或其它字元）的字串。

需求是：查詢以“one”結尾，包含0個或多個英文字母（不能是數字或其它字元）的字串。 import re str='bacdone1cdonone345dhdfgkone' p=re.compile(r'[a-zA-Z]*one') #只搜尋一次 m=re.match

[Python] 網路爬蟲和正則表示式學習總結

　　以前在學校做科研都是直接利用網上共享的一些資料，就像我們經常說的dataset、beachmark等等。但是，對於實際的工業需求來說，爬取網路的資料是必須的並且是首要的。最近在國內一家網際網路公司實習，我的mentor交給我的第一件事就是去網路上爬取資料，並對爬取的資料進行相關的分析和解析。 1.利用u

Python筆記——正則表示式學習小結

轉自：點選開啟連結這篇文章主要介紹了python 正則表示式學習小結的相關資料,非常不錯具有參考借鑑價值，需要的朋友可以參考下　　在Python中實現正則的方式是通過re（regular expression的縮寫）模組來實現的，你可以呼叫re模組的各種方法

python學習筆記09-python正則表示式

1.正則表示式當我們在Python中使用正則表示式時，re模組內部會幹兩件事情： 1. 編譯正則表示式，如果正則表示式的字串本身不合法，會報錯。 2. 用編譯後的正則表示式去匹配字串。 #匯入正則表示式模組 >> import re #正則匹配電話 &g

Python正則表示式的簡單應用和示例演示

前一陣子小編給大家連續分享了十篇關於Python正則表示式基礎的文章，感興趣的小夥伴可以點選連結進去檢視。今天小編給大家分享的是Python正則表示式的簡單應用和示例演示，將前面學習的Python正則表示式做一個概括。下面的栗子是用於提取高考日期，一般來說，我們填寫日期都會寫2018年6月7日，但

Python正則表示式初識（九）

繼續分享Python正則表示式的基礎知識，今天給大家分享的特殊字元是[\u4E00-\u9FA5]，這個特殊字元最好能夠記下來，如果記不得的話通過百度也是可以一下子查到的。該特殊字元是固定的寫法，其代表的意思是漢字。換句話說，只要字元中是漢字，就可以通過該字元進行匹配，該特殊字元也是用中括號括起來的。

java正則表示式學習筆記

本人在開發中使用正則表達的場景並不多，偶爾用一下，學習一波，時間久了就又忘記了，放到部落格中，說不定什麼時候就用到了。一.正則表示式的語法這個語法表來自：http://www.runoob.com/java/java-regular-expressions.html

Python 正則表示式：compile,match

本文以匹配×××ID為例，介紹re模組的compile與match的用法複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 +

Python 正則表示式模組詳解

由於最近需要使用爬蟲爬取資料進行測試，所以開始了爬蟲的填坑之旅，那麼首先就是先系統的學習下關於正則相關的知識啦。所以將下面正則方面的知識點做了個整理。語言環境為Python。主要講解下Python的Re模組。下面的語法我就主要列出一部分，剩下的在python官網直接查閱即可：docs.python.org

Python 正則表示式：search

本文介紹re模組的search的用法複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 + re.search（

Python | 正則表示式的常見用法

正則表示式的常見用法分為兩塊內容，第一部分是一般具有正則的高階語言都支援的功能，第二部分講解Python所獨特具備的正則特性。 Part 1 正則表示式是由普通字元（例如字元a到z）以及特殊字元（稱為“元字元”）組成的文字模式。模式用於在搜尋文字時要匹配一個或多個字串。

python 正則表示式找出字串中的純數字

1、簡單的做法 >>> import re >>> re.findall(r'\d+', 'hello 42 I'm a 32 string 30') ['42', '32', '30'] 然而，這種做法使得字串中非純數字也會識別 >

python 正則表示式簡介

python 正則表示式簡介 1.正則表示式：描述字串排列的一套規則 2.可以使用正則表示式提取出所有滿足規則的字串 3.在python中使用re模組是實現在python正則表示式的功能正則表示式的基礎知識： 1.原子 2.元字元 3.模式修正原子：原子是正則表示式中最基

Python 正則表示式：findall

本文以匹配×××IP為例，介紹re模組的findall的用法: 返回值->列表複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 + &

正則表示式學習——網址匹配

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 已上鍊接學習大全。練習：請嘗試寫一個驗證Email地址的正則表示式。【版本一】應該可以驗證出類似的Email： [email protected] [em

正則表示式[] {} ()學習

正則表示式的() [] {}有不同的意思。 () 是為了提取匹配的字串。表示式中有幾個()就有幾個相應的匹配字串。 (\s*)表示連續空格的字串。 []是定義匹配的字元範圍。比如 [a-zA-Z0-9] 表示相應位置的字元要匹配英文字元和數字。[\s*]表示空格或者*號。 {

Python正則表示式:re模組

正則表示式: 使用單個字串來描述、匹配一系列匹配某個句法規則的字串正則表.通常被用來檢索、替換那些符合某個模式(規則)的文字.python自1.5起提供了re模組,它提供了perl風格的正則表示式. re模組簡介 re.match函式功能嘗試從字串的起始位置開始匹配一個模式,如

python 正則表示式學習

相關推薦