Python正則表示式基本教程

阿新 • • 發佈：2018-12-11

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

Python 自1.5版本起增加了re 模組，re模組使Python語言擁有全部的正則表示式功能。

1. 常見正則表示式：

1.1 字元類

[aeiou]	匹配中括號內的任意一個字母
[0-9]	匹配任何數字。等價於[0123456789]或\d
[a-z]	匹配任何小寫字母
[A-Z]	匹配任何大寫字母
[a-zA-Z0-9]	匹配任何字母及數字
[^aeiou]	除了aeiou字母以外的所有字元
[^0-9]	匹配除了數字外的字元。等價於\D

例：

[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"

1.2 特殊字元類

.	匹配除 "\n" 之外的任何單個字元。要匹配包括 '\n' 在內的任何字元，請使用象 '[.\n]' 的模式。
\d	匹配一個數字字元。等價於 [0-9]。
\D	匹配一個非數字字元。等價於 [^0-9]。
\s	匹配任何空白字元，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S	匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。空白字元即沒有東西顯示的字元。
\w	匹配包括下劃線的任何字母、數字或下劃線。等價於'[A-Za-z0-9_]'。
\W	匹配任何非字母、陣列或下劃線。等價於 '[^A-Za-z0-9_]'。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\A	匹配字串開始。
\Z	匹配字串結束，如果是存在換行，只匹配到換行前的結束字串。
\z	匹配字串結束。
\G	匹配最後匹配完成的位置。
\n, \t等	匹配一個換行符、一個製表符等。
\1, \2等	匹配第n個分組的內容。

1.3 其他特殊字元

備註：re表示任意一個正則表示式。

re*	匹配0個或無限多個前的表示式。和+的區別在於*為至少0個，+為至少1個。
re?	匹配0個或1個由前面的正則表示式定義的片段。最多匹配1個，不能大於1個。相當於re{0,1}。
re+	匹配1個或無限多個+前的表示式。
re{n}	精確匹配n個前面表示式。
re{n, m}	匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
^	匹配字串的開頭。不在中括號中的時候的意思。在中括號中^表示不在[]中的字元。
[^...]	不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。
$	匹配字串的末尾。

1.4 例子

例1： re*, re+, re? 三者的區別

>>>import re

>>>match = re.match(r'\d?', '123456dogcatdog', re.I)

>>>match.group(0)

Out[31]: '1'

>>>match = re.match(r'\d+', '123456dogcatdog', re.I)

match.group(0)

Out[33]: '123456'

>>> match = re.match(r'\d*', '123456dogcatdog', re.I)

match.group(0)

Out[29]: '123456'

例2： re*, re+, re? 三者的區別

>>>import re

>>>match = re.match(r'\d*\w', 'dogcatdog', re.I) # 匹配成功，\d*匹配數字有0個也算匹配成功

>>>match.group(0)

Out[39]: 'd'

>>>match = re.match(r'\d?\w', 'dogcatdog', re.I) # 匹配成功，\d?匹配0-1個數字

>>>match.group(0)

Out[47]: 'd'

>>>match = re.match(r'\d+\w', 'dogcatdog', re.I) # 未匹配成功，因為\d+要求至少有一個數字。

>>>match.group(0)

AttributeError: 'NoneType' object has no attribute 'group'

例3： re{n} 和 re{n, m} 的用法

>>>import re

>>>match = re.match(r'\w{3}', 'dogcatdog', re.I) # r'\w{3}' 匹配長度為3的由字母/數字/下劃線組成的字串

>>>match.group(0)

Out[50]: 'dog'

>>>match = re.match(r'\w{3,6}', 'dogcatdog', re.I) # r'\w{3,6}' 匹配長度為3-6的字串，貪心，即匹配的越長越好

>>>match.group(0)

Out[52]: 'dogcat'

2. 正則表示式處理函式

Python中常用的正則表示式處理函式有：re.match(), re.search(), re.findall(), re.sub()，使用前需要import re。

2.1 re.match(pattern, string, flags=0)

match嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。

匹配成功：返回一個匹配的物件。

匹配失敗：返回None。

match的引數：

pattern 正則表示式

string 要匹配的字串

flags 標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。

re.I 使匹配對大小寫不敏感。 re.L 做本地化識別（locale-aware）匹配。 re.M 多行匹配，影響 ^ 和 $。 re.S 使特殊字元" . "可以匹配包括換行在內的所有字元。 re.U 根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B。 re.X 該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解。

執行m = re.match()匹配成功後，檢視匹配結果的方法：

可以使用group(num)或groups()匹配物件函式，來獲取匹配到的結果。

m.group(0) # 檢視匹配的整個表示式的字串

m.group(num=n) # n>0的整數，返回第n個匹配到的字串。

m.groups # 返回一個包含所有小組字串的元組，從 1 到所含的小組號。

例子：測試group

>>>import re

>>> re.match(r'dog', 'dog cat dog')

Out[21]: <_sre.SRE_Match object at 0xb743e720<

>>> match = re.match(r'dog', 'dog cat dog')

>>> match.group(0)

Out[22]: 'dog'

>>> re.match(r'cat', 'dog cat dog') # 未匹配到，因為字串不是以cat開頭

Out[23]: # 返回值為None，打印出來看什麼也沒有

例子： # 使用flags標誌位。

>>>import re

>>>match = re.match(r'Dog', 'dog cat dog', re.I) # 匹配時忽略大小寫

>>>match.group(0)

Out[27]: 'dog'

2.2 re.search(pattern, string, flags=0):

search掃描整個字串並返回第一個成功的匹配。

注意：只返回第一個匹配！！！

m = re.search()

search的引數：

pattern 正則表示式 string 要匹配的字串 flags 標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。

例子：

>>>import re

>>> match = re.search(r'cat', 'dog cat dog')

>>> match.group(0)

Out[17]: 'cat'

例子：

>>>import re

>>>str = r'air_00a91d42b08b08d9_2017-04-23'

>>>match = re.search(r'(air_.*)_(.*)', str) # 括號括起來的內容表示處於同一組，可以用group(num)分組檢視匹配結果

>>>match.group(0)

Out[18]: 'air_00a91d42b08b08d9_2017-04-23'

>>>match.group(1)

Out[19]: 'air_00a91d42b08b08d9'

>>>match.group(2)

Out[20]: '2017-04-23'

>>>match.group(3) # 報錯，因為沒有3

Out[21]: IndexError: no such group

2.3 re.findall(pattern, string, flags=0):

返回所有匹配成功的字串組成的列表，返回值型別為list。

與search的區別：search只返回匹配成功的第一個字串，而findall會將所有匹配成功的字串都返回。

findall的引數：

pattern 正則表示式 string 要匹配的字串 flags 標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。

例子：

>>>import re

>>>re.findall(r'dog', 'dog cat dog')

Out[15]: ['dog', 'dog']

2.4 re.sub(pattern, repl, string, count=0, flags=0):

# 匹配並替換

匹配所有字串？還是匹配一個？，然後用repl替換匹配成功的子字串。

sub的引數：

pattern 正則表示式

repl 用repl來替換匹配到的字串，repl也可為一個函式。

string 要匹配的字串

count 為0表示所有匹配到的子字串都替換為repl，為大於0的整數表示最多替換count個

flags 標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。

例子：

>>>import re

>>>phone = "2004-959-559# 這是一個國外電話號碼"

>>>num = re.sub(r'#.*$', "", phone) # 刪除字串中的 Python 註釋

>>>print "電話號碼是: ", num

Out: 電話號碼是: 2004-959-559

>>>num = re.sub(r'\D', "", phone) # 將所有非數字的字元替換為空

>>>print "電話號碼是 : ", num

Out: 電話號碼是 : 2004959559

Python正則表示式基本教程

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組，re模組使Python語言擁有全部的正則表示式功能。 1. 常見正則表示式： 1.1 字元類 [aeiou] 匹配中括號內的任意一個

python正則表示式基本實現

1、首先要匯入python的re模組。 2、元字元 . ^ $ * + ? {} [] \ | () re模組中的findall（str1，str2）方法返回字串str2中匹配str1格式的字串。例如在字串'dit dot det,dct dit dot'中匹配'dit'結

python RE正則表示式基本知識

1． Python正則式的基本用法 1.1基本規則 1.2重複 1.2.1最小匹配與精確匹配 1.3前向界定與後向界定 1.4組的基本知識 2． re模組的基本函式 2.1使用compile加速 2.2 match和sear

Python正則表示式--Re庫的基本使用

1 正則表示式（regular expression ,RE）概念：正則表示式（通項公式）是用來簡潔表達一組字串的表示式。優勢是簡潔，一行勝千言。應用：字串匹配。 1.1 正則表示式的語法正則

Python正則表示式的簡單應用和示例演示

前一陣子小編給大家連續分享了十篇關於Python正則表示式基礎的文章，感興趣的小夥伴可以點選連結進去檢視。今天小編給大家分享的是Python正則表示式的簡單應用和示例演示，將前面學習的Python正則表示式做一個概括。下面的栗子是用於提取高考日期，一般來說，我們填寫日期都會寫2018年6月7日，但

Python正則表示式初識（九）

繼續分享Python正則表示式的基礎知識，今天給大家分享的特殊字元是[\u4E00-\u9FA5]，這個特殊字元最好能夠記下來，如果記不得的話通過百度也是可以一下子查到的。該特殊字元是固定的寫法，其代表的意思是漢字。換句話說，只要字元中是漢字，就可以通過該字元進行匹配，該特殊字元也是用中括號括起來的。

Python 正則表示式：compile,match

本文以匹配×××ID為例，介紹re模組的compile與match的用法複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 +

Python 正則表示式模組詳解

由於最近需要使用爬蟲爬取資料進行測試，所以開始了爬蟲的填坑之旅，那麼首先就是先系統的學習下關於正則相關的知識啦。所以將下面正則方面的知識點做了個整理。語言環境為Python。主要講解下Python的Re模組。下面的語法我就主要列出一部分，剩下的在python官網直接查閱即可：docs.python.org

Python 正則表示式：search

本文介紹re模組的search的用法複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 + re.search（

Python | 正則表示式的常見用法

正則表示式的常見用法分為兩塊內容，第一部分是一般具有正則的高階語言都支援的功能，第二部分講解Python所獨特具備的正則特性。 Part 1 正則表示式是由普通字元（例如字元a到z）以及特殊字元（稱為“元字元”）組成的文字模式。模式用於在搜尋文字時要匹配一個或多個字串。

python 正則表示式找出字串中的純數字

1、簡單的做法 >>> import re >>> re.findall(r'\d+', 'hello 42 I'm a 32 string 30') ['42', '32', '30'] 然而，這種做法使得字串中非純數字也會識別 >

python 正則表示式簡介

python 正則表示式簡介 1.正則表示式：描述字串排列的一套規則 2.可以使用正則表示式提取出所有滿足規則的字串 3.在python中使用re模組是實現在python正則表示式的功能正則表示式的基礎知識： 1.原子 2.元字元 3.模式修正原子：原子是正則表示式中最基

Python 正則表示式：findall

本文以匹配×××IP為例，介紹re模組的findall的用法: 返回值->列表複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 + &

Python正則表示式:re模組

正則表示式: 使用單個字串來描述、匹配一系列匹配某個句法規則的字串正則表.通常被用來檢索、替換那些符合某個模式(規則)的文字.python自1.5起提供了re模組,它提供了perl風格的正則表示式. re模組簡介 re.match函式功能嘗試從字串的起始位置開始匹配一個模式,如

Python 正則表示式：sub

作用：替換字串中的某字串本文以 ‘×××’掩蓋手機號部分數字為例，介紹re模組的sub的用法: 返回值 -> 列表複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 +&n

python正則表示式學習筆記

正則表示式學習資源:https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books-zh.md 正則表達例子： | A|B

python 正則表示式匹配特定浮點數

def is_decimal(num): import re 　　 #以數字開頭，小數點後保留1位數字或兩位數字或者沒有小數部分 dnumre = re.compile(r"""^[0-9]+(\.[0-9]{1,2})?$""") result = d

python--正則表示式的實戰

正則表示式是在re模組裡的，所以需要事前匯入re模組，re模組裡面的search(）方法用於在字串中搜索正則表示式模式第一次出現的位置。注意：下標從0開始，原字串前面需要加入r'原字串' 上圖因為.號可以匹配除了換行符之外的任何字元，所以它匹配了I，也就是第一個字元

PYthon 正則表示式設定大小寫匹配

在python中經常會需要區分大小寫，在此介紹一種最常用的設定方法：一：確定要匹配的文字 text="[email protected],[email protected],[email protected]" &

Python 正則表示式：split

作用：用正則表示式的字元分割字串，正則的字元會被拋棄。本文以提取URL的地址與引數為例，介紹re模組的split的用法: 返回值 -> 列表複雜匹配 = re.compile(正則表示式): 將正則表示式例項化 &nb

Python正則表示式基本教程

1. 常見正則表示式：

1.1 字元類

1.2 特殊字元類

1.3 其他特殊字元

1.4 例子

2. 正則表示式處理函式

2.1 re.match(pattern, string, flags=0)

2.2 re.search(pattern, string, flags=0):

2.3 re.findall(pattern, string, flags=0):

2.4 re.sub(pattern, repl, string, count=0, flags=0):

相關推薦