Python3-re模組

阿新 • • 發佈：2019-01-06

根據手機號碼一共11位並且是隻以13、14、15、18開頭的數字這些特點，我們用python寫了如下程式碼：

while True:
    phone_number = input('please input your phone number ： ')
    if len(phone_number) == 11 \
            and phone_number.isdigit()\
            and (phone_number.startswith('13') \
            or phone_number.startswith('14') \
            or phone_number.startswith( 
'15') \
            or phone_number.startswith('18')):
        print('是合法的手機號碼')
    else:
        print('不是合法的手機號碼')

這是你的寫法，現在我要展示一下我的寫法：

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
        print('是合法的手機號碼')
else:
        print( 
'不是合法的手機號碼')

這樣寫明顯程式碼少了很多，這就是python的re模組（正則表示式）

正則表示式本身也和python沒有什麼關係，就是匹配字串內容的一種規則。

官方定義：正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。

正則表示式

字元：

元字元	匹配內容
.	匹配除換行符以外的任意字元
\w	匹配字母或數字或下劃線
\s	匹配任意的空白符
\d	匹配數字
\n	匹配一個換行符
\t	匹配一個製表符
\b	匹配一個單詞的結尾
^	匹配字串的開始
$	匹配字串的結尾
\W	匹配非字母或數字或下劃線
\D	匹配非數字
\S	匹配非空白符
a\|b	匹配字元a或字元b
()	匹配括號內的表示式，也表示一個組
[...]	匹配字元組中的字元
[^...]	匹配除了字元組中字元的所有字元


量詞：

量詞	用法說明
*	重複零次或更多次
+	重複一次或更多次
?	重複零次或一次
{n}	重複n次
{n,}	重複n次或更多次
{n,m}	重複n到m次

* + ? { }

正則	待匹配字元	匹配結果	說明
李.?	李傑和李蓮英和李二棍子	李傑李蓮李二	?表示重複零次或一次，即只匹配"李"後面一個任意字元
李.*	李傑和李蓮英和李二棍子	李傑和李蓮英和李二棍子	*表示重複零次或多次，即匹配"李"後面0或多個任意字元
李.+	李傑和李蓮英和李二棍子	李傑和李蓮英和李二棍子	+表示重複一次或多次，即只匹配"李"後面1個或多個任意字元
李.{1,2}	李傑和李蓮英和李二棍子	李傑和李蓮英李二棍	{1,2}匹配1到2次任意字元

注意：前面的*,+,?等都是貪婪匹配，也就是儘可能匹配，後面加?號使其變成惰性匹配

正則	待匹配字元	匹配結果	說明
李.*?	李傑和李蓮英和李二棍子	李李李	惰性匹配

字符集［］［^］

正則	待匹配字元	匹配結果	說明
李[傑蓮英二棍子]*	李傑和李蓮英和李二棍子	李傑李蓮英李二棍子	表示匹配"李"字後面[傑蓮英二棍子]的字元任意次
李[^和]*	李傑和李蓮英和李二棍子	李傑李蓮英李二棍子	表示匹配一個不是"和"的字元任意次
[\d]	456bdha3	4 5 6 3	表示匹配任意一個數字，匹配到4個結果
[\d]+	456bdha3	456 3	表示匹配任意個數字，匹配到2個結果

分組 ()與或｜［^］

身份證號碼是一個長度為15或18個字元的字串，如果是15位則全部由數字組成，首位不能為0；如果是18位，則前17位全部是數字，末位可能是數字或x，下面我們嘗試用正則來表示：

正則	待匹配字元	匹配結果	說明
^[1-9]\d{13,16}[0-9x]$	110101198001017032	110101198001017032	表示可以匹配一個正確的身份證號
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配這串數字，但這並不是一個正確的身份證號碼，它是一個16位的數字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	現在不會匹配錯誤的身份證號了 ()表示分組，將\d{2}[0-9x]分成一組，就可以整體約束他們出現的次數為0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x]如果沒有匹配上就匹配[1-9]\d{14}

轉義符 \

在正則表示式中，有很多有特殊意義的是元字元，比如\n和\s等，如果要在正則中匹配正常的"\n"而不是"換行符"就需要對"\"進行轉義，變成'\\'。

在python中，無論是正則表示式，還是待匹配的內容，都是以字串的形式出現的，在字串中\也有特殊的含義，本身還需要轉義。所以如果匹配一次"\n",字串中要寫成'\\n'，那麼正則裡就要寫成"\\\\n",這樣就太麻煩了。這個時候我們就用到了r'\n'這個概念，此時的正則是r'\\n'就可以了。

正則	待匹配字元	匹配結果	說明
\n	\n	False	因為在正則表示式中\是有特殊意義的字元，所以要匹配\n本身，用表示式\n無法匹配
\\n	\n	True	轉義\之後變成\\，即可匹配
"\\\\n"	'\\n'	True	如果在python中，字串中的'\'也需要轉義，所以每一個字串'\'又需要轉義一次
r'\\n'	r'\n'	True	在字串之前加r，讓整個字串不轉義

貪婪匹配

貪婪匹配：在滿足匹配時，匹配儘可能長的字串，預設情況下，採用貪婪匹配

正則	待匹配字元	匹配結果	說明
<.*>	<script>...<script>	<script>...<script>	預設為貪婪匹配模式，會匹配儘量長的字串
<.*?>	r'\d'	<script> <script>	加上？為將貪婪匹配模式轉為非貪婪匹配模式，會匹配儘量短的字串

幾個常用的非貪婪匹配Pattern

*? 重複任意次，但儘可能少重複
+? 重複1次或更多次，但儘可能少重複
?? 重複0次或1次，但儘可能少重複
{n,m}? 重複n到m次，但儘可能少重複
{n,}? 重複n次以上，但儘可能少重複

.*?的用法

. 是任意字元
* 是取 0 至 無限長度
? 是非貪婪模式。
合在一起就是 取儘量少的任意字元，一般不會這麼單獨寫，他大多用在：
.*?x

就是取前面任意長度的字元，直到第一個x出現

re模組下的常用方法

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有滿足匹配條件的結果,放在列表裡
print(ret) #結果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #結果 : 'a'
# 函式會在字串內查詢模式匹配,只到找到第一個匹配然後返回一個包含匹配資訊的物件,該物件可以
# 通過呼叫group()方法得到匹配的字串,如果字串沒有匹配，則返回None。

ret = re.match('a', 'abc').group()  # 同search,不過盡在字串開始處進行匹配
print(ret)
#結果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在對''和'bcd'分別按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#將數字替換成'H'，引數1表示只替換1個
print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#將數字替換成'H'，返回元組(替換的結果,替換了多少次)
print(ret)

obj = re.compile('\d{3}')  #將正則表示式編譯成為一個 正則表示式物件，規則要匹配的是3個數字
ret = obj.search('abc123eeee') #正則表示式物件呼叫search，引數為待匹配的字串
print(ret.group())  #結果 ： 123

import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一個存放匹配結果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #檢視第一個結果
print(next(ret).group())  #檢視第二個結果
print([i.group() for i in ret])  #檢視剩餘的結果

注意：

1 findall的優先順序查詢：

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     這是因為findall會優先把組裡的匹配結果內容返回,如果想要匹配結果,取消許可權即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['www.oldboy.com']

2 split的優先順序查詢

ret=re.split("\d+","eva3egon4yuan")
print(ret) #結果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #結果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之後所切出的結果是不同的，
#沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項，
#這個在某些需要保留匹配部分的使用過程是非常重要的。

正則表示式(python3-re模組示例）

1.常用的正則表示式 '.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$'

python3 re模組，正則表示式方式實現簡單加減乘除計算器

import re #加法 def plus(s): if re.search("^\d+[.]?\d*\+\d+[.]?\d*",s) != None: str_re = re.search("\d+[.]?\d*\+\d+[.]?\d*", s).

Python3-re模組

根據手機號碼一共11位並且是隻以13、14、15、18開頭的數字這些特點，我們用python寫了如下程式碼： while True: phone_number = input('please input your phone number ： ') if len(phone_numbe

python3 re模組findall和finditer

import re S = "abcdddeeeeaabbbcd" pattern = re.compile(r'(\w)\1') res = pattern.findall(S) result = [[r.start(), r.end() - 1] for r

python3 學習5 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。轉自：https://blog.csdn.net/qq_33720683/article/details/81023115 模式描述

Python3正則表示式(二)re模組

在Python3正則表示式(一)基本語法規則已經記錄了正則表示式的基本規則，接下來將寫一下在python當中如何利用正則表示式去匹配字串，即re模組中功能函式的使用。使用時要先進行匯入re模組：import re 一、re模組中常用的函式 1.c

Python3，通過re模組中的sub()和findall()2個方法提升爬蟲提取資料的效率

直接上Demo：測試資料 - HTML： '''<div id=\"songs-list\">" "<h2 class=\"title\">各種汽車</h2>" "<p class=\"introduction\"&

python3進階之正則表示式之re模組之分組（group）、貪心匹配、編譯

　　除了簡單地判斷是否匹配之外，正則表示式還有提取子串的強大功能。用()表示的就是要提取的分組（Group）。比如：^(\d{3})-(\d{3,8})$分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345'

python3 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。模式描述^匹配字串的開頭$匹配字串的末尾。.匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。[...]用來表示一組字元,單獨列出：[a

python3 re正則模塊

python基礎 python正則表達式使用 python re模塊一、常用的正則表達式：1、"."：默認匹配除\n之外的任意一個字符，若指定flag DOTALL，則匹配任意字符，包括換行2、"^"：匹配字符開頭，若指定flag MULTILINE，這種

(轉)Python3 -- argparse模組

原文地址：http://www.cnblogs.com/arkenstone/p/6250782.html http://blog.csdn.net/WIinter_FDd/article/details/75786410 https://oldpan.me/archives/argparse

Python面試題----Python 的re模組中match、search、findall、finditer的區別

請簡要說明Python 的re模組中match、search、findall、finditer的區別 re是Python中用於正則表示式相關處理的類，這四個方法都是用於匹配字串的，具體區別如下： match 匹配string 開頭，成功返回Match object

Python常用模組——re模組

　　有些人在面臨問題的時候會想：“我知道，我將使用正則表示式來解決這個問題。”這讓他們面臨的問題變成了兩個。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　—— Jamie Zawinski 首先我們對比一下兩段程式碼處理使用者輸入手機號的不同 1 pho

Python進階——re模組

1.首先匯入re模組 import re (1) re.match()函式對字串的從字串的開頭進行匹配用法： re.match(pattern,string) import re pat="\d+" s="abc123abc123456" print(re.matc

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

PYTHON03 - re模組網路程式設計和socket模組

一、re模組 1.1 正則表示式 1.1.1 正則表示式 1.匹配單個字元 2.匹配一組字元 3.其他元字元附： [ ^ ]:出現在中括號開頭表示的是取反 4.貪婪匹配 1. *、+和?都是貪婪匹配操作符,在其後加

Python3 pywin32模組安裝

python新手一枚，作業系統Win10 64 bit,Python版本，3.7 因為某個指令碼需要用到win32con 和win32api模組，run -- cmd ，使用easy_install pywin32 命令安裝，提示錯誤，搜不到，網上搜了下教程，分別用

正則表示式和re模組知識點彙總

"\^"：匹配字元的開始"\$"：匹配字元的結尾"[]"：字元組"[^a]"：如果在字元組中以^開頭，就是除了a不匹配，其他的都匹配"a|b"：匹配字元a或b 注意：使用或關係的時候，要把長規則放在短規則的前面"()"分組，需要對一個整體匹配規則量詞約束的，就對整體匹配規則加一個括號字串最前面加上r 就是不

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

Python基礎16模組-re模組

1.正則表示式 #^表示在字串開頭匹配，$表示在字串結尾匹配 #*匹配0到無窮多個 #+匹配1到無窮多個 #？匹配0或者1個 #{}定義匹配個數{0，}==*，{1，}==+，{0,1}==？，{6}=={1,6} #上面的元字元一般都是貪婪匹配，在後面加上？變成惰性匹配 #[]匹配括號裡的字元，只匹

Python3-re模組

正則表示式

* + ? { }

字符集［］［^］

分組 ()與 或 ｜［^］

轉義符 \

貪婪匹配

re模組下的常用方法

相關推薦

分組 ()與或｜［^］