python正則表示式與re模組

阿新 • • 發佈：2019-01-05

python中的re模組常用函式/方法

0.正則表示式物件　　（re.compile(pattern, flags=0)）

將正則表示式編譯成正則表示式物件，該物件可呼叫正則表示式物件方法如:re.match(),re.search(),re.findall等。

prog = re.compile(pattern)
result = prog.match(string)
//上下兩種寫法意義相同
result = re.match(pattern, string)

1.匹配物件及方法（Match.group([group1

, ...])， Match.groups()，Match.groupdict()） (?P<name>）

正則表示式物件成功呼叫match,search方法時返回的物件。主要有兩個方法group()和groups()。(失敗時返回None，而None呼叫這兩個方法會出現異常)

group()函式通常用於普通方式顯示所有的匹配部分，也可用序號檢索各個匹配子組。

groups()函式用於獲取一個包含所有匹配子字串的元組。(在只有一個匹配子組時會返回空元組)

ob = re.compile(r'(\w+)-(\d+)')　　#()將正則表示式分成了兩個子組
m  
= re.match(ob,'abc-123')
m.group()          #完整匹配
'abc-123'    
m.group(1)         #匹配子組1
'abc'
m.group(2)         #匹配子組2
'123'
m.groups()
('abc', '123')     #全部子組

(?P<name>)特殊符號可以使用名稱識別符號來儲存匹配而不是數字。此時使用groupdict()方法返回一個字典，key為所給的名稱識別符號，而value為儲存的匹配。

ob = re.compile(r'(?P<first>\w+)-(?P<second>\d+) 
')
m = re.match(ob,'abc-123')
m.groupdict()
{'second': '123', 'first': 'abc'}

2.匹配字串 (re.match(pattern, string, flags=0)， re.search())

match()方法從字串的起始部分對模式進行匹配，如果匹配成功，返回一個匹配物件，失敗則返回None。

search()方法從任意位置對正則表示式物件搜尋第一次出現的匹配,成功則返回一個匹配物件，失敗返回None。

>>> m = re.search('tif','beautiful')        
>>> m.group()       
'tif' 　　　　#匹配成功
>>> m.groups()
()           #返回空元組    
>>> m = re.match('tif','beautiful')
>>> m.group()          #返回None,而None沒有group()方法
Traceback (most recent call last):
  File "<pyshell#5>", line 1, in <module>
    m.group()
AttributeError: 'NoneType' object has no attribute 'group'

3.查詢每一次出現的位置 (re.findall(pattern, string, flags=0)) re.finditer()

findall()查詢字串中某個正則表示式模式全部的非重複出現情況。與search()類似，而與之不同的是，findall()方法返回一個列表，如果匹配成功則列表包含所有成功的匹配部分；如果匹配失敗則返回空列表。

finditer()與findall類似（包含所有成功匹配），但它返回一個迭代器。

>>> s = 'This and that and the'
>>> re.findall(r'(th\w+)',s,re.I)　　//findall返回列表
['This', 'that', 'the']
>>> it = re.finditer(r'(th\w+)',s,re.I)　　//返回迭代器，用next()方法
>>> g = next(it)　　　　
>>> g.groups()
('This',)>>> g = next(it)
>>> g.group(1)
'that'
>>> g = next(it)
>>> g.group(1)
'the'
>>> [g.group(1) for g in re.finditer(r'(th\w+)',s,re.I)]　　//列表推導式
['This', 'that', 'the']

4.搜尋與替換 (re.sub(pattern, repl, string, count=0, flags=0)) re.subn()

將某字串中的所有匹配正則表示式的部分進行某種形式的替換。sub()與subn()幾乎一樣，sub()返回值是替換的個數，subn()返回值是元組：(替換後的字串，替換個數)。

>>> re.sub('hello','HELLO','hello the hello and world\n')　　//將所有hello替換為HELLO
'HELLO the HELLO and world\n'　　
>>> re.subn('hello','HELLO','hello the hello and world\n')
('HELLO the HELLO and world\n', 2)
>>> re.sub('hello','world','hello the hello and world\n',1)　　//替換一個hello,即新增count引數
'world the hello and world\n'
>>> re.subn('[ed]','world','hello the hello and world\n')　　//將e或d替換為world，替換了5個
('hworldllo thworld hworldllo anworld worlworld\n', 5)

5.分隔字串（re.split(pattern, string, maxsplit=0, flags=0)）　　//類似於字串的split()用法

6.擴充套件符號　　（前述方法的flags引數；而括號中為正則表示式的擴充套件符號,兩種相同作用，用一種即可）

re.I/IGNO RECASE （？i）不區分大小寫的匹配

>>> re.findall(r'(?i)yes','yes Yes YES!!')    //(?i)不區分大小寫，正則表示式層面
['yes', 'Yes', 'YES']
>>> re.findall(r'yes','yes Yes YES!!',re.I)　　//re.I不區分大小寫，python語言層面;下同
['yes', 'Yes', 'YES']

re.M/MULTILINE （？m）實現跨行搜尋

>>> re.findall(r'(?im)(^th[\w]+)',"""
This line is the first
another line
that line is the end""")
['This', 'that']

re.S/DOTALL　　(?s) 使 . 符號能表示\n符號

re.X/VERBOSE （？x）通過抑制在正則表示式中使用空白符來建立更易讀的正則表示式

>>> re.search(r'''(?x)
\((\d{3})\)　　//區號
[ ]　　//空格
(\d{3})　　//字首
-　　//橫線
(\d{4})　　//末尾數字
''','(800) 555-1212').groups()
('800', '555', '1212')

(?:...)可以對正則表示式分組，但不儲存該分組用於後續檢索或應用。

>>> re.findall(r'(?:\w+\.)*(\w+\.com)','baidu.com www.baidu.com code.baidu.com')　　//不儲存（\w+\.）*匹配的分組，因而www,code均不出現在結果中
['baidu.com', 'baidu.com', 'baidu.com']

(?=...)和(?!...)可以實現前視匹配。前者正向前視斷言，後者負向前視斷言。通俗來說：(?=...)僅僅獲取...表示式前的字串，忽略該表示式；(?!...)則獲取後面的字串。

import re
result = re.findall(r'\w+(?= van Rossum)',
"""
    guido van Rossum
    tim peter
    Alex Martelli
    Just van Rossum
    Raymond Hettinger
""")
print(result)

['guido', 'Just']    //結果，忽略van Rossum而只儲存該字串前面的部分

正則表示式物件的另一種呼叫方法

Pattern.match(string[, pos[, endpos]])

Pattern.search(string[,pos[,endpos]])

Pattern.findall(string[, pos[, endpos]])

Pattern.finditer(string[, pos[, endpos]])

區別在於可調整pos，endpos引數來調整匹配範圍。

import re
ob = re.compile('llo')
m1 = ob.match('hello world')
m2 = ob.match('hello world', 2)
print(m1, m2.group())
None llo            //match從頭匹配，m1為空；從第三個開始匹配，則m2匹配成功

對正則表示式特殊符號無瞭解可訪問：正則表示式常用字元及符號

python正則表示式與re模組

python中的re模組常用函式/方法 0.正則表示式物件　　（re.compile(pattern, flags=0)）將正則表示式編譯成正則表示式物件，該物件可呼叫正則表示式物件方法如:re.match(),re.search(),re.findall等。 prog = re.c

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

單個字元：數量詞：匹配開頭、結尾：匹配分組： demo.py（正則表示式，match從開頭匹配，分組，分組別名）： # coding=utf-8 import re # 小括號()表示分組 \1表示取出第

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

python中的正則表示式（re模組）

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。二、正則表示式中常用的字元含義 1、普通字元和11個元字

[轉]python中的正則表示式（re模組）

轉自:https://www.cnblogs.com/tina-python/p/5508402.html 一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼

正則表示式（re模組，匹配單個字元，匹配多個字元，匹配分組，python貪婪和非貪婪，r的作用）

re.match() 能夠匹配出以xxx開頭的字串匹配單個字元示例1： . #coding=utf-8 import re ret = re.match(".","M") print(ret.group()) ret = re.match("t.o","too") print

python3 學習5 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。轉自：https://blog.csdn.net/qq_33720683/article/details/81023115 模式描述

正則表示式和re模組知識點彙總

"\^"：匹配字元的開始"\$"：匹配字元的結尾"[]"：字元組"[^a]"：如果在字元組中以^開頭，就是除了a不匹配，其他的都匹配"a|b"：匹配字元a或b 注意：使用或關係的時候，要把長規則放在短規則的前面"()"分組，需要對一個整體匹配規則量詞約束的，就對整體匹配規則加一個括號字串最前面加上r 就是不

資料提取——正則表示式的 re 模組

什麼是正則表示式正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式(規則)的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。給定一個正則表示式

正則表示式(python3-re模組示例）

1.常用的正則表示式 '.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$'

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

day023 正則表示式和re模組

一.正則1.字元組 [a-zA-Z0-9]字元組中的　 [^a] 除了字元組的2.　 3. 4. 二.re模組 re.S 設定 .的換行 obj=re 1.ret=re.search(正則，content) 找到一個結果就返回　　拿

正則表示式（re模組）

正則表示式，用來處理什麼的呢？它有什麼作用？正則表示式是用來處理字串匹配的！講正題之前我們先來看一個例子：：https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 這是京東的註冊頁面，開啟頁面我們就看到這些要求輸入個

024-2018-1010 正則表示式和re模組

1.今日內容大綱一. 昨日內容回顧序列化: pickle: 把物件序列化成bytes dumps() 序列化 loads() 反序列化

正則表示式和re模組

1. 正則表示式匹配字串　　元字元　　　　. 除了換行　　　　\w 數字, 字母, 下劃線　　　　\d 數字　　　　[] 字元組　　　　^ 字串的開始　　　　$ 字串的結束　　　　| 或者　　　　[^xxx] 非xxxx 　　　　\s 空白符　　　　\n 換行　　　　\t

Python3正則表示式(二)re模組

在Python3正則表示式(一)基本語法規則已經記錄了正則表示式的基本規則，接下來將寫一下在python當中如何利用正則表示式去匹配字串，即re模組中功能函式的使用。使用時要先進行匯入re模組：import re 一、re模組中常用的函式 1.c

python 正則表示式之re.findall

python 正則表示式 re findall 方法能夠以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜尋string，以列表形式返回全部能匹配的子串。先看個簡單的程式碼： import re p = re

python正則表示式與文字匹配

python很強大 python的正則表示式很好用這篇文章就寫寫怎麼用python的正則表示式來匹配txt文字中的字元吧首先，要知道自己匹配的字串是什麼形式的，然後根據自己的字串形式來寫出對應的正則表示式例如這次，我需要匹配的是數字加逗號加數字的字串形式所以我的正

正則表示式之re模組compile()

定義： compile(pattern[,flags] ) 根據包含正則表示式的字串建立模式物件。compile(pattern, flags=0) 通過help可以看到compile方法的介紹，返回一個pattern物件，但是卻沒有對第二個引數flags進行介紹。第二個引數

python正則表示式與re模組

相關推薦