學會python正則表示式就是這麼簡單
阿新 • • 發佈:2020-01-11
一前言
本篇文章帶大家快速入門正則表示式的使用,正則表示式的規則不僅適用python語言,基本大多數程式語言都適用,在日常使用中極為廣泛,讀者們有必要學好正則表示式。看完這篇文章,讀者們要理解什麼是正則表示式,正則表示式的規則,常見的正則表示式示例,如何在python中使用函式進行正則表示式操作;
二 正則表示式的概念
正則表示式是指在一串字串中使用特殊的模式匹配獲得子串,我們可以對獲得的子串進行提取,替換等操作;
舉個例子zszxz666
這個字串,現在知識追尋者想要獲得子串zszxz
, 則需要經過一個模式匹配後獲得子串,在正則表示式中這個模式可以很多種格式,知識追尋者在這邊使用最簡單的模式 [a-z]*
zszxz
;這種方式比平時的字串函式操作更加簡便,適用範圍廣泛;
三 常用的正則匹配模式
常用的正則表示式模式如下,如果對這些模式有疑惑的可以參照 正則表示式手冊 ;手冊中還有日常使用的正則示例,比如使用者名稱,密碼,郵箱,URL 的匹配模式等;
模式 | 含義 |
---|---|
^ | 匹配字串的開頭 |
$ | 匹配字串的末尾 |
. | 匹配任意字元,除了換行符 |
+ | 匹配前面的子表示式一次或多次 |
? | 匹配前面的子表示式零次或一次,或表示一個非貪婪限定符 |
* | 匹配前面的子表示式零次或多次 |
\ | 轉義特殊字元 |
\d | 匹配任意數字,等價於 [0-9]。 |
\D | 匹配任意非數字 |
\s | 匹配任意空白字元(製表,換行,回車,換頁,垂直製表),等價於[^\f\n\r\t\v] |
\S | 匹配任何非空白字元。等價[^\f\n\r\t\v] |
\w | 匹配數字字母下劃線 |
\W | 匹配非數字字母下劃線 |
[...] | 用來表示一組字元;[amk] 匹配 'a','m'或'k' |
[^...] | 不匹配在[]中的字元;[^amk] 不匹配 'a','m'或'k' |
{n} | 匹配前面的子表示式n 次 |
{n,} | 匹配前面的子表示式至少n 次 |
{n,m} | 匹配前面的子表示式最少匹配 n 次且最多匹配 m 次 |
| | 表示或;a| b,表示匹配a或者b |
\b | 匹配一個單詞邊界,即字與空格間的位置 |
\B | 非單詞邊界匹配 |
四 python正則常用修斯符
re.I | 使匹配對大小寫不敏感 |
---|---|
re.L | 做本地化識別(locale-aware)匹配 |
re.M | 多行匹配,影響 ^ 和 $ |
re.S | 使 . 匹配包括換行在內的所有字元 |
re.U | 根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B. |
re.X | 該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解 |
五 python常用正則行數說明
- pattern 表示正則表示式模式
- string 表示傳入待匹配字串
- flags 標誌位,可以用第四節的修飾符限定
- count 表示限定匹配的次數
- repl 表示替換的字串,也可為一個函式
- pos 起始位置
- endpos 結束位置
- maxsplit 最大分割次數
函式名稱 | 函式含義 |
---|---|
re.findall(string, pos, endpos) | 匹配所有子串,並返回一個列表,未匹配,則返回空列表 |
re.match(pattern, string, flags=0) | 從字串的起始位置匹配一個模式,如果匹配失敗返回None |
re.search(pattern, string, flags=0) | 掃描整個字串並返回第一個成功的匹配;匹配失敗返回None |
re.compile(pattern, flags=0) | 編譯正則表示式,生成一個正則表示式( Pattern )物件 |
re.sub(pattern, repl, string, count=0, flags=0) | 查詢和替換 |
re.finditer(pattern, string, flags=0) | 與findall類似,返回的是迭代器 |
re.split(pattern, string, maxsplit=0, flags=0]) | 將匹配的子串分割後返回列表 |
六 常用函式示例
6.1 match函式
group(num=0) 函式表示提取匹配的表示式,可以使用組號提取對應的匹配結果;知識追尋者想要獲得字串中第一個出現的數字串;
import re
# 指定模式 至少匹配一個數字
pattern = re.compile(r'\d+')
# 輸入的字串
mat = pattern.match("451zszxz666")
# 獲得第一個匹配到的值
g = mat.group();
# 451
print(g)
6.2search函式
知識追尋者想要獲得指定的字串,第一個匹配的就好;
import re
# 想匹配nhzszxz 或者 nh666 或者 nhnh
pattern = re.compile(r'nh(zszxz|666|nh)')
ser = pattern.search('nhzszxzkkk nh666 llll nhnh')
g_0 = ser.group()
# zszxz
print(g_0)
g_1 = ser.group(1)
# nhzszxz
print(g_1)
6.3 findall函式
知識追尋者想要在字串中獲得所有的數字;
import re
pattern = re.compile(r'\d+')
# 輸入的字串
mat = pattern.fidall("451zszxz666")
# ['451', '666']
print(mat)
# 666
print(mat[1])
6.6 sub函式
知識追尋者想要獲得所有非數字的子串;
import re
str = '8556gfggs5555dfg'
# 替換所有數字
result = re.sub(r'\d', '', str)
# gfggsdfg
print(result)
6.7 split函式
知識追尋者想要獲得以,
分割的字串;
import re
str = '123,456,zszxz,666'
result = re.split(',',str)
# ['123', '456', 'zszxz', '666']
print(result)
6.8 finditer 函式
知識追尋者想要獲得數字451,和666;
import re
pattern = re.compile(r'\d+')
# 輸入的字串
mat = pattern.finditer("451zszxz666")
for it in mat:
print(it.group())
七 初學者使用正則表示式正確的姿勢
初學者在使用正則表示式的時候難免會得到的匹配的結果與自己預期的不符合,可以藉助一些線上工具匹配完成後再進行程式碼編寫,常用的線上正則匹配測試如下;
- 線上工具
- 站長工具