Python正則表示式保姆式教學詳細教程

阿新 • • 發佈：2021-08-31

一、re模組

在講正則表示式之前，我們首先得知道哪裡用得到正則表示式。正則表示式是用在findall()方法當中，大多數的字串檢索都可以通過findall()來完成。

1.匯入re模組

在使用正則表示式之前，需要匯入re模組。

import re

2.findall（）的語法：

匯入了re模組之後就可以使用findall（）方法了，那麼我們必須要清楚findall（）的語法是怎麼規定的。

findall(正則表示式，目標字串)

不難看出findall（）的是由正則表示式和目標字串組成，目標字串就是你要檢索的東西，那麼如何檢索則是通過正則表示式來進行操作，也就是我們今天的重點。

使用findall（）之後返回的結果是一個列表，列表中是符合正則要求的字串

二、正則表示式

(一).字串的匹配

1.普通字元

大多數的字母和字元都可以進行自身匹配。

import re
a = "abc123+-*"
b = re.findall('abc',a)
print(b)

輸出結果：

['abc']

2.元字元

元字元指的是. ^ $ ? + {} \ []之類的特殊字元，通過它們我們可以對目標字串進行個性化檢索，返回我們要的結果。

這裡我給大家介紹10個常用的元字元以及它們的用法，這裡我先給大家做1個簡單的彙總，便於記憶，下面會挨個講解每一個元字元的使用。

在這裡插入圖片描述

（1） []

[] 的使用方式主要有以下三種：

常用來指定一個字符集。

s = "a123456b"
rule = "a[0-9][1-6][1-6][1-6][1-6][1-6]b"	#這裡暫時www.cppcns.com先用這種麻煩點的方法，後面有更容易的，不用敲這麼多[1-6]
l = re.findall(rule,s)
print(l)

輸出結果為：

['a123456b']

可以表示一個範圍。

例如要在字串"abcabcaccaac"中選出abc元素：

s = "abcabcaccaac"
rule = "a[a,b,c]c"  # rule = "a[a-z0-9][a-z0-9][a-z0-9][a-z0-9]c"	
l = re.findall(rule,s)
print(l)

輸出結果為：

['abc','abc','acc','aac']

[] 內的元字元不起作用，只表示普通字元。

例如要在字串“caabcabcaabc”中選出“caa”：

print(re.findall("caa[a，^]","caa^bcabcaabc"))

輸出結果為：

['caa^']

注意點：當在[]的第一個位置時，表示除了a以外的都進行匹配，例如把[]中的和a換一下位置：

print(re.findall("caa[^,a]","caa^bcabcaabc"))

輸出：

['caa^','caab']

（2）^

^ 通常用來匹配行首，例如：

print(re.findall("^abca","abcabcabc"))

輸出結果：

['abca']

請新增圖片描述

(3) $
$ 通常用來匹配行尾，例如：

print(re.findall("abc$","accabcabc"))

輸出結果：

['abc']

在這裡插入圖片描述

（4）\

反斜槓後面可以加不同的字元表示不同的特殊含義，常見的有以下3種。

\d:匹配任何十進位制數等價於[0-9]

print(re.findall("c\d\d\da","abc123abc"))

輸出結果為：

['c123a']

\可以轉義成普通字元，例如：

print(re.findall("\^abc","^abc^abc"))

輸出結果：

['^abc','^abc']

匹配任何的空白字元例如：

print(re.findall("\s\s","a     c"))

輸出結果：

[' ',' ']

匹配任何字母數字和下劃線，等價於[a-zA-Z0-9_]，例如：

print(re.findall("\w\w\w","abc12_"))

輸出：

['abc','12_']

在這裡插入圖片描述

（5）{n}

{n}可以避免重複寫，比如前面TUtaViP我們用\w時寫了3次\w，而這裡我們這需要用用上{n}就可以，n表示匹配的次數，例如：

print(re.findall("\w{2}","abc12_"))

輸出結果：

['ab','c1','2_']

（6）*

*表示匹配零次或多次（儘可能的多去匹配），例如：

print(re.findall("010-\d*","010-123456789"))

輸出：

['010-123456789']

**（7） + **

+表示匹配一次或多次，例如

print(re.findall("010-\d+","010-123456789"))

輸出：

['010-123456789']

（8） .

.是個點，這裡不是很明顯，它用來操作除了換行符以外的任何字元，例如：

print(re.findall(".","010\n?!"))

輸出：

['0','1','0','?','!']

(9) ？

？表示匹配一次或零次

print(re.findall("010-\d?","010-123456789"))

輸出：

['010-1']

這裡要注意一下貪婪模式和非貪婪模式。

貪婪模式：儘可能多的去匹配資料，表現為\d後面加某個元字元，例如\d*：

print(re.findall("010-\d*","010-123456789"))

輸出：

['010-123456789']

非貪婪模式：儘可能少的去匹配資料，表現為\d後面加？，例如\d?

print(re.findall("010-\d*?","010-123456789"))

輸出為：

['010-']

(10){m,n}
m,n指的是十進位制數,表示最少重複m次，最多重複n次，例如：

print(re.findall("010-\d{3,5}","010-123456789"))

輸出：

['010-12345']

加上？表示儘可能少的去匹配

print(re.findall("010-\d{3,5}?","010-123456789"))

輸出：

['010-123']

{m,n}還有其他的一些靈活的寫法，比如：

{1,} 相當於前面提過的 + 的效果
{0，1} 相當於前面提過的？的效果
{0，} 相當於前面提過的 * 的效果

在這裡插入圖片描述

關於常用的元字元以及使用方法就先到這裡，我們再來看看正則的其他知識。

（二）正則的使用

1.編譯正則

在Python中，re模組可通過compile() 方法來編譯正則，re.compile(正則表示式),例如：

s = "010-123456789"
 rule = "010-\d*"
 rule_compile = re.compile(rule) #返回一個物件
 # print(rule_compile)
 s_compile = rule_compile.findall(s)
 print(s_compile)	#列印compile()返回的物件是什麼

輸出結果：

['010-123456789']

2.正則物件的使用方法

正則物件的使用方法TUtaViP不僅僅是通過我們前面所介紹的 findall() 來使用，還可以通過其他的方法進行使用，效果是不一樣的，這裡我做個簡單的總結：

（1）findall()
找到re匹配的所有字串，返回一個列表

（2）search()
掃描字串，找到這個re匹配的位置（僅僅是第一個查到的）

（3）match()
決定re是否在字串剛開始的位置（匹配行首）

就拿上面的 compile()編譯正則之後返回的物件來做舉例，我們這裡不用 findall(),用 match() 來看一下結果如何：

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule)  # 返回一個物件
# print(rule_compile)
s_compile = rule_compile.match(s)
print(s_compile)  # 列印compile()返回的物件是什麼

輸出：

<re.Match object; span=(0,13),match='010-123456789'>

可以看出結果是1個match 物件，開始下標位置為0~13，match為 010-123456789 。既然返回的是物件，那麼接下來我們來講講這個match 物件的一些操作方法。

在這裡插入圖片描述

3.Match object 的操作方法

這裡先介紹一下方法，後面我再舉例，Match物件常見的使用方法有以下幾個：

（1）group()
返回re匹配的字串

（2）start()
返回匹配開始的位置

（3）end()
返回匹配結束的位置

（4）span()
返回一個元組：（開始,結束）的位置

舉例：用span()來對search()返回的物件進行操作：

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule)  # 返回一個物件
s_compile = rule_compile.match(s)
print(s_compile.span())  #用span()處理返回的物件

結果為：

(0,13)

4.re模組的函式

re模組中除了上面介紹的findall()函式之外，還有其他的函式，來做一個介紹：

（1）findall()
根據正則表示式返回匹配到的所有字串，這個我就不多說了，前面都是在介紹它。

（2）sub(正則,新字串,原字串)
sub() 函式的功能是替換字串，例如：

s = "abcabcacc" #原字串
l = re.sub("abc","ddd",s)   #通過sub()處理過的字串
print(l)

輸出：

ddddddacc#把abc全部替換成ddd

(3)subn(正則,原字串)
subn()的作用是替換字串，並返回替換的次數

s = "abcabcacc" #原字串
l = re.subn("abc",s)   #通過sub()處理過的字串
print(l)

輸出：

('bbbbbbacc',2)

（4）split()
split()分割字串，例如：

s = "abcabcacc"
l = re.split("b",s)
print(l)

輸出結果：

['a','ca','cacc']

在這裡插入圖片描述

關於正則，我就講這麼多了，正則幾乎是Python所有方向中是必不可少的一個基礎，祝你的Python之旅學有所成！

到此這篇關於Python正則表示式保姆式教學詳細教程的文章就介紹到這了,更多相關Python正則表示式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

Python正則表示式保姆式教學詳細教程

目錄一、re模組1.匯入re模組2.findall（）的語法：二、正則表示式1.普通字元2.元字元（二）正則的使用1.編譯正則2.正則物件的使用方法3.Match object 的操作方法4.re模組的函式正則作為處理字串的一個實用工具，在中

超詳細講解python正則表示式

目錄正則表示式1.1 正則表示式字串1.1.1 元字元1.1.2 字元轉義1.1.3 開始與結束字元1.2 字元類1.2.1 定義字元類1.2.2 字串取反1.2.3 區間1.2.4 預定義字元類1.3 量詞1.3.1 量詞的使用1.3.2 貪婪量詞和懶惰量詞1.4 分

Python正則表示式匹配字串中的數字

1.使用“\\d+”匹配全數字程式碼： import re zen = \"Arizona 479,501,870. Carlifornia 209,213,650.\"

python 正則表示式引數替換例項詳解

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

python 正則表示式語法學習筆記

正則表示式(regular expression)描述了一種字串匹配的模式（pattern），可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。

Python正則表示式學習小例子

正則表示式是處理字串的強大工具。作為一個概念而言，正則表示式對於Python來說並不是獨有的。但是，Python中的正則表示式在實際使用過程中還是有一些細小的差別。

python正則表示式例項程式碼

re 模組使 Python 語言擁有全部的正則表示式功能。會用到的語法正則字元釋義

學會Python正則表示式，就看這20個例子(指令碼之家修正版)

一文秒懂python正則表示式常用函式

導讀：正則表示式是處理字串型別的\"核武器\"，不僅速度快，而且功能強大。本文不過多展開正則表示式相關語法，僅簡要介紹 python中正則表示式常用函式及其使用方法，以作快速查詢瀏覽。

Python正則表示式如何匹配中文

用 \'[\\u4e00-\\u9fa5]‘ 匹配中文在字串中匹配中文示例：匹配字串中的第一個中文字元

Python正則表示式高階使用方法彙總

正則表示式是一個以簡單直觀的方式匹配指定文字資訊從而達到查詢、替換等操作的目的。正則表示式以其簡單而高效的特點使得其在資料分析和資料驗證方面應用廣泛。

python正則表示式的懶惰匹配和貪婪匹配說明

第一次碰到這個問題的時候，確實不知道該怎麼辦，後來請教了一個大神，加上自己的理解，才瞭解是什麼意思，這個東西寫python的會經常用到，而且會特別頻繁，在此寫一篇部落格，希望可以幫到一些朋友。

一文搞定Python正則表示式

本文對正則表示式和Python中的re模組進行詳細講解很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那

python正則表示式

python正則表示式 1. 正則表示式基礎 1.1. 簡單介紹正則表示式並不是Python的一部分。正則表示式是用於處理字串的強大工具，擁有自己獨特的語法以及一個獨立的處理引擎，效率上可能不如str自帶的方法，但功能十分

python 正則表示式用法

做資料清洗時，經常需要用到正則表示式替換等等首先介紹一下元字元（匹配規則）

Python 正則表示式 re

非列印字元非列印字元也可以是正則表示式的組成部分。下表列出了表示非列印字元的轉義序列：

Python 正則表示式簡單瞭解

match 從字串的開始匹配如果開頭不符合要求就會報錯 search 用字串裡的每一個元素去匹配找的元素

python 正則表示式與JSON-正則表示式匹配數字、非數字、字元、非字元、貪婪模式、非貪婪模式、匹配次數指定等

1、正則表示式：目的是為了爬蟲，是爬蟲利器。正則表示式是用來做字串匹配的，比如檢測是不是電話、是不是email、是不是ip地址之類的

python 正則表示式與JSON-JSON

1、json 是一種輕量級的跨語言資料交換格式。輕量的意思是比起xml來說，更加輕量。比xml傳輸的資料更易讀，更易於極細，傳輸的效率要高。

python正則表示式匹配反斜槓的操作方法

python正則表示式匹配反斜槓正則需要把原始字串不被轉義的條件下傳遞給正則模組，正則再去轉義。

Python正則表示式保姆式教學詳細教程

目錄

一、re模組

1.匯入re模組

2.findall（）的語法：

二、正則表示式

1.普通字元

2.元字元

（二）正則的使用

1.編譯正則

2.正則物件的使用方法

3.Match object 的操作方法

4.re模組的函式

相關推薦