Python基礎—15-正則表示式

阿新 • • 發佈：2018-12-11

正則表示式

應用場景

特定規律字串的查詢替換切割等
郵箱格式、URL、IP等的校驗
爬蟲專案中，特定內容的提取

使用原則

只要是能夠使用字串函式解決的問題，就不要使用正則
正則的效率較低，還會降低程式碼的可讀性
世界上最難理解的三樣東西：醫生的處方、道士的神符、碼農的正則
提醒：正則是用來寫的，不是用來讀的；在不知道功能的情況下，不要試圖閱讀別人的正則。

基本使用

說明：正則的解析處理是由re模組完成

相關函式：

match：從開頭進行匹配，匹配到就返回正則結果物件，沒有就返回None
search：從任意位置匹配，匹配到一次就返回，沒有就返回None

import re

 
# 只從開頭匹配，找到返回一個正則結果物件，沒有找到返回None
# m = re.match('abc', 'abcsdhasdasjabcweuqo')
# 全部匹配，只要找到就停止並返回
m = re.search('abc', 'sdhabcsdasjabcweuqo')

if m:
    # 提取匹配到的內容
    print(m.group())
    # 獲取匹配位置
    print(m.span())

findall：全域性匹配，返回匹配到的結果列表，沒有時返回空列表

# 匹配所有內容，返回匹配結果組成的列表，若沒有則返回空列表
f = re.findall(' 
abc', 'qwsdhaslabcsadjlasdoiabcdakls')
if f:
    print(f)
    print(type(f))

compile：生成正則表示式物件

# 生成正則表示式物件，用於正則匹配
c = re.compile('hello')

# 從開頭進行匹配
# m = c.match('hellosdsjldkabc')
# 從任意位置匹配
m = c.search('shdjkhelloaskjdha')
if m:
    print(m.group())
# 匹配所有
f = c.findall('helloasjdhakhello')
 
if f:
    print(f)

將正則的匹配分兩步完成：先建立正則物件，然後通過物件的match、search、findall方法完成匹配

正則規則

單個字元：

普通字元：簡單來說就是一對一的完全匹配
[]：中間的任意一個字元
    [a-z]：a~z之間的字元(所有小寫字母)
    [0-9]：0~9之間的字元(所有數字)
    [A-Z0-9]：所有的大寫字母和數字
    [^abc]：除abc外的所有字元
. ：匹配'\n'以外的任意字元
\d：所有的數字，等價於[0-9]
\D：所有的非數字，等價於[^0-9]
\w：所有的數字、字母(中文)、下劃線等(就是字)
\W：所有的非字字元(\w的取反)
\s：所有的空白字元(\n、\t、\t、空格等)
\S：所有的非空白字元
\b：詞邊界匹配(開頭、結尾、標點、空格)
\B：非詞邊界匹配

次數控制

*：前面的字元出現任意次
+：前面的字元出現至少一次
?：前面的字元出現至多一次
{m}：指定次數，m表示出現的次數
{m,}：至少指定次數
{m,n}：指定範圍內的次數，m到n次之間
{,n}：至多n次，相當於{0,n}

正則的匹配預設都是貪婪的(最大限度的匹配)

邊界限定

^：以指定的內容開頭
$：以指定的內容結尾
示例

import re

# 以指定的內容開頭
# c = re.compile(r'^abc')
# 以指定的內容結尾
c = re.compile(r'kas$')

s = c.search('abcsdhkas')

if s:
    print(s.group())

優先順序控制
- |：表示或，它擁有最低的優先順序
- ()：用於表示一個整體，明確的指定優先順序
- 示例：
```
import re

c = re.compile(r'a(hello|world)b')

s = c.search('aworldb')

if s:
    print(s.group())
```

分組匹配

說明：()不但可以作為一個整體，還可以進行分組匹配
示例1:

import re

c = re.compile(r'(\d+)([a-z]+)(\d+)')

s = c.search('shd327sjahdajhsd87892ehawksd')

if s:
    print(s.group())
    # 預設就是全部的匹配內容，等價於上式
    print(s.group(0))
    # 第一個()匹配到的內容
    print(s.group(1))
    print(s.group(2))
    print(s.group(3))
    print(s.span())
    print(s.span(0))
    print(s.span(1))
    print(s.span(2))
    print(s.span(3))

示例2：給分組起名字

import re

# 固定匹配
# c = re.compile(r'<div><a>\w+</a></div>')
# \1表示前面第一個小括號匹配的內容
# c = re.compile(r'<([a-z]+)><([a-z]+)>\w+</\2></\1>')
# 給()起名字
c = re.compile(r'<(?P<goudan>[a-z]+)><(?P<ergou>[a-z]+)>\w+</(?P=ergou)></(?P=goudan)>')

s = c.search('<div><a>百度一下</a></div>')

if s:
    print(s.group())

貪婪匹配

貪婪：最大限度的匹配叫貪婪。正則的匹配預設是貪婪。
非貪婪：只要滿足匹配條件，能少匹配就少匹配；通過可以使用'?'進行取消貪婪
示例：

import re

# 取消任意多次的貪婪
# c = re.compile(r'a.*?b')
# 取消至少一次的貪婪
c = re.compile(r'a.+?b')

s = c.search('abdhsadjbsdjabs')

if s:
    print(s.group())

匹配模式

說明：所謂模式就是對匹配的原則進行整體的修飾
示例：

import re

# 忽略大小寫的匹配
# c = re.compile(r'hello', re.I)
# s = c.search('Hello world')

# 進行多行匹配，預設單行匹配
# c = re.compile(r'^hello', re.M)
# s = c.search('world \nhello')

# 做為單行處理 或 讓 . 能夠匹配 \n
c = re.compile(r'<div>.*?</div>', re.S)
# string = '<div>hello</div>'
string = '''<div>
hello
</div>'''
s = c.search(string)

if s:
    print(s.group())

字元轉義
- 若匹配正則語法中的特定字元都需要進行轉義
- 正則字串會被處理兩次，python中處理一次，re模組會在處理一次
- 若不想考慮字元的轉義問題，可以在書寫正則字串時前面加一個字元'r'
- 新增'r'之後，在python不會再進行任何轉義，只需在與正則語法相關的字元前加''即可讓其使用原有意義

Python基礎—15-正則表示式

正則表示式應用場景特定規律字串的查詢替換切割等郵箱格式、URL、IP等的校驗爬蟲專案中，特定內容的提取使用原則只要是能夠使用字串函式解決的問題，就不要使用正則正則的效率較低，還會降低程式碼的可讀性世界上最難理解的三樣東西：醫生的處方、道士的神符、碼農的正則提醒：正則是用來寫的，不是用來

15-python基礎知識-正則表示式

正則表示式應用場景特定規律字串的查詢，切割、替換等特定格式(郵箱、手機號、IP、URL等)的校驗爬蟲專案中，提取特定內容使用原則只要使用字串函式能夠解決的問題就不要使用正則正則的效率比較低，同時會降低程式碼的可讀性

python基礎：正則表示式

正則表示式是一種特殊的字串模式，用於匹配一組字串。一：基礎釋義 \w 匹配大小寫字母或數字或下劃線或漢字 \w+ 後面的+號的作用在前一個字元上,表示一個或多個\w,最少一個 . 匹配除換行符以外的任意字元 \s 匹配任意的空白符 \d 匹

Java程式設計基礎15——正則表示式&常用工具類

1_正則表示式的概述和簡單使用 A:正則表示式是指一個用來描述或者匹配一系列符合某個語法規則的字串的單個字串。其實就是一種規則。有自己特殊的應用。作用:比如註冊郵箱,郵箱有使用者名稱和密碼,一般會對其限制長度,這個限制長度的事情就是正則表示式做的 B

python 基礎知正則表示式

# 正則表示式 ### 應用場景 - 特定規律字串的查詢，切割、替換等 - 特定格式(郵箱、手機號、IP、URL等)的校驗 - 爬蟲專案中，提取特定內容 ### 使用原則 - 只要使用字串函式能夠解決的問題就不要使用正則 - 正則的效率比較低，同時會降低程式碼的可讀性 - 世界上最難理解的三樣東

python基礎-12-正則表示式

python基礎-正則表示式正則正則表示式是電腦科學的一個概念，正則表通常被用來檢索、替換那些符合某個模式(規則)的文字。也就是說使用正則表示式可以在字串中匹配出你需要的字元或者字串，甚至可以替換你不需要的字元或者字串。 #正則（不是python特

從零開始的Python學習Episode 15——正則表示式

正則表示式正則表示式（或 RE）是一種小型的、高度專業化的程式語言，（在Python中）它內嵌在Python中，並通過 re 模組實現，所以使用時要匯入re模組。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。先說幾個元字元 &nbs

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

Python基礎-re正則模塊

字符匹配 mil afa logs 電子郵箱空白字符手機常用所有一、簡介：正則表達式：是一種小型的、高度專業化的編程語言，(在Python中)它內嵌在Python中，並通過re模塊實現，正則表達式模式被編譯成一系列的字節碼，然後由用C編寫的匹配引擎執行。二

Python基礎語法 - 正則表達式

Python3.6.5 re模塊概述正則表達式是一個特殊的字符序列，它常常用於檢查是否與某種模式匹配。第八節課主要介紹了從以下幾方面介紹了Python正則表達式的用法。（1）re模塊的使用（2）字符匹配、數量表示、邊界表示（3）正則表達式的高級用法（4）貪婪與非貪婪模式 re模塊（一）match

Python學習：正則表示式

正則表示式 python 使用正則表示式（re）來進行匹配引擎搜尋正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串” 關於正則表示式，必須先學會它的元字元元字元： ^ $ * +&

在Python中使用正則表示式去掉字串裡的html標籤

有時候會獲得一些帶html標籤的字串，需要把html標籤去掉，獲得乾淨的字串，這時候可以使用正則表示式。程式碼如下： import re htmeString = ''' <ul id="TopNav"> &nbs

Shell基礎 -- 基本正則表示式

　　正則表示式（Regular Expression，通常簡稱為 regex 或 RE）是一種表達方式，可以用它來查詢匹配特定準則的文字。在許多程式語言中都有用到正則表示式，常用它來實現一些複雜的匹配。這裡簡單介紹一下 shell 中常用到的一些正則表示式。一、什麼是正則表示式　　正則表示式是對字串進