Python之re正則

阿新 • • 發佈：2020-12-13

1. 基本規則

# 元字元：  
    # . ^ $ * + ? { } [ ] | ( ) \

# 字元型別匹配：
    #  .  表示匹配任意一個字元(換行符除外)
    #  [asdf]  表示匹配中括號裡面的任意一個字母一次 
    #  [a-z]  表示匹配a-z中的任意一個字母    [0-9] 表示匹配0-9中的任意一個數字
    #  [^0-9] 中括號中有^符號，表示非，除---之外，這裡表示除0-9之外的任意字元

    # \d 匹配數字，即 [0-9]
    # \D 匹配⾮數字，即不是數字 [^0-9]
    # \s 匹配空⽩，即 空格，tab鍵 [\t\n\r\f\v] 

    # \S 匹配⾮空⽩ [^\t\n\r\f\v]
    # \w 匹配單詞字元，即a-z、A-Z、0-9、_  [a-zA-Z0-9_]
    # \W 匹配⾮單詞字元  [^[a-zA-Z0-9_]]
    # \b 匹配一個特殊字元邊界，比如 空格、&、# 等

# 定位：
    #  ^  表示起始定位
    #  $  表示結束定位

# 匹配次數：
    #  *  表示任意次
    #  +  至少1次 [1,+oo]
    #  ?  匹配0次或者1次
    #  {a，b}  匹配指定的次數範圍，如 {0，}相當於匹配任意次 ，{6} 表示匹配6次

# 
 分組 & 後向引用 & 別名：
    # (ab)   將括號中字元作為⼀個分組
    # \num   引⽤分組num匹配到的字串
    # (?P<name>)  分組起別名
    # (?P=name) 引⽤別名為name分組匹配到的字元

# |  匹配左右任意⼀個表示式

2. findall

2.1 貪婪匹配&惰性匹配

1）貪婪模式

findall預設就是貪婪模式，其會盡可能多的匹配
findall會將所有匹配符合的內容儲存到一個列表中

import re   # 匯入re模組

# findall方法第一個引數是匹配的規則，第二個引數是要匹配的字串 

# findall會將所有匹配符合的內容儲存到一個列表中
print(re.findall("hgzero", "thisishgzero"))
　　# 輸出：[hgzero]

data1 = re.findall("hg", "hgzerohgwzh")
print(data1)
　　# 輸出：['hg', 'hg']

2）惰性模式

惰性模式就是儘可能少的去匹配

data1 = re.findall("hg*", "hggggg")  # 貪婪模式
data2 = re.findall("hg*?", "hggggg") # 惰性模式，後面的那個問號就表示惰性模式
print(data1)  # 輸出：['hggggg']
print(data2)  # 輸出：['h']

2.2 字串轉義流程

字串轉義的流程：字串 --> python直譯器轉義 --> re模組的轉義

# 轉義
ret1 = re.findall("www.baidu", "www.baidu")   # 這裡面的 . 會代指任意字元(除\n外)
ret1 = re.findall("www\.baidu", "www.baidu")  # 這裡面，反斜槓的新增會讓 . 符號失去元字元代指的意義，從而使其就表示普通的點 . 符號

# 字串轉義的流程：  字串---> python直譯器轉義---> re模組的轉義 
ret2 = re.findall(r"I\b", "I hIo Ion")    # 這裡面的r ，表示在python層次不使用轉義字元，直接將其傳遞給re模組
ret3 = re.findall("I\\\\b", "I hIo Ion")  # 這裡適用4個\ , 表示在python直譯器層次轉義成2個\ , 然後再將其傳入re模組進行轉義


re.findall("I\\b", "I what")   # 這樣使\\b在python層次被轉義成\b傳遞給re模組
re.findall(r"I\b", "I what")   # 這樣在前面加上r ，可以讓python不轉義字串內容，而直接傳遞給re

3. search

search會將匹配到的結果儲存到一個物件中，且只匹配第一個物件。

用search取到的物件必須要用group取值。

# search會將匹配到的結果儲存到一個物件中,且只匹配第一個物件
sear = re.search("\d+", "fasdfsaf345kdf89")  # search返回的只是一個物件，且只返回找到的第一個
retu = sear.group()   # 用search取到的物件必須要用group取值

# 可以用?P<name>的形式給某一部分命名別名
re.search("(?P<name>[a-z]+)(?P<age>\d+)", "hgzero21wzh23hg26").group("name")
re.search("(?P<name>[a-z]+)(?P<age>\d+)", "hgzero21wzh23hg26").group("age")

4. match

match只從開始開始匹配，且只匹配一次，返回一個物件，若沒匹配到則什麼都不返回

# match只從開始開始匹配，且只匹配一次，返回一個物件，若沒匹配到則什麼都不返回
re.match("\d+", "234fda")

5. split

split會將字串按照某字元分割，然後儲存為一個列表

# split會將字串按照某字元分割
re.split(" ", "hello abc what")    # 將字串按照空格分割，儲存到一個列表中
re.split("[ |]", "hello welcome|hi hgzero") # 將字串按照空格或者|進行分割後儲存到一個列表中

re.split("[ab]", "abc")  # 先按照a分割，左邊形成一個空，然後將得到的bc再按照b分割，左邊又得到一個空
# 列印結果為  ['', '', 'c']

6. sub

sub可以完成字串的替換功能

# sub可以完成字串的替換功能
re.sub("\d+", "A", "welcome666hgzero987")   # 將第三個引數中的字串中的數字轉換成A
# 這裡面的第四個引數可以限定匹配替換的次數

re.subn("\d", "A", "welcome666hgzero987")  
# 將匹配到的內容放在一個元組裡，結果中的第二個值為匹配替換的次數
# 列印結果為   ('welcomeAAAhgzeroAAA', 6)

7. compile

compile可以事先定義好規則，儲存為一個物件，然後後面可以直接使用這個物件而無需再定義規則

# compile可以事先定義好規則，儲存一個物件，然後後面可以直接使用這個物件而無需再定義規則
com = re.compile("\d+")
com.findall("welcome666hgzero987")

8. finditer

finditer可以將得到的資料儲存到一個迭代器中

# finditer可以將得到的資料儲存到一個迭代器中
ret = re.finditer("\d", "welcome666hgzero987")
next(ret).group()    # 可以通過next函式加上group呼叫迭代器中的內容


re.findall("www\.(baidu|163)\.com", "www.baidu.com")  # findall會優先將分組中的內容返回
# 這裡的返回結果為  ['baidu']
re.findall("www\.(?:baidu|163)\.com", "www.baidu.com")  #  【在分組中加上 ?: 可以去掉分組的優先順序】

Python之re正則

1. 基本規則 # 元字元： # . ^ $ * + ? { } [ ] | ( ) \\ # 字元型別匹配： #.表示匹配任意一個字元(換行符除外)

python 包之 re 正則匹配教程

一、開頭匹配從字串開頭開始匹配返回匹配物件；如果找不到匹配，則為None import re

python通過re正則表示式切割中英文的操作

我就廢話不多說了，大家還是直接看程式碼吧~ import re s = \'alibaba阿里巴巴\' # 待分割字串

Python筆記-re正則匹配

前言正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

Python re正則表示式元字元分組()用法分享

分組小括號() 有直接分組和命名分組直接分組:()分組只顯示小括號括起來的內容

Python爬蟲教程之利用正則表示式匹配網頁內容

前言 Python爬蟲，除了使用大家廣為使用的scrapy架構外，還有很多包能夠實現一些簡單的爬蟲，如BeautifulSoup、Urllib、requests，在使用這些包時，有的網路因為比較複雜，比較難以找到自己想要的程式碼，在這個時候

python筆記54-re正則匹配替換字串(sub和subn)

前言 python 裡面可以用 replace 實現簡單的替換字串操作，如果要實現複雜一點的替換字串操作，需用到正則表示式。

Python爬蟲教程： re正則表示式解析html頁面

技術標籤：python正則表示式正則表示式（Regular Expression）是一種文字模式，包括普通字元（例如，a 到 z 之間的字母）和特殊字元（稱為"元字元"）。正則表示式通常被用來匹配、檢索、替換和分割那

python筆記56-re正則匹配re.match

前言 re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。

爬蟲與Python：（三）基本庫的使用——4.re正則使用

正則表示式是一個特殊的字元序列，它能幫助使用者便捷地檢索一個字串是否與某種模式匹配。在爬蟲中我們經常會使用它來抓取到網頁原始碼或介面返回內容中匹配提取我們想要的資料。

re模組（python中的正則）

re模組　　在python要想使用正則必須藉助於模組 re就是其中之一基本操作方法

Python常用的正則表示式處理函式詳解

正則表示式是一個特殊的字元序列，用於簡潔表達一組字串特徵，檢查一個字串是否與某種模式匹配，使用起來十分方便。

Python如何使用正則表示式爬取京東商品資訊

京東（JD.com）是中國最大的自營式電商企業，2015年第一季度在中國自營式B2C電商市場的佔有率為56.3%。如此龐大的一個電商網站，上面的商品資訊是海量的，小編今天就帶小夥伴利用正則表示式，並且基於輸入的關鍵詞來

26 Python 中使用正則表示式

1. 正則表示式 1.1 簡介正則表示式 (regular expression) 描述了一種字串匹配的模式 (pattern)，例如：

RE正則表示式-元字元

下表包含了元字元的完整列表以及它們在正則表示式上下文中的行為：字元描述

RE正則表示式-語法

正則表示式(regular expression)描述了一種字串匹配的模式（pattern），可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。

requests re正則匹配批量爬取 ip 經緯度存入mysql中

# 安裝 pip install pymysql pip install requests import time import random import json import pymysql db = pymysql.connect(host=\'xxx\',user=\'xxx\',password=\'xxx\',database=\'xxx\')

python爬蟲使用正則爬取網站的實現

本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。

python中使用正則表示式將所有符合條件的欄位全部提取出來

問題如標題，使用正則表示式匹配欄位目前無非就三種，分別是： re.match() re.search()

python之re模組

一、正則表示式　　re模組是python獨有的匹配字串的模組，該模組中提供的很多功能是基於正則表示式實現的，而正則表示式是對字串進行模糊匹配，提取自己需要的字串部分，他對所有的語言都通用。注意：

Python之re正則

1. 基本規則

2. findall

2.1 貪婪匹配&惰性匹配

2.2 字串轉義流程

3. search

4. match

5. split

6. sub

7. compile

8. finditer

相關推薦