正則表示式在python中的應用

阿新 • • 發佈：2018-12-09

正則表示式簡介

正則表示式為高階的文字模式匹配、抽取、或者文字形式的搜尋與替換提供了基礎。正則表示式（regex）是由字元和特殊符號組成的字串，它們描述了模式的重複或者表述多個字元（就是描述了一個可以識別各種字串的模式），於是正則表示式能夠按照某種模式匹配一系列有相似特徵的字串。

Python通過呼叫標準庫中的re模組來使用正則表示式。（載入模組此文閉口不談，預設自己會）

1.1 特殊符號和字元

常見的特殊符號和字元，這些就是正則表示式的根基。

表示法	描述
符號
str	匹配字串的字面值
re1 \| re2	匹配正則表示式re1或者re2
.	匹配任何字元（除了換行符\n之外）
^	匹配字串的起始部分
$	匹配字串的終止部分
*	匹配0次或者多次前面出現的正則表示式
+	匹配1次或者多次前面出現的正則表示式
?	匹配0次或者1次前面出現的正則表示式
{N}	匹配N次前面出現的正則表示式
{M,N}	匹配M-N次前面出現的正則表示式
{M,}	匹配至少M次前面出現的正則表示式
[...]	匹配來自字符集的任意單一字元
[x-y]	匹配x-y範圍中的任意單一字元（數字也可使用此方法[0-9]）
[^...]	不匹配此字符集中出現的任何一個字元，包括某一範圍的字元
(...)	匹配封閉的正則表示式(實際使用中就是可以滿足你匹配一個詞語、成語或者單詞的需要)，然後另存為子組
.+?或者.*?	非貪婪模式匹配（後面將會提到）

特殊字元
\d	匹配任何十進位制數字，與[0-9]效果一樣。\D與之相反
\w	匹配任何字母數字字元，與[A-Za-z0-9]相同, \W與之相反。
\s	匹配任何空格字元，與[\n\t\r\v\f]相同（防止不懂，\n\r表示換行，\t為製表符，\v為垂直製表符，\f為換頁符。）
\b	匹配任何單詞邊界（\B與之相反）
\N	匹配已儲存的子組
\c	匹配特殊字元（去掉特殊字元的特殊含義）
擴充套件表示法
(?iLmsux)	在正則表示式中嵌入一個或者多個特殊“標記”引數
(?:...)	一個匹配不用儲存的分組
(?P<name>...)	像一個僅由name標識而不是數字ID標識的正則分組匹配
(?P=name)	在同一字串中匹配由（?P<name>分組的之前文字）
(?#...)	表示註釋
(?=...)	匹配條件是如果。。出現在之後的位置，而不使用輸入字串，稱作正向前視斷言
(?!...）	匹配條件是如果。。不出現在之後的位置，而不使用輸入字串，稱作負向前視斷言
(?<=....)	匹配條件是如果。。出現在之前的位置，而不使用輸入字串，稱作正向後視斷言
(?<!...)	匹配條件是如果。。不出現在之前的位置，而不使用輸入字串，稱作負向後視斷言
(?(\d/name)Y\N)	如果分組所提供的id或者name(名稱）存在，就返回正則表示式的條件匹配Y，如果不存在，就返回N

1.2 正則表示式模組下函式

re模組函式

re.complie(pattern,flags=0) 使用任何可選的標記來編譯正則表示式的模式，然後返回一個正則表示式物件。

re模組函式和正則表示式物件的方法

re.match(pattern,string,flags = 0) 嘗試使用帶有可選的標記的正則表示式的模式是來匹配字串（從字串的起始部分開始匹配）。如果匹配成功，就返回匹配物件；如果失敗，就返回None。

re.search(pattern,string,flags= 0) 使用可選標記搜尋字串中第一次出現的正則表示式模式。如果匹配成功，則返回匹配物件；如果失敗就返回None。

re.findall(pattern,string) 查詢字串中所有（非重複）出現的正則表示式模式，並返回一個匹配列表。

re.finditer(pattern,string) 與findall()函式相同，返回的是一個迭代器。對於每一次匹配，迭代器都返回一個匹配物件。

re.split(pattern,string,max=0) 根據正則表示式的模式分隔符，spilt函式將字串分割成列表，然後返回成功匹配的列表，分割最多操作max次。

re模組函式和正則表示式物件方法

re.sub(pattern,replace,string,count = 0) 使用replace替換所有正則表示式的模式在字串中出現的位置，除非定義 count，否則就將替換掉所有出現的位置。

常用的匹配物件方法

group(num=0) 返回整個匹配物件，或者編號為num的特定子組

groups(deault = None) 返回一個包含所有匹配子組的元組（如果匹配不成功，則返回空元組）

groupdict(deault=None) 返回一個包含所有匹配的命名子組的字典，所有子組名稱作為字典的鍵（如果匹配失敗，返回空字典）

常用的模組屬性

re.I、re.IGNORECASE 不區分大小寫的匹配

re,L、re.LOCALE 根據所使用的本地語言環境通過\w、\W、\B、\b、\S、\s實現匹配。

re.M、re.MULTILINE
^和$分別匹配目標字串中行的起始和結尾，而不是嚴格匹配整個字串本身的起始和結尾.

re.S 點號能夠匹配所有字元

re.X 通過反斜線轉義

1.3 疑點

1、匹配單詞邊界：\b（匹配的是位置，不是字元）

注意：邊界位置指的是匹配的那一側單詞與緊接著的是非字母數字之間的位置。

2、擴充套件表示法中（？=.）（正向前視斷言）。匹配的是位置，並不是字元。然後以匹配到的位置進行前向斷言。

下圖所示中，正則表示式模式表示若某個字串後面跟著.'.com' 則匹配前面的字元。結果很顯然，匹配到.com位置處（圖中黑線處）然後向前匹配。

tips:需要注意的是，匹配是從位置處向前按順序匹配的。

2、擴充套件表示法中（？<=.）（正向後視斷言）

圖中正則表示式模式表示：如果一個字串前面跟著字串.google 那麼則進行匹配之後的字元。

正向前視和正向後視斷言：前視與後視字面意思就是向前看與向後看。在條件滿足時在位置處向前看與向後看。

3、字符集[ ]的使用

正則表示式能夠匹配字符集中包含的任何字元。
'x[abc]'   #該正則表示式模式表示：匹配兩個字元的字串，第一個字母為x,後面跟著a或b或c。（'xa','xb','xc'是所有可能匹配到的情況）
'[ab][cd]'  ##該正則表示式模式表示：匹配兩個字元的字串.第一個字串為a或者b，第二個字元為c或者d。
4、貪婪匹配：
+?
??
*?
這三種模式可以避免貪婪匹配。
5、閉包操作符

星號或者星號操作符（*）將匹配其左邊的正則表示式出現零次或者多次的情況（在計算機程式語言和編譯原理中，該操作稱為 Kleene 閉包）。加號（+）操作符將匹配一次或者多次出現的正則表示式（也叫做正閉包操作符）

網路爬蟲筆記【6】 Python 中的正則表示式模組與應用

python3 內建的 re 模組，包含了正則表示式的操作集。 re 模組的一般使用步驟如下：編譯正則表示式，即使用 compile() 函式將正則表示式的字串形式編譯為一個 Pattern 物件。對目標字串進行匹配，即通過 Pattern 物件提供的一些列方法對文字

Python正則表示式的簡單應用和示例演示

前一陣子小編給大家連續分享了十篇關於Python正則表示式基礎的文章，感興趣的小夥伴可以點選連結進去檢視。今天小編給大家分享的是Python正則表示式的簡單應用和示例演示，將前面學習的Python正則表示式做一個概括。下面的栗子是用於提取高考日期，一般來說，我們填寫日期都會寫2018年6月7日，但

WPF中正則表示式的部分應用

無論在哪一種語言中，正則表示式在一定程度上都可以簡化程式碼程式設計。以下為在WPF中的部分應用。如var sql = new System.Text.RegularExpressions.Regex("[\\r\\n]").Replace(str, " "); 表示對str字串中匹配換行符

Python正則表示式Re中findall

findall中()裡面的內容是需要捕獲的內容，但是如果我們想捕獲整個正則表示式的結果則需要新增如下程式碼： #-*-coding:utf8-*- import re str1 = "[email protected]@[email protected]@asdfcom" a

Python正則表示式處理中文中的匹配

由於中文使用2個位元組來表示一個字，在正則表示式中如果不進行轉換的話，編譯器是不能識別的，所以這裡簡要談一下正則表示式中遇到中文的問題。關於python的re模組的基本用法，與各種正則表示式的基本形式，在之前的一篇文章中，進行過介紹，故此處不再贅述。下面是一段對中文

python正則表示式re 中m.group和m.groups的解釋

先看程式碼 instance: 究其因: 正則表示式中的三組括號把匹配結果分成三組 m.group() == m.group(0) == 所有匹配的字元(即匹配正則表示式整體結果) group(1) 列出第一個括號匹配部分，group(2)

正則表示式-Python實現

1、概述： Regular Expression。縮寫regex，regexp，R等：正則表示式是文字處理極為重要的工具。用它可以對字串按照某種規則進行檢索，替換。 Shell程式設計和高階程式語言中都支援正則表示式。 2、分類： BRE：基本正則表示式，grep、sed、vi等軟體支援，vim有

正則表示式基礎及應用

正則表示式,按照我自己的理解,其實就是字串的操作校驗,所以先介紹關於字串操作的知識: 第一個是search 查詢搜尋: var str='abcdef' alert(str.search('b')) //找到對應的位置下標從0開始沒有找到對應的返回是-1 第二個是subs

Jmeter之正則表示式提取器應用

說到Jmeter正則表示式提取器的應用，就不得不說到關聯。所謂關聯，就是把應用中動態變化返回的資料獲取到，把它儲存為一個引數，提供給後面需要用到的地方進行使用。 Jmeter中關聯是通過“新增—後置處理器—正則表示式提取器”來獲取資料，且注意正則表示式提取器附

正則表示式預編譯應用

使用正則表示式的預編譯功能，可以有效加快正則匹配速度。 Pattern要定義為static final靜態變數，以避免執行多次預編譯。示例：【錯誤用法】 // 沒有使用預編譯 private void func(...) { if (Pattern.matches(regexRu

正則表示式——python（學習記錄）

<span style="font-size:18px;">>>> import re >>> help (re) This module exports the following functions:</span><span style="

正則表示式的實際應用（採集器，敏感詞過濾，UBB翻譯器）

正則表示式在.Net就是用字串表示，這個字串格式比較特殊，無論多麼特殊，在C#語言看來都是普通的字串，具體什麼含義由Regex類內部進行語法分析。正則表示式可以進行字串的匹配、字串的提取、字串的替換。C#中分別對應正則表示式的三個重要方法。 1） IsMatch()

正則表示式match方法應用

一 match方法介紹使用正則表示式模式對字串執行查詢，並將包含查詢的結果作為陣列返回。語法： stringObj.match(rgExp) stringObj：必選項。對其進行查詢的String物件或字串文字。 RgExp：必選項。為包含正則表示式模式和可用標誌的正則表示式物件。也可以是包含正則表示式

只輸出匹配的模式--正則表示式的一個應用

先看需要匹配的檔案需求：如下為防火牆日誌，其中有欄位service=http proto=6，如何輸出service=http這個欄位呢，service欄位有可能包含好幾個空格，並且不確定究竟會有幾個，但是後面的欄位肯定是proto，如何用awk模式匹配輸出service

正則表示式程式碼格式化應用（不定期更新）

1、行末去掉空格 find: (\S) *\n --[注：*前面兩個空格] replace with:$1\n 2、去掉連續空行 find: \n\n\n\n* --[注：第一個換行符為行末換行] replace with:\n\n

正則表示式—HTML中的匹配

從HTML中文字中提取Email地址和http URL，是在做爬蟲時候的經常用到的技術，雖然變成語言本身可以幫助我們找到他們，但是用正則表示式來匹配也是很有用和具有實際意義的方法。一、匹配HTML Tag HTML不是有特別嚴格程式設計要求的，因此在匹配時

正則表示式-去除中括號

var str = '這是一個字串[html]語句;[html]字串很常見'; console.log(str.replace(/\[|]/g,'')); ==》這是一個字串[html]語句;[html]字串很常見 ==> 這是一個字串html語句;html字串很常

正則表示式的一個應用（替換字串）

原料：1 一個要替換的字串 2 正則表示式 3 json物件包含將要被替換的字串以及替換字串while(result=reg.exec(str)){}來判斷是否有匹配的字串 var key = result[0] 要被替換的字串var value = obj[key] 替換

python3 正則表示式(更新中）

1、特殊符號(先解釋，後面會有例子）表示描述 re1|re2 或的關係 . 匹配任何字元（\n除外），要顯示的匹配.號，需要加\| ^ 匹配字串

正則表示式在python中的應用

正則表示式簡介正則表示式為高階的文字模式匹配、抽取、或者文字形式的搜尋與替換提供了基礎。正則表示式（regex）是由字元和特殊符號組成的字串，它們描述了模式的重複或者表述多個字元（就是描述了一個可以識別各種字串的模式），於是正則表示式能夠按照某種模式匹配一系列有相似特

group(num=0)	返回整個匹配物件，或者編號為num的特定子組
groups(deault = None)	返回一個包含所有匹配子組的元組（如果匹配不成功，則返回空元組）
groupdict(deault=None)	返回一個包含所有匹配的命名子組的字典，所有子組名稱作為字典的鍵（如果匹配失敗，返回空字典）
常用的模組屬性
re.I、re.IGNORECASE	不區分大小寫的匹配
re,L、re.LOCALE	根據所使用的本地語言環境通過\w、\W、\B、\b、\S、\s實現匹配。
re.M、re.MULTILINE	^和$分別匹配目標字串中行的起始和結尾，而不是嚴格匹配整個字串本身的起始和結尾.
re.S	點號能夠匹配所有字元
re.X	通過反斜線轉義

正則表示式在python中的應用

正則表示式簡介

1.1 特殊符號和字元

1.2 正則表示式模組下函式

re模組函式

re模組函式和正則表示式物件的方法

re模組函式和正則表示式物件方法

常用的匹配物件方法

1.3 疑點

相關推薦