正則表示式和python的re模組

阿新 • • 發佈：2018-11-25

0 正則表示式

0.1 常見的元字元

.: 匹配除\r\n之外的任何單個字元

*: 匹配前面的子表示式任意次(0-無窮)，例如Zz*可以匹配Z，可以匹配Zz，也可以匹配Zzzzzzzzzz

+: 匹配前面的子表示式任意次(1-無窮)，例如hh+可以匹配hh，hhh，hhhhhhhhhhhhhhh

{n}: 匹配前面的子表示式n次，例如h{5}匹配hhhhhh

{n,}: 匹配前面的子表示式至少n次，例如h{5, } 匹配hhhhhh，hhhhhhhh，hhhhhhhhhhhhhhhhhh

{n,m}: 匹配前面的子表示式n到m次

?: 匹配前面的子表示式0次或1次，等價於{0,1}，如果跟在* + ? {n} {n,} {n,m}後面則代表非貪婪模式。例如hhhhh，用h+匹配得到一個結果hhhhh，用h+?則匹配到5個結果，5個都是h。

\: 轉義字元，例如\\n匹配\n，\n匹配換行符，\\匹配\，\(匹配(

^: 匹配字串的開頭，例如^hello匹配hello world

$:匹配字串的結尾，例如cut$:匹配字串的結尾，例如cut$匹配I am from cut

[...]: 　字符集，匹配中括號內的任意字元，-代表範圍，^代表非，如果要表示[ ] - ^ 要在前面加上\ 或者把] - 放在首位，把^放到非首位，例如[^0-9]匹配非數字

|: 或，匹配左右表示式任意一個，如果左邊匹配成功，就不再匹配右邊的表示式，例如convex|function匹配convex或者匹配function

(...): 分組，作為一個整體被匹配，例如，(really ){5} 匹配really really really really really

(?P<name>...): 分組，同時起一個別名

(?P=name): 引用別名為name的分組匹配到的字串

\<number>: 引用編號為number的分組匹配到的字串

\d: 匹配數字，等價於[0-9]

\D: 匹配非數字，等價於[^0-9]

\s: 匹配不可見字元，等價於[\f\n\r\t\v]，\t是製表符\x09，\n是換行符\x0a，\v是垂直製表符\x0b，\f是換頁符\x0c，\r是回車符\x0d

\S: 匹配可見字元，等價於[^\s]

\w: 匹配包括下劃線的任何單詞字元（unicode字符集），類似但不等價於[A-Za-z0-9_]

\W: 匹配任何非單詞字元，等價於[^\w]

1 python中的正則

1.1 反斜槓

在程式語言中使用正則表示式，當我們要匹配\的時候需要用4個\來匹配，\\\\匹配\，因為第一次程式語言會把\\\\轉移成\\，然後第二次正則會把\\轉移成\。如果用python的原生字串r來寫正則，則可以少寫兩個\，即r'\\'匹配\，r'\\d'匹配'\d'，r‘\d’則匹配數字

1.2 re模組的使

# 首先將正則表示式編譯成Pattern物件
pattern = re.compile('keras')

# 可以用Pattern物件的match方法匹配文字，從頭開始但不要求完全的匹配，可在最後加入$則是完全匹配，返回Match物件或None
match = pattern.match('keras is a high-level neural networks API')

# 也可以用Pattern物件的search方法匹配文字，在文字中尋找子串的匹配，返回Match物件或None
match = pattern.search('keras is a high-level neural networks API')

# 用Match物件的方法輸出匹配結果
if match:
    print match.group()

# 另外可以直接使用re的方法進行匹配，這樣省了編譯那一行，但是不能複用。
re.match('tensorflow', 'tensorflow is an open-source library for Machine Intelligence')
re.search('Machine Intelligence', 'tensorflow is an open-source library for Machine Intelligence')

1.3 re.compile(pattern, flags=0)

返回：Pattern物件

pattern: 字串形式的正則表示式，可利用上文的元字元和普通字元進行一系列組合得到

flags: 匹配模式，分為如下幾個（可用|使用多個，如re.I | re.

re.I或re.IGNORECASE：忽略大小寫

re.L或re.LOCALE：使用當地locale。（python中有個locale模組，locale代表不同的語言，地區和字符集）

re.U或re.UNICODE：使用unicode的locale

re.M或re.MULTILINE：使用^或$時會匹配每一行的行首或行尾

re.S或re.DOTALL：使用.時能匹配換行符

re.X或re.VERBOX：忽略空白字元，而且可以加入註釋

1.4 Pattern物件

Pattern物件代表一個正則表示式，包含如下幾個方法，這些方法在re都有對應的方法，引數略有不同，下面也一起給出

match(string, pos=0, endpos=-1) | re.match(pattern, string, flags=0): 從頭開始匹配，返回一個Match物件或None。

search(string, pos=0, endpos=-1) | re.search(pattern, string, flags=0): 尋找子串的匹配，返回一個Match物件或None

split(string, maxsplit=0) | re.split(pattern, string, maxsplit=0, flags=0): 按照pattern切割string，maxsplit表示最大切割次數

findall(string , pos=0, endpos=-1) | re.findall(pattern, string, flags=0): 搜尋返回全部能匹配的子串

finditer(string, pos=0, endpos=-1) | re.finditer(pattern, string, flags=0): 搜尋返回match物件的迭代器

sub(repl, string, count=0) | re.sub(pattern, repl, string, count=0, flags=0): 使用repl替換string中能匹配的每一個子串，返回替換後的子串，count指定最多替換次數。

subn(repl, string, count=0) | re.subn(pattern, repl, string, count=0, flags=0): 相比於sub，多返回了一個次數，組成tuple。

1.5 Match物件

Match物件代表匹配的結果，包含匹配的相關資訊。

包含如下屬性：string, re( 匹配時使用的Pattern物件）, pos, endpos, lastindex（最後一個匹配的分組的下標）, lastgroup（最後一個匹配的分組的別名）

包含如下方法：

group(group1, group2, group3,...):

返回一個或多個組匹配的子串，不填寫引數預設為group(0)，代表整個匹配的子串。

group1可以是編號，也可以是組的別名。

沒匹配到的組返回None，匹配到多個子串的組返回最後一個。

groups(default=None): 返所有組匹配的子串。當組沒有匹配到子串時候返回default。

groupdict(default=None): 返回字典，鍵為組的別名，值為該組匹配到的子串。沒有別名的組不返回。

start(groupNum=0): 返回指定組匹配的子串在string中的開始下標，沒有匹配則返回-1

end(groupNum=0): 返回指定組匹配的子串在string中的結束下標，沒有匹配則返回-1

span(group=0): 返回(start(group), end(group))

1.6 unicode編碼

python中re模組的正則最好統一使用unicode編碼，即u'...'的形式。

因為之前沒有使用unicode，在匹配中文的時候出現了匹配錯誤的結果。

猜測是re模組裡的方法預設使用unicode編碼來執行的。

正則表示式和python的re模組

正則表示式和re模組知識點彙總

day023 正則表示式和re模組

024-2018-1010 正則表示式和re模組

正則表示式和re模組

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

正則表示式和python的re模組

正則表示式（re模組，匹配單個字元，匹配多個字元，匹配分組，python貪婪和非貪婪，r的作用）

正則表示式和Object類

python3 學習5 正則表示式，re模組學習

20180102-正則表示式和grep

【轉】Python之正則表示式（re模組）

資料提取——正則表示式的 re 模組

正則表示式(python3-re模組示例）

正則表示式和異常

Python學習手冊之正則表示式和元字元

使用正則表示式和json.loads,將JSON檔案中的資料轉化為pandas.DataFrame

正則表示式（re模組）

python之正則表示式：re模組

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

正則表示式和NFA

正則表示式和python的re模組

相關推薦