1. 程式人生 > >正則表示式基礎.md

正則表示式基礎.md

正則表示式基礎

模式 描述
\w 匹配字母數字及下劃線
\W 匹配非字母數字下劃線
\s 匹配任意空白字元,等價於 [\t\n\r\f].
\S 匹配任意非空字元
\d 匹配任意數字,等價於 [0-9]
\D 匹配任意非數字
\A 匹配字串開始
\Z 匹配字串結束,如果是存在換行,只匹配到換行前的結束字串
\z 匹配字串結束
\G 匹配最後匹配完成的位置
\n 匹配一個換行符
\t 匹配一個製表符
^ 匹配字串的開頭
$ 匹配字串的末尾。
. 匹配任意字元,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字元。
[…] 用來表示一組字元,單獨列出:[amk] 匹配 ‘a’,‘m’或’k’
[^…] 不在[]中的字元:[^abc] 匹配除了a,b,c之外的字元。
* 匹配0個或多個的表示式。
+ 匹配1個或多個的表示式。
? 匹配0個或1個由前面的正則表示式定義的片段,非貪婪方式
{n} 精確匹配n個前面表示式。
{n, m} 匹配 n 到 m 次由前面的正則表示式定義的片段,貪婪方式
a|b 匹配a或b
( ) 匹配括號內的表示式,也表示一個組

1 re.match

1.1 常規匹配

嘗試從字串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。

import re

content = 'Hello 123 4567 World_This is a Regex Demo666666666'		#長度50
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo', content)
s = re.match(r"abc(.*?)i", "abcdefghi").group(1)
print(result.group())
print(result.span())
print(s)

Hello 123 4567 World_This is a Regex Demo

(0, 41)

defgh

1.2 泛匹配

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)

1.3匹配目標

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWo(\w)ld.*Demo$', content)
print(result.group())
print(result.group(0))
print(result.group(1))
print(result.group(2))
print(result.span())

輸出:
Hello 1234567 World_This is a Regex Demo
Hello 1234567 World_This is a Regex Demo
1234567
r
(0, 40)

1.4 貪婪匹配/非貪婪模式

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
result1 = re.match('^He.*?(\d+).*Demo$', content)
print(result.group(1))
print(result1.group(1))

輸出:
7
1234567

1.5 匹配模式

re.S(.包括換行符)

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)	
print(result.group(1))

1234567

1.6 轉義字元

content = 'price is $5.00'
result = re.match('price is \$5\.00', content)

總結:儘量使用泛匹配、使用括號得到匹配目標、儘量使用非貪婪模式、有換行符就用re.S

2 re.search

掃描整個字串並返回第一個成功的匹配。

總結:為匹配方便,能用search就不用match

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(13, 53), match=‘Hello 1234567 World_This is a Regex Demo’>

1234567

3 re.findall

搜尋字串,以列表形式返回全部能匹配的子串。

import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君">但願人長久</a>
        </li>
    </ul>
</div>'''
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
# 另一種匹配策略,html = re.sub('<a.*?>|</a>', '', html),去掉不同的內容,再匹配
print(results)
for result in results:
    print(result[1])
表示式 描述
* 0個或多個
? 0個或1個
*? 非貪婪模式
\s*? 是否有換行符
() 表示一個組,可用來匹配目標
(<a.*?>)? 是否有a標籤

4 re.sub

替換字串中每一個匹配的子串後返回替換後的字串。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+', '', content)
print(content)

Extra stings Hello World_This is a Regex Demo Extra stings

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)', r'\1 8910', content)
print(content)

Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings

5 re.compile

將正則字串編譯成正則表示式物件,以便於複用該匹配模式。

pattern = re.compile('^Hello.*Demo$', re.S)
result = re.match(pattern, content)