python-re正則表示式

阿新 • • 發佈：2019-01-07

正則表示式

# 一個線上正則表示式工具
http://tool.oschina.net/regex/

模式	描述
\w	匹配字母數字及下劃線
\W	匹配非字母數字下劃線
\s	匹配任意空白字元，等價於 [\t\n\r\f].
\S	匹配任意非空字元
\d	匹配任意數字，等價於 [0-9]
\D	匹配任意非數字
\A	\A 匹配字串開始
\Z	\Z 匹配字串結束，如果是存在換行，只匹配到換行前的結束字串
\z	\z 匹配字串結束
\G	\G 匹配最後匹配完成的位置
\n	\n 匹配一個換行符
\t	\t 匹配一個製表符
^	^ 匹配字串的開頭
$	$ 匹配字串的末尾。
.	.匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。
[…]	[…] 用來表示一組字元,單獨列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	[^…] 不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。
*	* 匹配0個或多個的表示式。
+	+ 匹配1個或多個的表示式。
?	? 匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
{n}	{n} 精確匹配n個前面表示式。
{n, m}	{n, m} 匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
a\|b	a\|b 匹配a或b
( )	( ) 匹配括號內的表示式，也表示一個組

re.match

"""
match 第一個字元開始匹配

re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。
re.match(pattern, string, flags=0)
pattern, string, flags=0 
正則表示式，要匹配的字串 匹配模式

儘量使用泛匹配、使用括號得到匹配目標、儘量使用非貪婪模式、有換行符就用re.S
"""

# 常規練習匹配
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content)
print(result)
print(result.group()) #返回匹配結果
print(result.span())  # 輸出匹配結果的範圍
"""
41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)
"""


# 泛匹配
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())
"""
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)
"""


# 目標匹配，使用小括號 括起來
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
"""
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
1234567
(0, 40)
"""


# 貪婪匹配
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))
"""
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
# 只匹配出了7，是因為前面 .*是貪婪的，把123456匹配走了，匹配儘可能的多
"""

# 非貪婪匹配  ?匹配儘可能少的字元
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
"""
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567
"""



# 匹配模式 re.S
import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))
"""
1234567
# 如果不加re.S,匹配是空，因為.*不能匹配換行符
"""



# 轉移
import re

content = 'price is $5.00'
result = re.match('price is $5.00', content)
print(result)
"""
None
"""

import re
content = 'price is $5.00'
result = re.match('price is \$5\.00', content)
print(result)
"""
<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>
"""



"""
總結：
	儘量使用泛匹配、使用括號得到匹配目標、儘量使用非貪婪模式、有換行符就用re.S
"""

re.search

# match 和 search

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
# None

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result)
print(result.group(1))
# <_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
# 1234567

# 匹配練習
import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但願人長久</a>
        </li>
    </ul>
</div>'''
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
   	# 齊秦 往事隨風

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
    # 任賢齊 滄海一聲笑
    
    
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))
    # beyond 光輝歲月

re.findall

# 搜尋字串，以列表形式返回全部能匹配的子串。

import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君">但願人長久</a>
        </li>
    </ul>
</div>'''
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])
    
"""
[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但願人長久')]
<class 'list'>

('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風')
/3.mp3 齊秦 往事隨風
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但願人長久')
/6.mp3 鄧麗君 但願人長久

"""




results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
print(results)
for result in results:
    print(result[1])
"""
[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任賢齊">', '滄海一聲笑', '</a>'), ('<a href="/3.mp3" singer="齊秦">', '往事隨風', '</a>'), ('<a href="/4.mp3" singer="beyond">', '光輝歲月', '</a>'), ('<a href="/5.mp3" singer="陳慧琳">', '記事本', '</a>'), ('<a href="/6.mp3" singer="鄧麗君">', '但願人長久', '</a>')]
一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
但願人長久
"""

re.sub

# 替換字串中每一個匹配的子串後返回替換後的字串。

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+', '', content)
print(content)
# Extra stings Hello  World_This is a Regex Demo Extra stings

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+', 'Replacement', content)
print(content)
# Extra stings Hello Replacement World_This is a Regex Demo Extra stings

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)', r'\1 8910', content)
print(content)
# Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings



import re
html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君">但願人長久</a>
        </li>
    </ul>
</div>'''
html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
print(results)
for result in results:
    print(result.strip()) # 去掉換行符等

re.compile

# 將一個正則表示式串編譯成正則物件，以便於複用該匹配模式
import re

content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile('Hello.*Demo', re.S)
result = re.match(pattern, content)
#result = re.match('Hello.*Demo', content, re.S)
print(result)
# <_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>

實戰練習

import requests
import re
content = requests.get('https://book.douban.com/').text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
    url, name, author, date = result
    author = re.sub('\s', '', author)
    date = re.sub('\s', '', date)
    print(url, name, author, date)

python RE正則表示式基本知識

1． Python正則式的基本用法 1.1基本規則 1.2重複 1.2.1最小匹配與精確匹配 1.3前向界定與後向界定 1.4組的基本知識 2． re模組的基本函式 2.1使用compile加速 2.2 match和sear

python-re正則表示式

正則表示式 # 一個線上正則表示式工具 http://tool.oschina.net/regex/ 模式描述 \w 匹配字母數字及下劃線 \W

python re 正則表示式

正則表示式是用於字串搜尋、匹配、替換的常見方法，而它實際上就是一個特殊的字元序列，用來幫助你方便的檢查一個字串是否與某種模式匹配。 Python中re包是專門用來處理正則表示式的相關操作，我參考了一些資料整理了re包中所有的函式應用，僅供參考！說明

python re正則表示式說明文件

這個文件是一個關於用Python中的re模組來使用正則表示式的教程。 1、序言 re 模組在Python1.5中被加入，並且提供了Perl型別的正則表示式模式。較早的Python版本用的是regex模組，它提供Emacs型別模式。 Emacs型別模式可讀性差

Python Re正則表示式

正則表示式是用來簡潔表達一組字串的表示式正則表示式在文字處理中十分常用：表達文字型別的特徵（病毒、入侵等）同時查詢或替換一組字串匹配字串的全部或部分……最主要應用在字串匹配中編譯：將符合正則

python學習-正則表示式及re模塊

我只 com 返回現在輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1，創建正則表達式對象想re.compile()傳入一個字符串值，表示正則表達式，它將返回一個Regex模式對象。創建一

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

python學習 re正則表示式

一、正則的常用符號： . 匹配任一字元，換行符\n除外 * 匹配前一個字元0次或無限次？匹配前一個字元0次或1次 .* 貪心演算法（儘可能多的匹配） .*? &nb

python模組-re正則表示式

元字元 . * + ? ^ $ { } [ ] - &n

python html抓取，並用re正則表示式解析（一）

html抓取，並用re進行解析 #coding=utf-8 import urllib.request import re ''' url :"http://money.163.com/special/pinglun/" 抓取第一頁的新聞資訊，並按照以下規格輸出。 [ {'ti

python html抓取，並用re正則表示式解析（二）

需求： url: “http://search.jd.com/Search?keyword=幼貓貓糧&enc=utf-8#filter” 給出一個jd_search(keyword)方法，keyword為你要查詢的東西，比如：貓糧、手機，替換上面url中的keyword，得到一個新網

Python庫-re(正則表示式)

re庫是python的一個標準庫，不需要自己用pip額外下載，直接呼叫即可。下面介紹以下庫中函式的作用。 1.re.compile(patter, flags=0) patter是一個正則表示式字串，例如"[0-9]+"，該函式返回一個模式物件(patter object)，str型別 2

Python 常用模組之re 正則表示式的使用

re模組用來使用正則表示式。正則表示式用來對字串進行搜尋的工作。我們最應該掌握正則表示式的查詢，更改，刪除的功能。特別是做爬蟲的時候，re模組就顯得格外重要。 1.查詢 1 import re 2 a = re.match("abc","aabccc") 3 b = re.search("abc",

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

Python中re(正則表示式)常用函式總結

1 re.match #嘗試從字串的開始匹配一個模式 re.match的函式原型為：re.match(pattern, string, flags) 第一個引數是正則表示式，這裡為"(\w+)\s"，如果匹配成功，則返回一個Match，否則返

[Python模組]正則表示式 re模組的使用及例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正

python 66：re正則表示式8（全- tcy）

目錄： 1.re-概述 https://mp.csdn.net/postedit/851568392.re-函式 https://mp.csdn.net/postedit/851569933.re-Pattern https://mp.csdn.net/postedit/85157

python的正則表示式re模板

一，什麼是re Python 的 re 模組（Regular Expression 正則表示式）提供各種正則表示式的匹配操作，使用這一內嵌於 Python 的語言工具，儘管不能滿足所有複雜的匹配情況，但足夠在絕大多數情況下能夠有效地實現對複雜字串的分析

python-re正則表示式

正則表示式

re.match

re.search

re.findall

re.sub

實戰練習

相關推薦