正則表示式 & re

阿新 • • 發佈：2018-11-17

本節主要內容:

1.正則表示式

2.re模組的使用

一.正則表示式

正則表示式，又稱規則表示式。（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），

電腦科學的一個概念。正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。

正則表示式是對字串操作的一種邏輯公式.我們一般使用正則表示式對字串進行匹配和過濾.使用正則的優缺點:

優點: 靈活,功能性強,邏輯性強.

缺點:上手難.

工具:各大文字編輯器一般都有正則匹配功能.也可去 http://tool.chinaz.com/regex 進行線上測試.

正則表示式有普通字元和元字元組成. 普通字元包含大小寫字母,數字. 在匹配普通字元的時候我們直接寫就可以了.

元字元:元字元才是正則表示式的靈魂.

1.字元組

字元組用[]括起來. 在[]中出現的內容會被匹配.例如:[abc] 匹配a或b或c

如果字元組的內容過多還可以使用-,例如: [a-z] 匹配a到z之間的所有字⺟ [0-9] 匹配所有阿拉伯數字

2.簡單元字元

常用的元字元:

 . 匹配除換⾏符以外的任意字元
\w 匹配字⺟或數字或下劃線
\s 匹配任意的空⽩符
\d 匹配數字
\n 匹配⼀個換⾏符
\t 匹配⼀個製表符
\b 匹配⼀個單詞的結尾
 
^ 匹配字串的開始
$ 匹配字串的結尾
\W 匹配⾮字⺟或數字或下劃線
\D 匹配⾮數字
\S 匹配⾮空⽩符
a|b 匹配字元a或字元b
() 匹配括號內的表示式，也表示⼀個組
[...] 匹配字元組中的字元
[^...] 匹配除了字元組中字元的所有字元

3.量詞

* 重複零次或更多次
+ 重複⼀次或更多次
? 重複零次或⼀次
{n} 重複n次
{n,} 重複n次或更多次
{n,m} 重複n到m次

4.惰性匹配和貪婪匹配

在量詞中的*,+,{}都屬於貪婪匹配.就是儘可能多的匹配到結果

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤. 
*
此時匹配的是整句話

在使用.*後面如果加上?則是儘可能少的匹配.表示惰性匹配

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*?
此時匹配的是 麻花藤
str: <div>胡辣湯</div>
reg: <.*>
結果: <div>胡辣湯</div>
str: <div>胡辣湯</div>
reg: <.*?>
結果: 
 <div>
 </div>
str: <div>胡辣湯</div>
reg: <(div|/div*)?>
結果:
 <div>
 </div>

.*?x思維特殊含義,找到下一個x為止

str: abcdefgxhijklmn
reg: .*?x
結果:abcdefgx

5.分組

在正則中使用()進行分組.括號中的內容表示一個元字元.

例如:我們要匹配⼀個相對複雜的⾝份證號. ⾝份證號分成兩種. 老的⾝份證號有15位.

新的⾝份證號有18位. 並且新的⾝份證號結尾有可能是x.我們可以使用下列正則:

給出以下正則:
^[1-9]\d{13,16}[0-9x]$
^[1-9]\d{14}(\d{2}[0-9x])?$
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

6.轉義

在正則表示式中, 有很多有特殊意義的是元字元, ⽐如\n和\s等,如果要在正則中匹配正常的"\n"⽽

不是"換⾏符"就需要對"\"進⾏轉義, 變成'\\'.在python中, ⽆論是正則表示式, 還是待匹配的內容, 都

是以字串的形式出現的, 在字串中\也有特殊的含義, 本身還需要轉義. 所以如果匹配⼀次"\n", 字

符串中要寫成'\\n', 那麼正則⾥就要寫成"\\\\n",這樣就太麻煩了. 這個時候我們就⽤到了r'\n'這個概念,

此時的正則是r'\\n'就可以了.

二. re模組

re模組是python提供的一套關於處理正則表示式的模組.核心功能有四個:

1.findall 查詢所有.返回list

import re

lst = re.findall("m", "mai le fo len, mai ni mei a !")
print(lst)  # ['m', 'm', 'm']

lst = re.findall(r"\d+", "5點之前, 要給我500萬")
print(lst)  # ['5', '500']

2.search 會進行匹配.但是如果匹配到了第一個結果.就會返回這個結果.如果匹配不到search返回的則是None

ret = re.search(r'\d', '5點之前. 你要給我5000萬').group()
print(ret) # 5

3.match只能從字串的開頭進行匹配,匹配不到會報錯

ret = re.match('a', 'abc').group()
print(ret) # a

4.finditer 和 findall差不多.只不過返回的是迭代器

it = re.finditer("m", "mai le fo len, mai ni mei!")
for el in it:
    print(el.group()) # 依然需要分組

5.其他操作

import re

ret = re.split('[ab]', 'qwerafjbcd') # 先按'a'分割得到'qwer'和'fjbcd',在對'qwer'和'fjbcd'分別按'b'分割
print(ret) # ['qwer', 'fj', 'cd']

ret = re.sub(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 把字串中的數字換成__sb__
print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_

ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成'__sb__'，返回元組(替換的結果,替換了多少次)
print(ret) # ('alex_sb_taibai_sb_wusir_sb_ritian_sb_', 4)

obj = re.compile(r'\d{3}') # 將正則表示式編譯成為⼀個 正則表示式物件, 規則要匹配的是3個數字
ret = obj.search('abc123eeee') # 正則表示式物件調⽤search, 引數為待匹配的字串
print(ret.group()) # 結果: 123

# 爬蟲重點
obj = re.compile(r'(?P<id>\d+)(?P<name>e+)') # 從正則表示式匹配的內容每個組起名字
ret = obj.search('abc123eeee') # 搜尋
print(ret.group()) # 結果: 123eeee
print(ret.group("id")) # 結果: 123 # 獲取id組的內容
print(ret.group("name")) # 結果: eeee # 獲取name組的內容

6.兩個坑

注意:在re模組中和我們線上測試工具中的結果可能是不一樣的,

import re

ret = re.findall('www\.(baidu|oldboy)\.com', 'www.oldboy.com')
print(ret)  # ['oldboy'] 這是因為findall會優先把組裡的內容的匹配結果返回,如果想要匹配結果,取消許可權即可

ret = re.findall('www\.(?:baidu|oldboy)\.com', 'www.oldboy.com')
print(ret)  # ['www.oldboy.com']

split裡的坑.

import re

ret = re.split("\d+","eva3egon4yuan")
print(ret)  # 結果: ['eva', 'egon', 'yuan']

ret = re.split("(\d+)","eva3egon4yuan")
print(ret)  # 結果: ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之後所切出的結果是不同的，
#沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項，
#這個在某些需要保留匹配部分的使⽤過程是⾮常重要的。

簡易爬蟲:

爬取豆瓣top250裡的內容

from urllib.request import urlopen
import re


obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演: '
                 r'(?P<daoyan>.*?)&nbsp;&nbsp;&nbsp;.*?<span class="rating_num" property='
                 r'"v:average">(?P<fen>.*?)</span>.*?<span>(?P<ren>.*?)人評價</span>', re.S)


def getContent(url):
    content = urlopen(url).read().decode("utf-8")
    return content

def parseContent(content):
    it = obj.finditer(content) # 把頁面中所有匹配的內容進行匹配. 返回迭代器
    for el in it:
        yield {
            "name":el.group("name"),
            "daoyan":el.group("daoyan"),
            "ren":el.group("ren"),
            "fen":el.group("fen")
        }




for i in range(10):
    url = "https://movie.douban.com/top250?start=%s&filter="
    g = parseContent(getContent(url))
    f = open("movie.txt", mode="a", encoding="utf-8")
    for el in g:
        f.write(str(el)+"\n")
    f.close()

正則表示式 & re

本節主要內容: 1.正則表示式 2.re模組的使用一.正則表示式正則表示式，又稱規則表示式。（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。正

python學習-正則表示式及re模塊

我只 com 返回現在輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1，創建正則表達式對象想re.compile()傳入一個字符串值，表示正則表達式，它將返回一個Regex模式對象。創建一

python3 學習5 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。轉自：https://blog.csdn.net/qq_33720683/article/details/81023115 模式描述

正則表示式（re）

1、re.match(pattern, str, flag) 從str的第一個字母開始匹配，若不是開頭的，儘管屬於str內，則無法匹配。 2、貪婪匹配與非貪婪匹配(?) 貪婪匹配：嘗試匹配儘可能多的字元 >>> sentence = """You said "why?" and I

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

正則表示式和re模組知識點彙總

"\^"：匹配字元的開始"\$"：匹配字元的結尾"[]"：字元組"[^a]"：如果在字元組中以^開頭，就是除了a不匹配，其他的都匹配"a|b"：匹配字元a或b 注意：使用或關係的時候，要把長規則放在短規則的前面"()"分組，需要對一個整體匹配規則量詞約束的，就對整體匹配規則加一個括號字串最前面加上r 就是不

資料提取——正則表示式的 re 模組

什麼是正則表示式正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式(規則)的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。給定一個正則表示式

正則表示式(python3-re模組示例）

1.常用的正則表示式 '.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$'

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

day023 正則表示式和re模組

一.正則1.字元組 [a-zA-Z0-9]字元組中的　 [^a] 除了字元組的2.　 3. 4. 二.re模組 re.S 設定 .的換行 obj=re 1.ret=re.search(正則，content) 找到一個結果就返回　　拿

Shell正則表示式 & Grep正則表示式 & shell字串處理

摘自：https://www.cnblogs.com/hoji-real/articles/2311214.html Shell正則表示式一個正則表示式就是由普通字元（例如字元 a 到 z）以及特殊字元（稱為元字元）組成的文字模式。該模式描述在查詢文字主體時待匹配的一個或

正則表示式（re模組）

正則表示式，用來處理什麼的呢？它有什麼作用？正則表示式是用來處理字串匹配的！講正題之前我們先來看一個例子：：https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 這是京東的註冊頁面，開啟頁面我們就看到這些要求輸入個

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

單個字元：數量詞：匹配開頭、結尾：匹配分組： demo.py（正則表示式，match從開頭匹配，分組，分組別名）： # coding=utf-8 import re # 小括號()表示分組 \1表示取出第

python中的正則表示式（re模組）

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。二、正則表示式中常用的字元含義 1、普通字元和11個元字

Python爬蟲--- 1.4 正則表示式：re庫

原文連結：https://www.fkomm.cn/article/2018/7/20/19.html 想要學習爬蟲，正則表示式是一定繞不過去的一關。正則表示式是我們在篩選文字資料是經常使用的利器。簡單來說，一個正則表示式表達了符合這一規則的一系列的文字。從“萬用字元”到正則表示式玩lin

詞法分析——正則表示式（RE）

正則表示式對給定的字符集Σ=C1,C2,...,Cn\Sigma = C_1,C_2,...,C_nΣ=C1,C2,...,Cn 空串ϵ\epsilonϵ是正則表示式對於任意c∈Σc\in\Sigmac∈Σ，ccc是正則表示式如果M和N是正則表示式

024-2018-1010 正則表示式和re模組

1.今日內容大綱一. 昨日內容回顧序列化: pickle: 把物件序列化成bytes dumps() 序列化 loads() 反序列化

[轉]python中的正則表示式（re模組）

轉自:https://www.cnblogs.com/tina-python/p/5508402.html 一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼

正則表示式和re模組

1. 正則表示式匹配字串　　元字元　　　　. 除了換行　　　　\w 數字, 字母, 下劃線　　　　\d 數字　　　　[] 字元組　　　　^ 字串的開始　　　　$ 字串的結束　　　　| 或者　　　　[^xxx] 非xxxx 　　　　\s 空白符　　　　\n 換行　　　　\t

正則表示式 & re

相關推薦