正則表示式 & re
本節主要內容:
1.正則表示式
2.re模組的使用
一.正則表示式
正則表示式,又稱規則表示式。(英語:Regular Expression,在程式碼中常簡寫為regex、regexp或RE),
電腦科學的一個概念。正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。
正則表示式是對字串操作的一種邏輯公式.我們一般使用正則表示式對字串進行匹配和過濾.使用正則的優缺點:
優點: 靈活,功能性強,邏輯性強.
缺點:上手難.
工具:各大文字編輯器一般都有正則匹配功能.也可去 http://tool.chinaz.com/regex 進行線上測試.
正則表示式有普通字元和元字元組成. 普通字元包含大小寫字母,數字. 在匹配普通字元的時候我們直接寫就可以了.
元字元:元字元才是正則表示式的靈魂.
1.字元組
字元組用[]括起來. 在[]中出現的內容會被匹配.例如:[abc] 匹配a或b或c
如果字元組的內容過多還可以使用-,例如: [a-z] 匹配a到z之間的所有字⺟ [0-9] 匹配所有阿拉伯數字
2.簡單元字元
常用的元字元:
. 匹配除換⾏符以外的任意字元 \w 匹配字⺟或數字或下劃線 \s 匹配任意的空⽩符 \d 匹配數字 \n 匹配⼀個換⾏符 \t 匹配⼀個製表符 \b 匹配⼀個單詞的結尾^ 匹配字串的開始 $ 匹配字串的結尾 \W 匹配⾮字⺟或數字或下劃線 \D 匹配⾮數字 \S 匹配⾮空⽩符 a|b 匹配字元a或字元b () 匹配括號內的表示式,也表示⼀個組 [...] 匹配字元組中的字元 [^...] 匹配除了字元組中字元的所有字元
3.量詞
* 重複零次或更多次 + 重複⼀次或更多次 ? 重複零次或⼀次 {n} 重複n次 {n,} 重複n次或更多次 {n,m} 重複n到m次
4.惰性匹配和貪婪匹配
在量詞中的*,+,{}都屬於貪婪匹配.就是儘可能多的匹配到結果
str: 麻花藤昨天讓英雄聯盟關服了 reg: 麻花藤.* 此時匹配的是整句話
在使用.*後面如果加上?則是儘可能少的匹配.表示惰性匹配
str: 麻花藤昨天讓英雄聯盟關服了 reg: 麻花藤.*? 此時匹配的是 麻花藤 str: <div>胡辣湯</div> reg: <.*> 結果: <div>胡辣湯</div> str: <div>胡辣湯</div> reg: <.*?> 結果: <div> </div> str: <div>胡辣湯</div> reg: <(div|/div*)?> 結果: <div> </div>
.*?x思維特殊含義,找到下一個x為止
str: abcdefgxhijklmn reg: .*?x 結果:abcdefgx
5.分組
在正則中使用()進行分組.括號中的內容表示一個元字元.
例如:我們要匹配⼀個相對複雜的⾝份證號. ⾝份證號分 成兩種. 老的⾝份證號有15位.
新的⾝份證號有18位. 並且新的⾝份證號結尾有可能是x.我們可以使用下列正則:
給出以下正則: ^[1-9]\d{13,16}[0-9x]$ ^[1-9]\d{14}(\d{2}[0-9x])?$ ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$
6.轉義
在正則表示式中, 有很多有特殊意義的是元字元, ⽐如\n和\s等,如果要在正則中匹 配正常的"\n"⽽
不是"換⾏符"就需要對"\"進⾏轉義, 變成'\\'.在python中, ⽆論是正則表示式, 還 是待匹配的內容, 都
是以字串的形式出現的, 在字串中\也有特殊的含義, 本身還需要轉 義. 所以如果匹配⼀次"\n", 字
符串中要寫成'\\n', 那麼正則⾥就要寫成"\\\\n",這樣就太麻煩了. 這個時候我們就⽤到了r'\n'這個概念,
此時的正則是r'\\n'就可以了.
二. re模組
re模組是python提供的一套關於處理正則表示式的模組.核心功能有四個:
1.findall 查詢所有.返回list
import re lst = re.findall("m", "mai le fo len, mai ni mei a !") print(lst) # ['m', 'm', 'm'] lst = re.findall(r"\d+", "5點之前, 要給我500萬") print(lst) # ['5', '500']
2.search 會進行匹配.但是如果匹配到了第一個結果.就會返回這個結果.如果匹配不到search返回的則是None
ret = re.search(r'\d', '5點之前. 你要給我5000萬').group() print(ret) # 5
3.match只能從字串的開頭進行匹配,匹配不到會報錯
ret = re.match('a', 'abc').group() print(ret) # a
4.finditer 和 findall差不多.只不過返回的是迭代器
it = re.finditer("m", "mai le fo len, mai ni mei!") for el in it: print(el.group()) # 依然需要分組
5.其他操作
import re
ret = re.split('[ab]', 'qwerafjbcd') # 先按'a'分割得到'qwer'和'fjbcd',在對'qwer'和'fjbcd'分別按'b'分割
print(ret) # ['qwer', 'fj', 'cd']
ret = re.sub(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 把字串中的數字換成__sb__
print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_
ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成'__sb__',返回元組(替換的結果,替換了多少次)
print(ret) # ('alex_sb_taibai_sb_wusir_sb_ritian_sb_', 4)
obj = re.compile(r'\d{3}') # 將正則表示式編譯成為⼀個 正則表示式物件, 規則要匹配的是3個數字
ret = obj.search('abc123eeee') # 正則表示式物件調⽤search, 引數為待匹配的字串
print(ret.group()) # 結果: 123
# 爬蟲重點
obj = re.compile(r'(?P<id>\d+)(?P<name>e+)') # 從正則表示式匹配的內容每個組起名字
ret = obj.search('abc123eeee') # 搜尋
print(ret.group()) # 結果: 123eeee
print(ret.group("id")) # 結果: 123 # 獲取id組的內容
print(ret.group("name")) # 結果: eeee # 獲取name組的內容
6.兩個坑
注意:在re模組中和我們線上測試工具中的結果可能是不一樣的,
import re ret = re.findall('www\.(baidu|oldboy)\.com', 'www.oldboy.com') print(ret) # ['oldboy'] 這是因為findall會優先把組裡的內容的匹配結果返回,如果想要匹配結果,取消許可權即可 ret = re.findall('www\.(?:baidu|oldboy)\.com', 'www.oldboy.com') print(ret) # ['www.oldboy.com']
split裡的坑.
import re ret = re.split("\d+","eva3egon4yuan") print(ret) # 結果: ['eva', 'egon', 'yuan'] ret = re.split("(\d+)","eva3egon4yuan") print(ret) # 結果: ['eva', '3', 'egon', '4', 'yuan'] #在匹配部分加上()之後所切出的結果是不同的, #沒有()的沒有保留所匹配的項,但是有()的卻能夠保留了匹配的項, #這個在某些需要保留匹配部分的使⽤過程是⾮常重要的。
簡易爬蟲:
爬取豆瓣top250裡的內容
from urllib.request import urlopen import re obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演: ' r'(?P<daoyan>.*?) .*?<span class="rating_num" property=' r'"v:average">(?P<fen>.*?)</span>.*?<span>(?P<ren>.*?)人評價</span>', re.S) def getContent(url): content = urlopen(url).read().decode("utf-8") return content def parseContent(content): it = obj.finditer(content) # 把頁面中所有匹配的內容進行匹配. 返回迭代器 for el in it: yield { "name":el.group("name"), "daoyan":el.group("daoyan"), "ren":el.group("ren"), "fen":el.group("fen") } for i in range(10): url = "https://movie.douban.com/top250?start=%s&filter=" g = parseContent(getContent(url)) f = open("movie.txt", mode="a", encoding="utf-8") for el in g: f.write(str(el)+"\n") f.close()