python爬蟲學習筆記6:正則表示式及re庫
阿新 • • 發佈:2019-01-24
正則表示式
語法
常用操作符
re庫
import re
re庫的主要功能函式
re.search()
re.search(pattern,string,flags=0)
- pattern - 正則表示式的字串或原生字串的表示
- string - 待匹配的字串
- flag - 控制標記
re.match()
re.match(pattern,string,flags=0)
re.findall()
re.findall(pattern,string,flags=0)
re.split()
re.split(pattern,string,maxsplit=0,flags=0)
- maxsplit - 最大分割數,剩餘部分作為一個元素輸出
re.finditer()
re.finditer(pattern,string,flags=0)
re.sub()
re.sub(pattern,repl,string,count=0,flags=0)
- repl - 用於替換的子字串
- count - 匹配的最大替換次數
另一種等價用法
re.compile()
regex = re.compile(pattern,flags=0)
- pattern -正則表示式的字串或原生字串的表示
- flags - 正則表示式使用時的控制標記
match物件
match物件屬性
match物件方法
re庫的貪婪匹配和最小匹配
貪婪匹配:re庫預設採用貪婪匹配
最小匹配: