1. 程式人生 > 其它 >正則表示式--原子--筆記

正則表示式--原子--筆記

技術標籤:爬蟲正則表示式正則表示式字串python爬蟲

視訊地址在這裡
筆記直接使用pycharm製作,需要原始檔請私聊。

# 正則表示式
#原子
import re
#普通字元作為原子

string="taoyunjiaoyu"
pat="yun"
rst=re.search(pat,string);
print(rst)
print("-------------------")
'''
輸出結果:<re.Match object; span=(3, 6), match='yun'>
'''

#非列印字元做原子
# \n 換行 \t 製表符 #三引號可以有換行符 string='''taoyunjiao yubaidu''' pat="\n" rst=re.search(pat,string) print(rst) print("-------------------") ''' 輸出結果 : <re.Match object; span=(12, 13), match='\n'> 匹配到了 換行 ''' #通用字元做原子 ''' 常見通用字元: \w 匹配任意 字母 數字 下劃線 \W 匹配任意非 字母 數字 下劃線 \d 匹配十進位制數 \D 匹配除十進位制數 \s 匹配空白字元 \S 匹配非空白字元 '''
string='''taoyunji87632398aoyubaidu''' pat="\w\d\d\d" #連續三個數不結尾的形式 rst=re.search(pat,string) print(rst) print("-------------------") ''' 輸出結果:<re.Match object; span=(7, 11), match='i876'> ''' string='''taoyunji8 7632398aoyubaidu''' pat="\w\d\s\d\d" rst=re.search(
pat,string) print(rst) print("-------------------") ''' 輸出結果:<re.Match object; span=(7, 11), match='i8 76'> ''' #原子表 string='''taoyunji87632398aoyubaidu''' pat="tao[xyz]un" #[]方括號裡的為原子表,[xyz]匹配裡面的一個即可 [^xyz]則為排除這三個 rst=re.search(pat,string) print(rst) print("-------------------") ''' 輸出結果:<re.Match object; span=(0, 6), match='taoyun'> '''