day18 正則和re模塊
阿新 • • 發佈:2017-11-13
copy log 查找 在一起 一個 使用 換行 pre 而已
# 正則
# 正則表達式 ---- 通用的 ,處理 字符串
# 正則是一種處理文字的規則
# 給我們提供一些規則,讓我們從雜亂無章的文字中提取有效信息
#模塊
# 它只是我們使用python去操作一些問題的工具而已,和要操作的這個東西本身是兩件事情
# re模塊 -- python使用正則
# 正則規則
# []在正則裏代表字符組 只約束一個字符
# 比如[123456789] 沒有順序
# 只約束裏邊其中一個數字
#[字符組]:表示在一個字符的位置可以出現的所有情況中的集合就是一個字符組
#表示數字的字符組[0123456789]
# 可以簡寫[0-9] 但是簡寫模式必須從小到大
# 表示字母的字符組
# [a-z]表示所有小寫 [A-Z]表示大寫
#可以把數字字母拼在一起
# [0-9 ,a-z]
# .匹配除換行符以為的任意字符
# \w匹配字母或數字或下劃線 只能匹配一個字母
# \s匹配任何空白符 space
# \d匹配數字 digit
# \n匹配一個換行符 next
# \t匹配一個制表符 table
# 表示匹配任意字符[\w\W][\s\S][\d\D]
#正則匹配:字符量詞 非貪婪標誌
# 字符: 字符 ,字符組,元字符,表示一個字符位置上可以出現的內容
# r‘\\n--->r‘\n‘# 在在線工具中能執行 express
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
import re ret = re.findall(‘a‘, ‘eva egon yuan‘) # 返回所有滿足匹配條件的結果,放在列表裏 print(ret) #結果 : [‘a‘, ‘a‘] ret = re.search(‘a‘, ‘eva egon yuan‘).group() print(ret) #結果 : ‘a‘ # 函數會在字符串內查找模式匹配,只到找到第一個匹配然後返回一個包含匹配信息的對象,該對象可以 # 通過調用group()方法得到匹配的字符串,如果字符串沒有匹配,則返回None。 ret = re.match(‘a‘, ‘abc‘).group() # 同search,不過盡在字符串開始處進行匹配 print(ret) #結果 : ‘a‘ ret = re.split(‘[ab]‘, ‘abcd‘) # 先按‘a‘分割得到‘‘和‘bcd‘,在對‘‘和‘bcd‘分別按‘b‘分割 print(ret) # [‘‘, ‘‘, ‘cd‘] ret = re.sub(‘\d‘, ‘H‘, ‘eva3egon4yuan4‘, 1)#將數字替換成‘H‘,參數1表示只替換1個 print(ret) #evaHegon4yuan4 ret = re.subn(‘\d‘, ‘H‘, ‘eva3egon4yuan4‘)#將數字替換成‘H‘,返回元組(替換的結果,替換了多少次) print(ret) obj = re.compile(‘\d{3}‘) #將正則表達式編譯成為一個 正則表達式對象,規則要匹配的是3個數字 ret = obj.search(‘abc123eeee‘) #正則表達式對象調用search,參數為待匹配的字符串 print(ret.group()) #結果 : 123 import re ret = re.finditer(‘\d‘, ‘ds3sy4784a‘) #finditer返回一個存放匹配結果的叠代器 print(ret) # <callable_iterator object at 0x10195f940> print(next(ret).group()) #查看第一個結果 print(next(ret).group()) #查看第二個結果
import re ret = re.findall(‘www.(baidu|oldboy).com‘, ‘www.oldboy.com‘) print(ret) # [‘oldboy‘] 這是因為findall會優先把匹配結果組裏內容返回,如果想要匹配結果,取消權限即可 ret = re.findall(‘www.(?:baidu|oldboy).com‘, ‘www.oldboy.com‘) print(ret) # [‘www.oldboy.com‘]
2 split的優先級查詢
ret=re.split("\d+","eva3egon4yuan") print(ret) #結果 : [‘eva‘, ‘egon‘, ‘yuan‘] ret=re.split("(\d+)","eva3egon4yuan") print(ret) #結果 : [‘eva‘, ‘3‘, ‘egon‘, ‘4‘, ‘yuan‘] #在匹配部分加上()之後所切出的結果是不同的, #沒有()的沒有保留所匹配的項,但是有()的卻能夠保留了匹配的項, #這個在某些需要保留匹配部分的使用過程是非常重要的。
day18 正則和re模塊