python模塊之re模塊

阿新 • • 發佈：2019-01-12

sea 進行可能重復列表 ani 哈哈開頭 dot

1. 正則

正則就是用一些具有特殊意義的符號組合到一起（正則表達式）來描述字符或者字符串的方法，在python中正則匹配時通過re模塊來實現的

技術分享圖片

2. re模塊

單個字符匹配

# \w與\W
# s2 = "df當你 的_眼  睛瞇|著/笑?sh29 sedn"
# print(re.findall("\w", s2))   # [‘d‘, ‘f‘, ‘當‘, ‘你‘, ‘的‘, ‘_‘, ‘眼‘, ‘睛‘, ‘瞇‘, ‘著‘, ‘笑‘, ‘s‘, ‘h‘, ‘2‘, ‘9‘, ‘s‘, ‘e‘, ‘d‘, ‘n‘]
# print(re.findall("\W", s2))   # [‘ ‘, ‘ ‘, ‘ ‘, ‘|‘, ‘/‘, ‘?‘, ‘ ‘] 


# \s與\S
# s3 = "df當\b  2\t瞇|著/笑\r?sh\n29 d\nn"
# print(re.findall("\s", s3))    # [‘ ‘, ‘ ‘, ‘\t‘, ‘\r‘, ‘\n‘, ‘ ‘, ‘\n‘]
# print(re.findall("\S", s3))    # [‘d‘, ‘f‘, ‘當‘, ‘\x08‘, ‘2‘, ‘瞇‘, ‘|‘, ‘著‘, ‘/‘, ‘笑‘, ‘?‘, ‘s‘, ‘h‘, ‘2‘, ‘9‘, ‘d‘, ‘n‘]

# \d與\D
# print(re.findall("\d", s3))   # [‘2‘, ‘2‘, ‘9‘] 

# print(re.findall("\D", s3))   # [‘d‘, ‘f‘, ‘當‘, ‘\x08‘, ‘ ‘, ‘ ‘, ‘\t‘, ‘瞇‘, ‘|‘, ‘著‘, ‘/‘, ‘笑‘, ‘\r‘, ‘?‘, ‘s‘, ‘h‘, ‘\n‘, ‘ ‘, ‘d‘, ‘\n‘, ‘n‘]

# \A與^
# print(re.findall("\Adf", s3))  # [‘df‘]
# print(re.findall("\Ad", s3))   # [‘d‘]
# print(re.findall("\A當", s3))  # []
# print(re.findall("^df", s3))    # [‘df‘] 

# print(re.findall("^當", s3))    # []

# s4 = "df當\b 你的眼 睛瞇|著/?sh\n29 dn笑"
# \Z  $   \z不能用
# print(re.findall("笑\Z", s4))   # [‘笑‘]
# print(re.findall("笑$", s4))    # [‘笑‘]

# s5 = "s_\t\t\nhe\t哈哈\n\n 愛好 \ru\n"
# \n與\t
# print(re.findall("\n", s5))   # [‘\n‘, ‘\n‘, ‘\n‘, ‘\n‘]
# print(re.findall("\t", s5))   # [‘\t‘, ‘\t‘, ‘\t‘]

重復匹配

# .  ?  *  +  {m,n}  .*  .*?

# . 匹配任意字符，除了換行符(加上re.DOTALL這二個參數可以匹配\n)
# s1 = "aa bbb aabb acb agb bba babbcb"
# print(re.findall("a.b", s1))    # [‘a b‘, ‘aab‘, ‘acb‘, ‘agb‘, ‘a b‘, ‘abb‘]
# print(re.findall("aa.b", s1))
"""
匹配邏輯
1. 讀取三個字符
2. 進行匹配
3. 成功則返回這三個字符，並從最後一個字符下一個字符開始匹配
4. 失敗則從第一個字符的下一個字符開始匹配
"""

# s2 = "aa babb aabb aaab aaaab bab ba"

# ？ 匹配0個或多個左邊(單個)字符表達式，滿足貪婪規則
# print(re.findall("a?b", s2))   # [‘b‘, ‘ab‘, ‘b‘, ‘ab‘, ‘b‘, ‘b‘, ‘ab‘, ‘b‘, ‘b‘, ‘b‘]

# * 匹配0個或多個左邊(單個)字符的表達式  滿足貪婪規則
# s3 = "aa babb aabb aacb aaab bba ba"
# print(re.findall("aa*b", s3))   # [‘ab‘, ‘aab‘, ‘aaab‘]
# print(re.findall("a*b", s3))   # [‘b‘, ‘ab‘, ‘b‘, ‘aab‘, ‘b‘, ‘b‘, ‘aaab‘, ‘b‘, ‘b‘, ‘b‘]

# + 匹配一個或多個左邊字符的表達式，滿足貪婪規則
# print(re.findall("a+b", s3))   # [‘ab‘, ‘aab‘, ‘aaab‘]
# print(re.findall("ab+b", s3))   # [‘abb‘, ‘abb‘]

# {m,n} 匹配m個至n個左邊表達式，滿足貪婪規則
# s4 = ‘ab aab aaab aaaaabb‘
# print(re.findall("a{2,4}b", s4))  # [‘aab‘, ‘aaab‘, ‘aaaab‘]

# .* 貪婪匹配(盡可能地多），從頭到尾
s5 = "ab aa_b a*()b"
# print(re.findall("a.*b", s5))  # [‘ab aa_b a*()b‘] 匹配以a開頭以b結尾的任意長度的字符串
# 上式匹配邏輯：從a開始，找到最後一個b,停止
# print(re.findall("a.*_", s5))  # [‘ab aa_‘]

# .*?從頭到尾匹配，非貪婪
# print(re.findall("a.*?b", s5))  # [‘ab‘, ‘aa_b‘, ‘aa*()b‘]
# 上式匹配邏輯：從a開始，找到第一個b,停止，繼續下一輪匹配

# []
# [] 括號中可以放任意一個字符
# - 在括號中表示範圍，如果你要匹配上-,那麽這個不能放在中間
# s1 = ‘a1b a3b abb a*b acb a_b‘
# print(re.findall("a[abc]b", s1))   # [‘abb‘, ‘acb‘]
# [abc]表示abc中的任意一個字符
# print(re.findall("a[1-9]b", s1))   # [‘a1b‘, ‘a3b‘]

# s2 = ‘aAb aWb aeb a*b arb a_b‘
# print(re.findall("a[A-Z]b", s2))   # [‘aAb‘, ‘aWb‘]
# print(re.findall("a[a-z]b", s2))   # [‘aeb‘, ‘arb‘]
# print(re.findall("a[A-Za-z]b", s2))  # [‘aAb‘, ‘aWb‘, ‘aeb‘, ‘arb‘]

分組

# 分組
# ()制定一個規則，將滿足規則的結果匹配出來
# 練習1:找到s4裏面的hang juan min
# s4 = "hang_1 hang_gr juan_1 min_1"
# print(re.findall("(.*?)_1", s4))  # [‘hang‘, ‘ hang_gr juan‘, ‘ min‘]
# print(re.findall("([a-z]+)_1", s4))  # [‘hang‘, ‘juan‘, ‘min‘]
# 分析：都是以字母開頭，以_1結尾，字母可以有多個

# 練習2：找到一個標簽裏的網址
# s5 = ‘<a href="http://www.baidu.com">點擊</a>‘
# print(re.findall(‘href="([a-z].*?)"‘, s5))  # [‘http://www.baidu.com‘]

# | 匹配左邊或右邊
# s6 = "hanser:149 yousa:148 mandy:160"
# print(re.findall("hanser|yousa|mandy", s6))  # [‘hanser‘, ‘yousa‘, ‘mandy‘]

# s7 = ‘Too many companies have gone bankrupt, and the next one is my company‘
# print(re.findall("compan(?:y|ies)", s7))   # [‘companies‘, ‘company‘]
# ?:表示將整體匹配出來而不只是()你裏面的內容

3. 常用方法

findall

全部找到並返回一個列表

# 找到下面標簽裏面的網址
import re
s1 = ‘<img src="https://pic3.zhimg.com/80/v2-1d1a5e4f422a77372514a57f38503f3e_hd.jpg" data-rawwidth="564" data-rawheight="699" data-size="normal" data-default-watermark-src="https://pic1.zhimg.com/v2-22b99e59d8efc7e7dec3faba8fbf2a24_b.jpg" class="origin_image zh-lightbox-thumb lazy" width="564" data-original="https://pic3.zhimg.com/v2-1d1a5e4f422a77372514a57f38503f3e_r.jpg" data-actualsrc="https://pic3.zhimg.com/v2-1d1a5e4f422a77372514a57f38503f3e_b.jpg">‘
print(re.findall(‘src="([a-z].*?)"‘, s1))

# 結果[‘https://pic3.zhimg.com/80/v2-1d1a5e4f422a77372514a57f38503f3e_hd.jpg‘, ‘https://pic1.zhimg.com/v2-22b99e59d8efc7e7dec3faba8fbf2a24_b.jpg‘, ‘https://pic3.zhimg.com/v2-1d1a5e4f422a77372514a57f38503f3e_b.jpg‘]

search

找到第一個並返回包含匹配信息的對象，該對象可以通過group()方法得到匹配的字符串，沒找到返回None

s = "Hanser is a little girl in kindergarten"
ret = re.search("[A-Z][a-z]*", "Hanser is a little girl in kindergarten")
print(ret)   # <_sre.SRE_Match object; span=(0, 6), match=‘Hanser‘>
print(ret.group())   # Hanser

match

同search，區別在於從字符串開始處進行匹配，可以用search+^代替

s = "Hanser is a little girl in kindergarten"
print(re.match("Hanser", s).group())   # Hanser

split

按照指定的分割符分割

s = "Hanser is a little girl in kindergarten"
print(re.split(" ", s))  # [‘Hanser‘, ‘is‘, ‘a‘, ‘little‘, ‘girl‘, ‘in‘, ‘kindergarten‘]

s1 = "花褪殘紅青杏小，燕子飛時，綠水人家繞。枝上柳綿吹又少，天涯何處無芳草。"
# 方法一：
lst = re.split("[，。]", s1)  # [‘花褪殘紅青杏小‘, ‘燕子飛時‘, ‘綠水人家繞‘, ‘枝上柳綿吹又少‘, ‘天涯何處無芳草‘, ‘‘]
for i in lst:
    if i:  # 過濾空字符
        print(i[0])  # 花 燕 綠 枝 天

# 方法二：
lst1 = re.findall(r"[，。]([^，。])", s1)
print(lst1)  # [‘燕‘, ‘綠‘, ‘枝‘, ‘天‘] 只能找到除去開頭的短句首字

sub

替換

s2 = "大家好，我是常山趙子龍"
print(re.sub("常山", "石家莊", s2))   # 大家好，我是石家莊趙子龍

compile

# compile 制定一個匹配規則
obj = re.compile("\d{2}")
print(obj.search("sdfs14523sdf").group())  # 14
print(obj.findall("sdfs14523sdf"))    # [‘14‘, ‘52‘]

finditer

返回一個存放匹配結果的叠代器

ret = re.finditer("\d", "sd283sef8w3o7sh")
print(ret)   # 叠代器 <callable_iterator object at 0x000001C37F3A9C50>
print(next(ret))  # match對象
print(next(ret).group())  # 8
print(next(ret).group())  # 3
print(next(ret).group())  # 8
print([i.group() for i in ret])  # 查看剩余結果

命名分組

# ret = re.search(r"<(?P<tag_name>\w+)>\w+</(?P=tag_name)>", "<h1>hello</h1>")
# 在分組中利用?P<name>給分組起名字
# 獲取的匹配結果可以直接用group("名字")拿到對應的值
# print(ret.group())   # <h1>hello</h1>
# print(ret.group("tag_name"))  # h1

# 如果不給組起名字，也可以用\序號來找到對應的組，獲取的結果可以直接用group(序號)拿到對應的值
# ret = re.search(r"<(\w+)>\w+</\1>", "<h1>hello</h1>")
# print(ret.group())  # <h1>hello</h1>
# print(ret.group(1))  # h1

# ret = re.findall(r"<(?P<tag_name>\w+)>\w+</(?P=tag_name)>", "<h1>hello</h1>")
# print(ret)   # [‘h1‘]

python模塊之re模塊

Python基礎（13）_python模塊之re模塊(正則表達式)

取反 clas 執行 true dha blog strong 邊界 .com 8、re模塊：正則表達式　　就其本質而言，正則表達式（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯

python模塊之re模塊

sea 進行可能重復列表 ani 哈哈開頭 dot 1. 正則正則就是用一些具有特殊意義的符號組合到一起（正則表達式）來描述字符或者字符串的方法，在python中正則匹配時通過re模塊來實現的 2. re模塊單個字符匹配 # \w與\W # s2

常用模塊之re模塊以及正則表達式擴展

之間 lap 開始 cal 第一個默認應該 findall 模塊名什麽是模塊？常見的場景：一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。但其實import加載的模塊分為四個通用類別：　使用pytho

New-Python-模塊之re其他

earch code eval aaa alex oot com arch 默認 1、search：與findall用法完全一致，不一樣的地方在於search匹配一次就結束 print(re.search(‘alex‘,‘alex say hello alex‘).gro

python模塊之re

結果替換 ignorecas flags hide dict 模式使用 pytho 常用正則表達式符號 ‘.‘ 默認匹配除\n之外的任意一個字符，若指定flag DOTALL,則匹配任意字符，包括換行 ‘^‘ 匹配字符開頭，若指定flags MULTI

進階第七課 Python模塊之re

num ble 空白 res 編號劃線常用 eve 換行所謂re，就是Regular Expressions。正則表達式。按照指定的規則匹配並返回字符串。下面詳細介紹匹配規則(轉載）。 1、 . 匹配任意除換行符"\n"外的字符(在DOTALL模式中

python 模塊之-re

comm 字母 none d+ 字符串 num AR aid x11 就其本質而言，正則表達式（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼，然後由用 C 編寫的匹配引

python正則表達式之re模塊使用

匹配 flag clas art 則表達式 python fin pre div python第一個正則表達式 r‘imooc‘ Pattern Match result In [2]: import re In [3]: pa = re.compile(r‘imoo

Python基礎之re模塊

== 時區三種第一個特殊功能之間指定特殊字符 asdf 什麽是模塊？　　為了編寫可維護的代碼，我們把很多的函數分組，分別放到不同的文件裏，這樣，每個文件包含的代碼就相對較少，很多編程語言都采用這種組織代碼的方式，在Python中，一個.py文件就稱為一個模塊

python基礎之模塊之os模塊

os pythonpython基礎之模塊之os模塊os模塊的作用：　　os，語義為操作系統，所以肯定就是操作系統相關的功能了，可以處理文件和目錄這些我們日常手動需要做的操作，就比如說：顯示當前目錄下所有文件/刪除某個文件/獲取文件大小……　　另外，os模塊不受平臺限制，也就是說：當我們要在linux中顯示當前

Python基礎（11）_python模塊之time模塊、rando模塊、hashlib、os模塊

路徑固定 val 登錄密碼 rand getcwd ges ble sun 一、模塊 1、什麽是模塊：一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴　　模塊的本質：模塊的本質是一個py文件 2、模塊分為三類：1）內置模塊；2）第三

Python--模塊之sys模塊、logging模塊、序列化json模塊、序列化pickle模塊

title 數字 spa etl 信息 none 發送 message 添加多個 sys模塊 sys.argv 命令行參數List，第一個元素是程序本身路徑 sys.exit(n) 退出程序，正常退出時exit(0) sys.path

python第三方模塊之paramiko模塊

con comm get res str 文件 stdin path color 目錄： paramiko模塊介紹 paramiko模塊安裝 paramiko模塊使用一、paramiko模塊介紹 paramiko是一個用於做遠程控制的模塊，使用該模塊可以對遠程服務器進

python常用模塊之logging模塊

tmp critical 結束 family logs code python for tool ---恢復內容開始--- 一、logging模塊的作用以及兩種用法 logging模塊看名字就知道是用來寫日誌的，以前我們寫日誌需要自己往文件裏寫記錄信息，使用了logg

python模塊之hashlib模塊

是否 cnblogs 容易 lib 很快長度 python模塊 hash blog hashlib Python的hashlib提供了常見的摘要算法，如MD5，SHA1等等。什麽是摘要算法呢？摘要算法又稱哈希算法、散列算法。它通過一個函數，把任意長度的數據

python模塊之subprocess模塊, struct模塊

ber recv blog tdi pre grep 3.2 hid lin subprocess import subprocess ‘‘‘ sh-3.2# ls /Users/egon/Desktop |grep txt$ mysql.txt t

Python時間模塊之Time模塊解析

可選去掉說明協調 all strong haml repr ecs 在我們平常的代碼中，經常需要和時間打交道。在Python中，與時間處理相關的模塊有：time、datetime以及calendar。學會計算時間，對程序的調優非常重要，可以在程序中狂打時間戳，來具體判

Python 學習筆記之random 模塊

class div .cn 使用學習隨機裏的 logs .com 要使用Random 模塊裏的一些隨機數方法需要先導入random 模塊。下面是幾種常用的隨機數方法： Python 學習筆記之random 模塊

Python基礎知識之xml模塊

code new list 區別 mov ted odin clas art 轉載自：http://www.cnblogs.com/alex3714/articles/5161349.html XML處理模塊： ml是實現不同語言或程序之間進行數據交換的協議，跟json

python模塊之random模塊

小數處理整數模塊 lis pri and shuffle div 　　random模塊　　隨機模塊，用於處理隨機問題。 import random # 隨機整數 print(random.randint(0, 9)) # 0到9之間隨機一個整數 print(ra

python模塊之re模塊

1. 正則

2. re模塊

單個字符匹配

重復匹配

3. 常用方法

findall

search

match

split

sub

compile

finditer

命名分組

相關推薦