解析庫之re模組

阿新 • • 發佈：2018-12-22

一：什麼是正則？

　正則就是用一些具有特殊含義的符號組合到一起（稱為正則表示式）來描述字元或者字串的方法。或者說：正則就是用來描述一類事物的規則。（在Python中）它內嵌在Python中，並通過 re 模組實現。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。

二：常用匹配模式(元字元)

# =================================匹配模式=================================
#一對一的匹配
# 'hello'.replace(old,new)
# 'hello'.find('pattern') 


#正則匹配
import re
#\w與\W
print(re.findall('\w','hello egon 123')) #['h', 'e', 'l', 'l', 'o', 'e', 'g', 'o', 'n', '1', '2', '3']
print(re.findall('\W','hello egon 123')) #[' ', ' ']

#\s與\S
print(re.findall('\s','hello  egon  123')) #[' ', ' ', ' ', ' ']
print(re.findall('\S','hello  egon  123')) #['h', 'e', 'l', 'l', 'o', 'e', 'g', 'o', 'n', '1', '2', '3'] 


#\n \t都是空,都可以被\s匹配
print(re.findall('\s','hello \n egon \t 123')) #[' ', '\n', ' ', ' ', '\t', ' ']

#\n與\t
print(re.findall(r'\n','hello egon \n123')) #['\n']
print(re.findall(r'\t','hello egon\t123')) #['\t']

#\d與\D
print(re.findall('\d','hello egon 123')) #['1', '2', '3']
print(re.findall('\D' 
,'hello egon 123')) #['h', 'e', 'l', 'l', 'o', ' ', 'e', 'g', 'o', 'n', ' ']

#\A與\Z
print(re.findall('\Ahe','hello egon 123')) #['he'],\A==>^
print(re.findall('123\Z','hello egon 123')) #['he'],\Z==>$

#^與$
print(re.findall('^h','hello egon 123')) #['h']
print(re.findall('3$','hello egon 123')) #['3']

# 重複匹配：| . | * | ? | .* | .*? | + | {n,m} |
#.
print(re.findall('a.b','a1b')) #['a1b']
print(re.findall('a.b','a1b a*b a b aaab')) #['a1b', 'a*b', 'a b', 'aab']
print(re.findall('a.b','a\nb')) #[]
print(re.findall('a.b','a\nb',re.S)) #['a\nb']
print(re.findall('a.b','a\nb',re.DOTALL)) #['a\nb']同上一條意思一樣

#*
print(re.findall('ab*','bbbbbbb')) #[]
print(re.findall('ab*','a')) #['a']
print(re.findall('ab*','abbbb')) #['abbbb']

#?
print(re.findall('ab?','a')) #['a']
print(re.findall('ab?','abbb')) #['ab']
#匹配所有包含小數在內的數字
print(re.findall('\d+\.?\d*',"asdfasdf123as1.13dfa12adsf1asdf3")) #['123', '1.13', '12', '1', '3']

#.*預設為貪婪匹配
print(re.findall('a.*b','a1b22222222b')) #['a1b22222222b']

#.*?為非貪婪匹配：推薦使用
print(re.findall('a.*?b','a1b22222222b')) #['a1b']

#+
print(re.findall('ab+','a')) #[]
print(re.findall('ab+','abbb')) #['abbb']

#{n,m}
print(re.findall('ab{2}','abbb')) #['abb']
print(re.findall('ab{2,4}','abbb')) #['abb']
print(re.findall('ab{1,}','abbb')) #'ab{1,}' ===> 'ab+'
print(re.findall('ab{0,}','abbb')) #'ab{0,}' ===> 'ab*'

#[]
print(re.findall('a[1*-]b','a1b a*b a-b')) #[]內的都為普通字元了，且如果-沒有被轉意的話，應該放到[]的開頭或結尾
print(re.findall('a[^1*-]b','a1b a*b a-b a=b')) #[]內的^代表的意思是取反，所以結果為['a=b']
print(re.findall('a[0-9]b','a1b a*b a-b a=b'))
print(re.findall('a[a-z]b','a1b a*b a-b a=b aeb'))
print(re.findall('a[a-zA-Z]b','a1b a*b a-b a=b aeb aEb'))

#\# print(re.findall('a\\c','a\c')) #對於正則來說a\\c確實可以匹配到a\c,但是在python直譯器讀取a\\c時，會發生轉義，然後交給re去執行，所以丟擲異常
print(re.findall(r'a\\c','a\c')) #r代表告訴直譯器使用rawstring，即原生字串，把我們正則內的所有符號都當普通字元處理，不要轉義
print(re.findall('a\\\\c','a\c')) #同上面的意思一樣，和上面的結果一樣都是['a\\c']

#():分組
print(re.findall('ab+','ababab123')) #['ab', 'ab', 'ab']
print(re.findall('(ab)+123','ababab123')) #['ab']，匹配到末尾的ab123中的ab
print(re.findall('(?:ab)+123','ababab123')) #findall的結果不是匹配的全部內容，而是組內的內容,?:可以讓結果為匹配的全部內容
print(re.findall('href="(.*?)"','<a href="http://www.baidu.com">點選</a>'))#['http://www.baidu.com']
print(re.findall('href="(?:.*?)"','<a href="http://www.baidu.com">點選</a>'))#['href="http://www.baidu.com"']

#|
print(re.findall('compan(?:y|ies)','Too many companies have gone bankrupt, and the next one is my company'))

# ===========================re模組提供的方法介紹===========================

import re
#1
print(re.findall('e','alex make love') )   #['e', 'e', 'e'],返回所有滿足匹配條件的結果,放在列表裡
#2
print(re.search('e','alex make love').group()) #e,只到找到第一個匹配然後返回一個包含匹配資訊的物件,該物件可以通過呼叫group()方法得到匹配的字串,如果字串沒有匹配，則返回None。

#3
print(re.match('e','alex make love'))    #None,同search,不過在字串開始處進行匹配,完全可以用search+^代替match

#4
print(re.split('[ab]','abcd'))     #['', '', 'cd']，先按'a'分割得到''和'bcd',再對''和'bcd'分別按'b'分割

#5
print('===>',re.sub('a','A','alfghex maggke rttre')) #===> Alfghex mAggke rttre，不指定n，預設替換所有
print('===>',re.sub('a','A','aaleuux makrete lotry4ve',1)) #===> Aaleuux makrete lotry4ve
print('===>',re.sub('a','A','acclex mannke lorrve',2)) #===> Acclex mAnnke lorrve

search與findall對比

import re
print(re.findall("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")) #['h1']
print(re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>").group()) #<h1>hello</h1>
print(re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>").groupdict()) #<h1>hello</h1>

print(re.search(r"<(\w+)>\w+</(\w+)>","<h1>hello</h1>").group())
print(re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>").group())




#使用|，先匹配的先生效，|左邊是匹配小數，而findall最終結果是檢視分組，所有即使匹配成功小數也不會存入結果
#而不是小數時，就去匹配(-?\d+)，匹配到的自然就是，非小數的數，在此處即整數
#
print(re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")) #找出所有整數['1', '-2', '60', '', '5', '-4', '3']

#找到所有數字:
print(re.findall('\D?(\-?\d+\.?\d*)',"1-2*(60+(-40.35/5)-(-4*3))")) # ['1','2','60','-40.35','5','-4','3']


expression='1-2*((60+2*(-3-40.0/5)*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))'

content=re.search('\(([\-\+\*\/]*\d+\.?\d*)+\)',expression).group() #(-3-40.0/5)

#為何同樣的表示式search與findall卻有不同結果:
print(re.search('\(([\+\-\*\/]*\d+\.?\d*)+\)',"1-12*(60+(-40.35/5)-(-4*3))").group()) #(-40.35/5)
print(re.findall('\(([\+\-\*\/]*\d+\.?\d*)+\)',"1-12*(60+(-40.35/5)-(-4*3))")) #['/5', '*3']

#看這個例子:(\d)+相當於(\d)(\d)(\d)(\d)...,是一系列分組
print(re.search('(\d)+','123').group()) #group的作用是將所有組拼接到一起顯示出來
print(re.findall('(\d)+','123')) #findall結果是組內的結果,且是最後一個組的結果

總結

#_*_coding:utf-8_*_
__author__ = 'Linhaifeng'
#線上除錯工具:tool.oschina.net/regex/#
import re

s='''
http://www.baidu.com
[email protected]
你好
010-3141
'''

#最常規匹配
# content='Hello 123 456 World_This is a Regex Demo'
# res=re.match('Hello\s\d\d\d\s\d{3}\s\w{10}.*Demo',content)
# print(res)
# print(res.group())
# print(res.span())

#泛匹配
# content='Hello 123 456 World_This is a Regex Demo'
# res=re.match('^Hello.*Demo',content)
# print(res.group())


#匹配目標,獲得指定資料

# content='Hello 123 456 World_This is a Regex Demo'
# res=re.match('^Hello\s(\d+)\s(\d+)\s.*Demo',content)
# print(res.group()) #取所有匹配的內容
# print(res.group(1)) #取匹配的第一個括號內的內容
# print(res.group(2)) #去陪陪的第二個括號內的內容



#貪婪匹配:.*代表匹配儘可能多的字元
# import re
# content='Hello 123 456 World_This is a Regex Demo'
#
# res=re.match('^He.*(\d+).*Demo$',content)
# print(res.group(1)) #只打印6,因為.*會盡可能多的匹配,然後後面跟至少一個數字


#非貪婪匹配:?匹配儘可能少的字元
# import re
# content='Hello 123 456 World_This is a Regex Demo'
#
# res=re.match('^He.*?(\d+).*Demo$',content)
# print(res.group(1)) #只打印6,因為.*會盡可能多的匹配,然後後面跟至少一個數字


#匹配模式:.不能匹配換行符
content='''Hello 123456 World_This
is a Regex Demo
'''
# res=re.match('He.*?(\d+).*?Demo$',content)
# print(res) #輸出None

# res=re.match('He.*?(\d+).*?Demo$',content,re.S) #re.S讓.可以匹配換行符
# print(res)
# print(res.group(1))


#轉義:\

# content='price is $5.00'
# res=re.match('price is $5.00',content)
# print(res)
#
# res=re.match('price is \$5\.00',content)
# print(res)


#總結:儘量精簡,詳細的如下
    # 儘量使用泛匹配模式.*
    # 儘量使用非貪婪模式:.*?
    # 使用括號得到匹配目標:用group(n)去取得結果
    # 有換行符就用re.S:修改模式




#re.search:會掃描整個字串,不會從頭開始,找到第一個匹配的結果就會返回

# import re
# content='Extra strings Hello 123 456 World_This is a Regex Demo Extra strings'
#
# res=re.match('Hello.*?(\d+).*?Demo',content)
# print(res) #輸出結果為None

#
# import re
# content='Extra strings Hello 123 456 World_This is a Regex Demo Extra strings'
#
# res=re.search('Hello.*?(\d+).*?Demo',content) #
# print(res.group(1)) #輸出結果為



#re.search:只要一個結果,匹配演練,
import re
content='''
<tbody>
<tr id="4766303201494371851675" class="even "><td><div class="hd"><span class="num">1</span><div class="rk "><span class="u-icn u-icn-75"></span></div></div></td><td class="rank"><div class="f-cb"><div class="tt"><a href="/song?id=476630320"><img class="rpic" src="http://p1.music.126.net/Wl7T1LBRhZFg0O26nnR2iQ==/19217264230385030.jpg?param=50y50&amp;quality=100"></a><span data-res-id="476630320" "
# res=re.search('<a\shref=.*?<b\stitle="(.*?)".*?b>',content)
# print(res.group(1))


#re.findall:找到符合條件的所有結果
# res=re.findall('<a\shref=.*?<b\stitle="(.*?)".*?b>',content)
# for i in res:
#     print(i)



#re.sub:字串替換
import re
content='Extra strings Hello 123 456 World_This is a Regex Demo Extra strings'

# content=re.sub('\d+','',content)
# print(content)


#用\1取得第一個括號的內容
#用法:將123與456換位置
# import re
# content='Extra strings Hello 123 456 World_This is a Regex Demo Extra strings'
#
# # content=re.sub('(Extra.*?)(\d+)(\s)(\d+)(.*?strings)',r'\1\4\3\2\5',content)
# content=re.sub('(\d+)(\s)(\d+)',r'\3\2\1',content)
# print(content)




# import re
# content='Extra strings Hello 123 456 World_This is a Regex Demo Extra strings'
#
# res=re.search('Extra.*?(\d+).*strings',content)
# print(res.group(1))


# import requests,re
# respone=requests.get('https://book.douban.com/').text

# print(respone)
# print('======'*1000)
# print('======'*1000)
# print('======'*1000)
# print('======'*1000)
# res=re.findall('<li.*?cover.*?href="(.*?)".*?title="(.*?)">.*?more-meta.*?author">(.*?)</span.*?year">(.*?)</span.*?publisher">(.*?)</span.*?</li>',respone,re.S)
# # res=re.findall('<li.*?cover.*?href="(.*?)".*?more-meta.*?author">(.*?)</span.*?year">(.*?)</span.*?publisher">(.*?)</span>.*?</li>',respone,re.S)
#
#
# for i in res:
#     print('%s    %s    %s   %s' %(i[0].strip(),i[1].strip(),i[2].strip(),i[3].strip()))

解析庫之re模組

一：什麼是正則？　正則就是用一些具有特殊含義的符號組合到一起（稱為正則表示式）來描述字元或者字串的方法。或者說：正則就是用來描述一類事物的規則。（在Python中）它內嵌在Python中，並通過 re 模組實現。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。

93、解析庫之re，Beautifulsoup

結果基本 strip 輸出父親 pytho 叠代器 next pan 本篇導航：介紹基本使用遍歷文檔樹搜索文檔樹總結 re模塊在之前的python進階中有講過不再做過多的闡述，本篇為BeautifulSoup庫的分析 20、collections模

解析庫之beautifulsoup模組

一介紹 Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現文件導航,查詢,修改文件的方式，Beautiful Soup會幫你節省數小時甚至數天的工作時間，你可能在尋找 Beautiful Soup3 的文件,

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

python學習之-re模組（正則表示式模組）

什麼是正則表示式正則就是用一些具有特殊含義的符號組合到一起（稱為正則表示式）來描述字元或者字串的方法。或者說：正則就是用來描述一類事物的規則。（在Python中）它內嵌在Python中，並通過 re 模組實現。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。生活中處處都是正則

python之re模組（正則表示式）常用函式

1、compile() 編譯正則表示式模式，返回一個物件的模式。（可以把那些常用的正則表示式編譯成正則表示式物件，這樣可以提高一點效率。）格式： re.compile(pattern,flags=0) pattern: 編譯時用的表示式字串。 flags 編譯標誌位，用於修改正

Python基礎之re模組

什麼是模組？　　為了編寫可維護的程式碼，我們把很多的函式分組，分別放到不同的檔案裡，這樣，每個檔案包含的程式碼就相對較少，很多程式語言都採用這種組織程式碼的方式，在Python中，一個.py檔案就稱為一個模組模組的作用？　　使用模組的好處大大提高了程式碼的可維護性其次編寫程式碼不必從零開始

scrapy解析庫之Xpath( Selectors)

#1 //與/ #2 text #3、extract與extract_first:從selector物件中解出內容 #4、屬性：xpath的屬性加字首@ #4、巢狀查詢 #5、設定預設值 #4、按照屬性查詢 #5、按照屬性模糊查詢 #6、正則表示式 #7、xpath相對路徑 #8、帶變數的xpath

python之re模組使用

正則表示式的介紹正則表示式（或 RE）是一種小型的、高度專業化的程式語言，（在Python中）它內嵌在Python中，並通過 re 模組實現。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。

Python 之 re模組正則表示式

正則表示式模式模式字串使用特殊的語法來表示一個正則表示式：字母和數字表示他們自身。一個正則表示式模式中的字母和數字匹配同樣的字串。多數字母和數字前加一個反斜槓時會擁有不同的含義。標點符號只有被轉義時才匹配自身，否則它們表示特殊的含義。

正則表示式之re模組compile()

定義： compile(pattern[,flags] ) 根據包含正則表示式的字串建立模式物件。compile(pattern, flags=0) 通過help可以看到compile方法的介紹，返回一個pattern物件，但是卻沒有對第二個引數flags進行介紹。第二個引數

python3進階之正則表示式之re模組之分組（group）、貪心匹配、編譯

　　除了簡單地判斷是否匹配之外，正則表示式還有提取子串的強大功能。用()表示的就是要提取的分組（Group）。比如：^(\d{3})-(\d{3,8})$分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345'

Python 時間庫之標準模組time

在學習Python的時間庫時，應最先學習Python標準庫中的模組：Time、Calendar、datetime、pytz、dateutil。打好基礎後，再學習第三方庫。本篇為Python時間庫中的第一篇。其他模組見：一 time 模組下面按照，從基礎概念到常

正則表示式之re模組findall()

[python] view plain copy >>> import re >>> s = "adfad asdfasdf asdfas asdfawef asd adsfas " >>> reObj1 =

python3標準庫之反解析模組——dis module

一、位元組碼 1、位元組碼是什麼。 python的原始檔是以.py結尾的，不知你是否見過或者聽說過以.pyc結尾的檔案，它儲存在__pycache__的資料夾中，這就是位元組碼。 2、位元組碼存在的作用。 python是解釋性語言，它在執行時將原始碼編譯成一組虛擬機器

python解析HTML之:PyQuery庫的介紹與使用

att 用法 hello ext dom 的人 inf 目標 title 本篇大部分轉載於https://www.jianshu.com/p/c07f7cd1b548 先放自已自己解析techweb一個網站圖片的代碼 from pyquery import PyQuery

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

《深入理解NGINX 模組開發與架構解析》之摘抄學習

1.基於Nginx框架開發程式有5個優勢: (1).Nginx將網路、磁碟及定時器等非同步事件的驅動都做了非常好的封裝，基於它開發將可以忽略這些事件處理的細節; (2).Nginx封裝了許多平臺無關的介面、容器，適用於跨平臺開發。

Python 常用模組之re 正則表示式的使用

re模組用來使用正則表示式。正則表示式用來對字串進行搜尋的工作。我們最應該掌握正則表示式的查詢，更改，刪除的功能。特別是做爬蟲的時候，re模組就顯得格外重要。 1.查詢 1 import re 2 a = re.match("abc","aabccc") 3 b = re.search("abc",

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

解析庫之re模組

一：什麼是正則？

相關推薦