python爬蟲學習筆記五：Re庫的介紹和使用

阿新 • • 發佈：2018-11-25

Re庫介紹

Re庫是Python的標準庫，主要用於字串匹配。

呼叫方式：

import re

正則表示式的表示型別

*raw string 型別（原生字串型別）：

re庫採用raw string型別表示正則表示式，表示為：r'text'

例如：r'[1-9]\d{5}'

r'\d{3}-\d{8}|\d{4}-\d{7}'

raw string是不包含轉義符的字串

*string型別，更繁瑣。要加轉義符

例如：[1-9]\\d{5}" 其中第一個\為轉義符

Re庫主要功能函式

函式	說明
re.search()	在一個字串中搜索匹配正則表示式的第一個位置，返回match物件（找到符合表示式的第一個字串後終止）
re.match()	從一個字串的開始位置起匹配正則表示式，返回match物件（從第一個字元匹配、匹配一個終止）
re.findall()	搜尋字串，以列表型別返回全部能匹配的子串（匹配到第一個後第一個所有的字串不會再次參與匹配）
re.split()	將一個字串按照正則表示式匹配結果進行分割，返回列表型別
re.finditer()	搜尋字串，返回一個匹配結果的迭代型別，每個迭代元素是match物件
re.sub()	在一個字串中替換所有匹配正則表示式的子串，返回替換後的字串

re.search(pattern,string,flags=0)

*在一個字串中搜索匹配正則表示式的第一個位置，返回match物件。

·pattern:正則表示式的字串或原生字串表示

·string:待匹配字串

·flags:正則表示式使用時的控制標記

flags:正則表示式使用時的控制標記

常用標記	說明
re.I re.IGNORECASE	忽略正則表示式的大小寫，[A-Z]能夠匹配小寫字元
re.M re.MULTILINE	正則表示式中的^操作符能夠將給定字串的每行當作匹配開始
re.S re.DOTALL	正則表示式中的.操作符能夠匹配所有字元，預設匹配除換行外的所有字元

>>> import re
>>> match=re.search(r'[1-9]\d{5}','BIT 1000812')
>>> if match:
	print(match.group(0))

100081
>>>

re.split(pattern,string,maxsplit=0,flags=0)

*將一個字串按照正則表示式匹配結果進行分割，返回列表型別

pattern:正則表示式的字串或原生字串表示

string:待匹配字串

maxsplit:最大分割數、剩餘部分作為最後一個元素輸出

flags:正則表示式使用時的控制標記

>>> import re
>>> re.split(r'[1-9]\d{5}','BIT100081  tsss1000844')
['BIT', '  tsss', '4']
>>> re.split(r'[1-9]\d{5}','BIT100081  tsss1000844',maxsplit=1)
['BIT', '  tsss1000844']
>>> re.split(r'[1-9]\d{5}','BIT100081  tsss1000844',maxsplit=2)
['BIT', '  tsss', '4']

re.finditer(pattern,string,flags=0)

*搜尋字串，返回一個匹配結果的迭代型別，每個迭代元素是match物件。

·pattern:正則表示式的字串或原生字串表示

·string:待匹配字串

·flags:正則表示式使用時的控制標記

>>> import re
>>> for m in re.finditer(r'[1-9]\d{5}','BTI100081 tsu100084'):
	if m:
		print(m.group(0))

100081
100084

re.sub(pattern,repl,string,count=0,flags=0)

*在一個字串中替換所有匹配正則表示式的子串，返回替換後的字串。

·pattern:正則表示式的字串或原生字串表示

·repl:替換匹配字串的字串

·string:待匹配字串

count:匹配的最大替換次數

·flags:正則表示式使用時的控制標記

>>> import re
>>> re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 tsu100084')
'BIT:zipcode tsu:zipcode'

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

python爬蟲學習筆記1：requests庫及robots協議

The Website is the API requests庫 requests庫的7個主要方法 requests.request 構造一個請求 requests.request(method,url,[**kwarges]) me

python爬蟲學習筆記6：正則表示式及re庫

正則表示式語法常用操作符 re庫 import re re庫的主要功能函式 re.search() re.search(pattern,string,f

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

Python 爬蟲學習筆記二： xpath 模組

Python 爬蟲學習筆記二： xpath from lxml 首先應該知道的是xpath 只是一個元素選擇器，在python 的另外一個庫lxml 中，想要使用xpath 必須首先下載lxml 庫 lxml 庫的安裝：很簡單，具體請檢視 http:

python爬蟲學習實踐(一)：requests庫和正則表示式之淘寶爬蟲實戰

使用requests庫是需要安裝的，requests庫相比urllib 庫來說更高階方便一點，同時與scrapy相比較還是不夠強大，本文主要介紹利用requests庫和正則表示式完成一項簡單的爬蟲小專案----淘寶商品爬蟲。有關於更多requests庫的使用方法請參考：官方文件第一步：我們先開啟淘寶網頁然後搜

Python學習筆記五：字符串常用操作，字典，三級菜單實例

rip .get isalnum 變量名 cde tro 分割字母 isdigit 字符串常用操作 7月19日，7月20日，7月22日，7月29日，8月29日，2月29日首字母大寫：a_str.capitalize() 統計字符串個數：a_str.count(“x”)

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置，本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念為更好

python基礎教程_學習筆記18：標準庫：一些最愛——shelve

python基礎教程_學習筆記16：標準庫：一些最愛——random

標準庫：一些最愛 random random模組包括返回隨機數的函式，可以用於模擬或者用於任何產生隨機輸出的程式。事實上，所產生的數字都是偽隨機數，它們以一個可預測的系統作為基礎，除非是為了強加密的目標，否則這些隨機數還是足夠隨機的。如果真的需要隨機性，可以使用os模組的

Python學習筆記13：標準庫之子程序（subprocess包）

ubprocess包主要功能是執行外部的命令和程式。從這個意義上來說，subprocess的功能與shell類似。 subprocess以及常用的封裝函式當我們執行python的時候，我們都是在建立並執行一個程序。在Python中，我們通過標準庫中的subprocess

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹

正則表示式的表示型別

Re庫主要功能函式

re.search(pattern,string,flags=0)

flags:正則表示式使用時的控制標記

re.split(pattern,string,maxsplit=0,flags=0)

re.finditer(pattern,string,flags=0)

re.sub(pattern,repl,string,count=0,flags=0)

相關推薦