Python爬蟲——正則表示式必背基礎知識

阿新 • • 發佈：2018-12-09

Python網路爬蟲的正則表示式的總結

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

re 模組使 Python 語言擁有全部的正則表示式功能。即在Python中匯入re模組：import re

compile 函式根據一個模式字串和可選的標誌引數生成一個正則表示式物件。該物件擁有一系列方法用於正則表示式匹配和替換。

re.match函式

re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配不成功的話，match()就返回none。

re.match(pattern, string, flags=0)

pattern	匹配的正則表示式
string	要匹配的字串。
flags	標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。參見：正則表示式修飾符 - 可選標誌

result=re.match('www', 'www.runoob.com')
result1=re.match('www.run', 'www.runoob.com').span()
print(result,result1)

輸入：<_sre.SRE_Match object; span=(0, 3), match='www'> (0, 7)

re.search方法

re.search 掃描整個字串並返回第一個成功的匹配

re.search(pattern, string, flags=0)

pattern	匹配的正則表示式
string	要匹配的字串。
flags	標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。

Python 的 re 模組提供了re.sub用於替換字串中的匹配項。

re.sub(pattern, repl, string, count=0, flags=0)

pattern : 正則中的模式字串。
repl : 替換的字串，也可為一個函式。
string : 要被查詢替換的原始字串。
count : 模式匹配後替換的最大次數，預設 0 表示替換所有的匹配

re.compile 函式

compile 函式用於編譯正則表示式，生成一個正則表示式（ Pattern ）物件，供 match() 和 search() 這兩個函式使用。

result3=re.compile(pattern1,re.I).findall(string)

pattern : 一個字串形式的正則表示式

string: 可選，表示匹配模式，比如忽略大小寫，多行模式等，具體引數為：

re.I 忽略大小寫

re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境

re.M 多行模式

re.S 即為 . 並且包括換行符在內的任意字元（. 不包括換行符）

re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字元屬性資料庫

re.X 為了增加可讀性，忽略空格和 # 後面的註釋

re.finditer（）函式

和 findall 類似，在字串中找到正則表示式所匹配的所有子串，並把它們作為一個迭代器返回。

it = re.finditer(r"\d+","12a32bc43jf3")

for match in it:

print (match.group() )

          12
          32
        43
          3

re.split（）函式

split 方法按照能夠匹配的子串將字串分割後返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

pattern	匹配的正則表示式
string	要匹配的字串。
maxsplit	分隔次數，maxsplit=1 分隔一次，預設為 0，不限制次數。
flags	標誌位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。參見：正則表示式修飾符 - 可選標誌

正則表示式修飾符 - 可選標誌

正則表示式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。多個標誌可以通過按位 OR(|) 它們來指定。如 re.I | re.M 被設定成 I 和 M 標誌：

修飾符	描述
re.I	使匹配對大小寫不敏感
re.L	做本地化識別（locale-aware）匹配
re.M	多行匹配，影響 ^ 和 $
re.S	使 . 匹配包括換行在內的所有字元
re.U	根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B.
re.X	該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解。

正則表示式模式

模式字串使用特殊的語法來表示一個正則表示式：

字母和數字表示他們自身。一個正則表示式模式中的字母和數字匹配同樣的字串。

多數字母和數字前加一個反斜槓時會擁有不同的含義。

標點符號只有被轉義時才匹配自身，否則它們表示特殊的含義。

反斜槓本身需要使用反斜槓轉義。

由於正則表示式通常都包含反斜槓，所以你最好使用原始字串來表示它們。模式元素(如 r'\t'，等價於 '\\t')匹配相應的特殊字元。

下表列出了正則表示式模式語法中的特殊元素。如果你使用模式的同時提供了可選的標誌引數，某些模式元素的含義會改變。

模式	描述
^	匹配字串的開頭
$	匹配字串的末尾。
.	匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。
[...]	用來表示一組字元,單獨列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。
re*	匹配0個或多個的表示式。
re+	匹配1個或多個的表示式。
re?	匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
re{ n}	精確匹配 n 個前面表示式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的兩個 o。
re{ n,}	匹配 n 個前面表示式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等價於 "o+"。"o{0,}" 則等價於 "o*"。
re{ n, m}	匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
a\| b	匹配a或b
(re)	匹配括號內的表示式，也表示一個組
(?imx)	正則表示式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。
(?-imx)	正則表示式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re)	類似 (...), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#...)	註釋.
(?= re)	前向肯定界定符。如果所含正則表示式，以 ... 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表示式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊。
(?! re)	前向否定界定符。與肯定界定符相反；當所含表示式不能在字串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯。
\w	匹配字母數字及下劃線
\W	匹配非字母數字及下劃線
\s	匹配任意空白字元，等價於 [\t\n\r\f].
\S	匹配任意非空字元
\d	匹配任意數字，等價於 [0-9].
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束，如果是存在換行，只匹配到換行前的結束字串。
\z	匹配字串結束
\G	匹配最後匹配完成的位置。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一個換行符。匹配一個製表符。等
\1...\9	匹配第n個分組的內容。
\10	匹配第n個分組的內容，如果它經匹配。否則指的是八進位制字元碼的表示式。

Python爬蟲——正則表示式必背基礎知識

Python網路爬蟲的正則表示式的總結正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 re 模組使 Python 語言擁有全部的正則表示式功能。即在Python中匯入re模組：import re compile 函式根據一個模式字串和可選的標誌引數

Python爬蟲--正則表示式

什麼是正則表示式？正則表示式，又稱規則表示式。（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。 Python交流群：942913325 概念正則表示式是對字

2-Python爬蟲-正則表示式/XML/XPath/CSS

頁面解析和資料提取結構資料：先有的結構，在談資料 JSON檔案 JSON Path 轉換成Python型別進行操作（json類） XML檔案轉換成python型別（xmltodict） X

python 爬蟲正則表示式的詳細使用

提取網頁內容四大基本方法之 1.正則表示式 re模組表示式說明 [abc] abc中的一個 [a-z] a-z中的一個 [0-9] 0-9中的一個 [af0-9] a-f,0-9中的一個 [ab][cd][12] 三個中分

Python爬蟲-正則表達式基礎

AR 替換 class find 字符串存在正則表達式基礎 TE hello import re #常規匹配 content = ‘Hello 1234567 World_This is a Regex Demo‘ #result = re.match(‘^Hello

python進階（爬蟲正則表示式）

一、正則表示式的基本知識： 1、正則表示式是一種高度專業化的程式語言，並不是只在python語言中存在，而python需要插入 re 模組才能使用正則表示式。 2、正則表示式只能處理字串，用於模糊匹配。 3、正則表示式的區間是閉區間。二、正則表示式組成： &nb

python之正則表示式以及網路爬蟲

正則表示式 (Regular Expression) 又稱 RegEx, 是用來匹配字元的一種工具. 在一大串字元中尋找你需要的內容. 它常被用在很多方面, 比如網頁爬蟲, 文稿整理, 資料篩選等等. 最簡單的一個例子, 比如我需要爬取網頁中每一頁的標題. 而網頁中的標題常常是這種形式. <ti

python之正則表示式（基礎篇）

前言在向網頁進行了提交請求之類的之後，我們可以得到了網頁的返回內容，裡面自然而然會有我們想要的資料，但是html元素文字這麼多，我們不可能一一去找我們需要的資料，這時就需要用到正則表示式了，正則表示式是學爬蟲必須學的內容，而且不止python可以用，jav

python學習-正則表示式及re模塊

我只 com 返回現在輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1，創建正則表達式對象想re.compile()傳入一個字符串值，表示正則表達式，它將返回一個Regex模式對象。創建一

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

Python中正則表示式常用函式sub,search,findall,split等使用

1.原生字串r python中字串前面加上 r 表示原生字串,不會轉義。與大多數程式語言相同，正則表示式裡使用"\"作為轉義字元，這就可能造成反斜槓困擾。假如你需要匹配文字中的字元"\"，那麼使用程式語言表示的正則表示式裡將需要4個反斜槓"\\"：前兩個和後兩個分別用於在程式語言裡轉義成反斜

Python中正則表示式對單個字元，多個字元，匹配邊界等使用

Regular Expression，正則表示式，又稱正規表示式、正規表示法、正則表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），是電腦科學的一個概

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

java網頁爬蟲正則表示式

package cn.itcast.regextest.demo; import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOEx

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

python RE正則表示式基本知識

1． Python正則式的基本用法 1.1基本規則 1.2重複 1.2.1最小匹配與精確匹配 1.3前向界定與後向界定 1.4組的基本知識 2． re模組的基本函式 2.1使用compile加速 2.2 match和sear

Python：正則表示式的元字元

#!/usr/bin/env python # coding:UTF-8 """ @version: python3.x @author:曹新健 @contact: [email protected] @software: PyCharm @file: 2.正則表示式的元字元.py @

python 歷險記(六）— python 對正則表示式的使用（上篇）

目錄引言什麼是正則表示式？正則表示式有什麼用？正則表示式的語法及使用例項正則表示式語法有哪些？這些正則到底該怎麼用？小結參考文件系列文章列表引言剛接觸正則表示式，我也曾被它們天書似的符號組合給嚇住，但經過一段時間的深入

2.1-Python爬蟲-正則/XML/XPath/CSS選擇器-案例演示

Python爬蟲-正則/XML/XPath/CSS選擇器正則表示式案例v23,re的基本使用流程 ''' python中正則模組是re 使用大致步驟： 1. compile函式講正則表示式的字串便以為一個Pattern物件 2. 通過Pattern物件的一些列方法對文字進行匹配，匹配結果是一個Mat

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

Python爬蟲——正則表示式必背基礎知識

Python網路爬蟲的正則表示式的總結

re.match函式

re.search方法

Python 的 re 模組提供了re.sub用於替換字串中的匹配項。

re.compile 函式

re.finditer（） 函式

re.split（） 函式

正則表示式修飾符 - 可選標誌

正則表示式模式

相關推薦

re.finditer（）函式

re.split（）函式