python爬蟲第五篇--正則表示式

阿新 • • 發佈：2018-11-30

Re模組正則表示式

概念

正則表示式是對字串串操作的⼀一種邏輯公式，就是⽤用事先定義好的⼀一些特定
字元、及這些特定字元的組合，組成⼀一個“規則字串串”，這個“規則字串串”⽤用
來表達對字串串的⼀一種過濾邏輯
非python獨有，re模組實現
- re.match
- re.search
- re.findall
- re.sub
- re.compile
正則表示式線上工具：http://tool.oschina.net/regex

Re常用匹配模式

模式	描述
\w	匹配字母數字及下劃線
\W	匹配非字母數字下劃線
\s	匹配任意空白字元，等價於 [\t\n\r\f]
\S	匹配任意非空字元
\d	匹配任意數字，等價於 [0-9]
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束，如果是存在換行，只匹配到換行前的結束字串
\z	匹配字串結束
\G	匹配最後匹配完成的位置
\n	匹配一個換行符
\t	匹配一個製表符
^	匹配字串的開頭
$	匹配字串的末尾
.	匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元
[…]	用來表示一組字元,單獨列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字元：`[^abc]` 匹配除了a,b,c之外的字元。
*	匹配0個或多個的表示式
+	匹配1個或多個的表示式
?	匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
{n}	精確匹配n個前面表示式
{n, m}	匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
a\|b	匹配a或b
( )	匹配括號內的表示式，也表示一個組

Re模組例項

re.match：re.match(pattern, string, flags=0)

re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none

常規匹配

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content)
print(result)
print(result.group())#返回匹配結果
print(result.span())#返回匹配結果範圍

泛匹配

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

匹配目標

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)
print(result)
print(result.group(1))#group(1)分離匹配結果，1表示匹配到的第一個括號內的資料，這裡是1234567
print(result.span())

貪婪匹配

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)#.*會盡可能多的匹配字元
print(result)
print(result.group(1))

非貪婪匹配

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)#.*?會盡可能少的匹配字元
print(result)
print(result.group(1))

匹配模式

import re
content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)#re.S匹配任意字元模式
print(result.group(1))

轉義

import re
content = 'price is $5.00'
result = re.match('price is $5.00', content)
print(result)

import re
content = 'price is $5.00'
result = re.match('price is \$5\.00', content)
print(result)

儘量使用泛匹配、使用括號得到匹配目標、儘量使用非貪婪模式、有換行符就用re.S

re.search

re.search 掃描整個字串並返回第一個成功的匹配

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result)
print(result.group(1))

為匹配方便，能用search就不用match

import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但願人長久</a>
        </li>
    </ul>
</div>'''
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
    
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
    
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))

re.findall

搜尋字串，以列表形式返回全部能匹配的子串

import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君">但願人長久</a>
        </li>
    </ul>
</div>'''
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])
    
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
print(results)
for result in results:
    print(result[1])

re.sub

替換字串中每一個匹配的子串後返回替換後的字串

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+', '', content)
print(content)

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)', r'\1 8910', content)
print(content)
#Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings

import re

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君">但願人長久</a>
        </li>
    </ul>
</div>'''
html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
print(results)
for result in results:
    print(result.strip())

re.compile

將正則字串編譯成正則表示式物件，以便於複用該匹配模式

import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile('Hello.*Demo', re.S)
result = re.match(pattern, content)
#result = re.match('Hello.*Demo', content, re.S)
print(result)

綜合例項

爬取豆瓣讀書首頁書籍資訊

import requests
import re
content = requests.get('https://book.douban.com/').text
pattern = re.compile('<li.*?title=.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">\n(.*?)\n.*?year">\n(.*?)\n.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
    url, name, author, year = result
    author = re.sub('\s', '', author)
    year = re.sub('\s', '', year)
    print(url, name, author, year)

python爬蟲第五篇--正則表示式

Re模組正則表示式概念正則表示式是對字串串操作的⼀一種邏輯公式，就是⽤用事先定義好的⼀一些特定字元、及這些特定字元的組合，組成⼀一個“規則字串串”，這個“規則字串串”⽤用來表達對字串串的⼀一種過濾邏輯非python獨有，re模組實現 re.

自學python爬蟲（三）正則表示式

一、什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元，及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非Python獨有，python中re模組實現）二、常見的匹配模式 re.match

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

python爬蟲（二）----正則表示式

正則表示式本部落格主要講正則表示式在爬蟲網頁解析中的作用需要的是python的re模組 python版本：3.x （一）正則表示式的基本知識 1 匹配字元常見匹配模式—匹配字元模式描述

linux 第 11 篇正則表示式

1.cut擷取以:分割保留第七段 grep hadoop /etc/passwd | cut -d: -f7 2.排序 du | sort -n 3.查詢不包含hadoop的 grep -v hadoop /etc/passwd 4.正則表達包含hadoop grep

Python爬蟲入門七之正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容，不過還差一步，這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢？下面就開始介紹一個十分強大的工具，正則表示式！ 1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些

python爬蟲學習第五章正則

多行匹配 href out 地址常見 apt 分別是 all arch html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,b

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

python—【爬蟲】學習_2(正則表示式篇）3.re模組函式的深入理解

1. re.complie() 作用：如果需要重複地使用某個正則表示式，那麼你可以先將該正則表示式編譯成模式物件。complie（）函式就幫助我們將正則表示式，編譯成為一個pattern物件。 2.re.search(pattern ,string) regex.search(strin

Python爬蟲教程第3節-正則表示式

正則表示式（Regular Expression)對於正則表示式，我們要搞懂公式怎麼寫、寫出來表示什麼。即弄懂它怎麼產生、又怎麼去用。what:正則表示式是操作字串的一種邏輯公式，是一種邏輯表示式，是對一類有規律字串的抽象。where:正則表示式主要用於字串匹配，即將與正則表

Coursera NG 機器學習第五週正則化 bias Vs variance Python實現

ex5.py import scipy.optimize as op import numpy as np from scipy.io import loadmat from ex5modules import * #Part 1: Loading and visuali

Python中一些簡單的正則表示式（爬蟲所需(.*?)）

這篇部落格旨在介紹使用爬蟲時一些常用的正則表示式。在之前，我一直都是一個談正則表示式色變的人。因為正則表示式實在是太多太多，想要記得除非是經常用，否則也很難完全掌握其中所有的內容。所以這些東西都是現用現查，然後要一個一個的搜尋，將自己所需要的進行查詢。所以學

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

Python核心程式設計第15章正則表示式練習答案

#15-1 識別下列字串：“bat,” “bit,” “but,” “hat,” “hit,” 或 “hut” pattern = r'[bh][aiu]t,?' #15-2 匹配用一個空格分隔的任意一對單詞，比如，名和姓 pattern = r'\b\w+ \w+\

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

圖解Python 【第五篇】：面向對象-類-初級基礎篇

value 查找補充有變區分 args exist 發生 type 由於類的內容比較多，分為類-初級基礎篇和類-進階篇類的內容總覽圖：本節內容一覽圖：今天只講類的基礎的面向對象的特性前言總結介紹：面向對象是一種編程方式，此編程方式的實

python爬蟲（4）——正則表達式（一）

做了 cati 二手房表達發展他能 query nta package 　　　　在前幾篇文章中我們使用了python的urllib模塊，做了一些訪問網頁的工作。現在介紹一個非常強大的工具——正則表達式。在講述正則的時候，我參考了《精通正則表達式（第三版） --

python爬蟲（5）——正則表達式（二）

org handle uil urlopen 意思 esp 下載 header 因此　　　　前一篇文章，我們使用re模塊來匹配了一個長的字符串其中的部分內容。下面我們接著來作匹配“[email protected] advantage 314159265358 18

python爬蟲第五篇--正則表示式

Re模組正則表示式

概念

Re常用匹配模式

Re模組例項

常規匹配

泛匹配

匹配目標

貪婪匹配

非貪婪匹配

匹配模式

轉義

綜合例項

相關推薦