day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

阿新 • • 發佈：2018-11-16

本節內容：

1、正則表示式
2、re模組的運用
3、簡單的爬蟲練習

一、正則表示式(Regular Expression)

正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點:
優點: 靈活, 功能性強, 邏輯性強.
缺點: 上⼿難. ⼀旦上⼿, 會愛上這個東⻄
⼯具: 各⼤⽂本編輯器⼀般都有正則匹配功能. 我們也可以去
http://tool.chinaz.com/regex/進⾏線上測試.

1、元字元: 元字元才是正則表示式的靈魂.

 元字元中的內容太多了, 在這⾥只介紹⼀些常⽤的.

2、字元組

字元組很簡單⽤[]括起來. 在[]中出現的內容會被匹配. 例如:[abc] 匹配a或b或c
如果字元組中的內容過多還可以使⽤- ,
例如: [a-z] 匹配a到z之間的所有字⺟ [0-9]匹配所有阿拉伯數字
思考: [a-zA-Z0-9]匹配的是什麼?

3、簡單的元字元

基本的元字元. 這個東⻄⽹上⼀搜⼀⼤堆. 但是常⽤的就那麼⼏個:

. 匹配除換⾏符以外的任意字元
\w 匹配字⺟或數字或下劃線
\s 匹配任意的空⽩符
\d 匹配數字
\n 匹配⼀個換⾏符
\t 匹配⼀個製表符
\b 匹配⼀個單詞的結尾
^ 匹配字串的開始
$ 匹配字串的結尾
\W 匹配⾮字⺟或數字或下劃線
\D 匹配⾮數字
\S 匹配⾮空⽩符
a|b 匹配字元a或字元b
() 匹配括號內的表示式，也表示⼀個組
[...] 匹配字元組中的字元
[^...] 匹配除了字元組中字元的所有字元

4、量詞

如何⼀次性匹配很多個字元呢,

我們要⽤到量詞

* 重複零次或更多次
+ 重複⼀次或更多次
? 重複零次或⼀次
{n} 重複n次
{n,} 重複n次或更多次
{n,m} 重複n到m次

5、惰性匹配和貪婪匹配

在量詞中的*, +,{} 都屬於貪婪匹配. 就是儘可能多的匹配到結果.

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*
此時匹配的是整句話

如果.*後面跟東西，就是儘可能的到後面的東西匹配

在使⽤.*後⾯加了, 則是儘可能的少匹配. 表⽰惰性匹配

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*?
此時匹配的是 麻花藤

str: <div>胡辣湯</div>
reg: <.*>
結果: <div>胡辣湯</div>

str: <div>胡辣湯</div>
reg: <.*?>
結果:
    <div>
    </div>

str: <div>胡辣湯</div>
reg: <(div|/div*)?>
結果:
 <div>
 </div>

.*?x的特殊含義找到下⼀個x為⽌.

str: abcdefgxhijklmn
reg: .*?x
結果:abcdefgx

6、正則分組

在正則中使⽤()進⾏分組.
老的⾝份證號有15位. 新的⾝份證號有18位. 並且新的⾝份證號結尾有可能是x.

^[1-9]\d{14}(\d{2}[0-9x])?$
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

7、轉義

在正則表示式中, 有很多有特殊意義的是元字元,
⽐如\n和\s等,如果要在正則中匹配正常的"\n"⽽不是"換⾏符"就需要對"\"進⾏轉義, 變成'\\'.
在python中, ⽆論是正則表示式, 還是待匹配的內容, 都是以字串的形式出現的,
在字串中\也有特殊的含義, 本身還需要轉義. 所以如果匹配⼀次"\n", 字串中要寫成'\\n', 那麼正則⾥就要寫成"\\\\n",這樣就太麻煩了.

這個時候我們就⽤到了r’\n’這個概念, 此時的正則是r’\n’就可以了.

二、re模組

1、search

search 會進⾏匹配. 但是如果匹配到了第⼀個結果. 就會返回這個結果. 如果匹配不上search返回的則是None

fe: 找到第一個就返回，找不到就返回None

search 查詢，找到就返回，找不到就None
res = re.search("e", "i have a dream.") print(res.group()).

2、match

只能從字串的開頭進⾏匹配

fe:

# match 從頭匹配，如果匹配到了，就返回

res = re.match("\w+", "alex is a oldboy") print(res.group()) # alex

3、findall

查詢所有. 返回list

fe:

lst = re.findall("\w+", "alex is a oldboy") print(lst) # ['alex', 'is', 'a', 'oldboy'] 找到所有

4、 finditer

和findall差不多. 只不過這時返回的是迭代器

fe:

it = re.finditer("\w+", "i have a dream") print(it) # 迭代器 <callable_iterator object at 0x000002C7B07A7DD8> for el in it: print(el.group()) # 依然需要分組

5、分組

（）優先順序
（？：xxx）去掉優先順序，匹配全部

（）這個分組是優先順序

lst = re.findall(r"www\.(baidu|oldboy)\.com","www.baidu.com") # 優先括號裡面的，匹配 print(lst) # ['baidu']

##### (？:)  去掉優先順序
lst = re.findall(r"www\.(?:baidu|oldboy)\.com", "www.baidu.com") # 去掉優先順序 print(lst) # ['www.baidu.com']

6、其他操作

ret = re.split('[ab]', 'qwerafjbcd') # 先按'a'分割得到'qwer'和'fjbcd',在對'qwer'和'fjbcd'分別按'b'分割 print(ret) # ['qwer', 'fj', 'cd'] # 替換 ret = re.sub(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 把字串中的數字換成__sb__ print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_ # 替換， 返回的結果，帶有次數 ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成'__sb__'，返回元組(替換的結果,替換了多少次) print(ret) # ('alex_sb_taibai_sb_wusir_sb_ritian_sb_', 4) obj = re.compile(r'\d{3}') # 將正則表示式編譯成為⼀個 正則表示式物件, 規則要匹配的是3個數字 ret = obj.search('abc123eeee') # 正則表示式物件調⽤search, 引數為待匹配的字串 print(ret.group()) # 結果: 123

8、爬蟲重點

obj = re.compile(r'(?P<id>\d+)(?P<name>e+)') # 從正則表示式匹配的內容每個組起名字 ret = obj.search('abc123eeee') # 搜尋 print(ret.group()) # 結果: 123eeee print(ret.group("id")) # 結果: 123 # 獲取id組的內容 print(ret.group("name")) # 結果: eeee # 獲取name組的內容

9、兩個坑，分組優先順序，和split的切割

坑1：注意: 在re模組中和我們線上測試⼯具中的結果可能是不⼀樣的.

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com') print(ret) # ['oldboy'] 這是因為findall會優先把匹配結果組⾥內容返回,如果想要匹配結果,取消許可權即可 ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com') print(ret) # ['www.oldboy.com']

坑2：split⾥也有⼀個坑

ret=re.split("\d+","eva3egon4yuan") print(ret) #結果 ： ['eva', 'egon', 'yuan'] ret=re.split("(\d+)","eva3egon4yuan") print(ret) #結果 ： ['eva', '3', 'egon', '4', 'yuan'] #在匹配部分加上（）之後所切出的結果是不同的， #沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項， #這個在某些需要保留匹配部分的使⽤過程是⾮常重要的。

lst = re.split("[ab]", "alex is a good man and have big bande") print(lst) # 跟平時切割的效果一樣 lst = re.split("([ab])", "alex is a good man and have big bande") # 會保留你切割位置的東西 print(lst) # ['', 'a', 'lex is ', 'a', ' good m', 'a', 'n ', 'a', 'nd h', 'a', 've ', 'b', 'ig ', 'b', '', 'a', 'nde']

三、簡單爬蟲練習

（）這種優先順序的問題有時候會幫我們完成很多功能.

fe1: 來看⼀個比較複雜的例⼦,

內含幹掉數字簽名證書的方法：

import re
from urllib.request import urlopen
import ssl # ⼲掉數字簽名證書 ssl._create_default_https_context = ssl._create_unverified_context def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = re.findall( '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*? <span class="title">(?P<title>.*?)</span>' '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span> (?P<comment_num>.*?)評價</span>', s, re.S) return ret def main(num): url = 'https://movie.douban.com/top250?start=%s&filter=' % num response_html = getPage(url) ret = parsePage(response_html) print(ret) count = 0 for i in range(10): # 10⻚ main(count) count += 25

fe2: 簡單的爬蟲

from urllib import request

import re

url = "https://www.dytt8.net/html/gndy/dyzz/20181114/57791.html" # 拿到爬的連結 content = request.urlopen(url).read().decode("gbk") # 讀取連結的json # print(content) obj = re.compile(r'<div id="Zoom">.*?◎譯　　名(?P<yiming>.*?)<br />◎片　　名(?P<pianming>.*?)<br />◎年　　代.*?(?P<nianfen>.*?)<br />' r'.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<url>.*?)">', re.S) # re.S去掉，.的換行 res = obj.search(content) print(res.group("yiming")) print(res.group("pianming")) print(res.group("nianfen")) print(res.group("url"))

fe3：多個分頁資訊的爬蟲

from urllib.request import urlopen
import re

obj = re.compile(r'<div class="item">.*?<spanclass="title">(?P<name>.*?)</span>.*?導演: (?P<daoyan>.*?) .*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>.*?<span>(?P<ren>.*?)人評價</span>', re.S) def getContent(url): content = urlopen(url).read().decode("utf-8") return content def parseContent(content): it = obj.finditer(content) # 把頁面中所有匹配的內容進行匹配. 返回迭代器 for el in it: yield { "name":el.group("name"), "daoyan":el.group("daoyan"), "ren":el.group("ren"), "fen":el.group("fen") } for i in range(10): url = "https://movie.douban.com/top250?start=%s&filter=" % i*25 g = parseContent(getContent(url)) f = open("movie.txt", mode="a", encoding="utf-8") for el in g: f.write(str(el)+"\n") f.close()

總結：

正則表示式和re模組就說這麼多. 如果要把正則所有的內容全部講清楚講明⽩, ⾄少要⼀周以上的時間. 對於我們⽇常使⽤⽽⾔. 上述知識點已經夠⽤了. 如果碰到⼀些極端情況建議想辦法分部處理. 先對字串進⾏拆分. 然後再考慮⽤正則.

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

資料提取——正則表示式的 re 模組

什麼是正則表示式正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式(規則)的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。給定一個正則表示式

正則表示式(python3-re模組示例）

1.常用的正則表示式 '.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$'

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

python正則表示式與re模組

python中的re模組常用函式/方法 0.正則表示式物件　　（re.compile(pattern, flags=0)）將正則表示式編譯成正則表示式物件，該物件可呼叫正則表示式物件方法如:re.match(),re.search(),re.findall等。 prog = re.c

Python3正則表示式(二)re模組

在Python3正則表示式(一)基本語法規則已經記錄了正則表示式的基本規則，接下來將寫一下在python當中如何利用正則表示式去匹配字串，即re模組中功能函式的使用。使用時要先進行匯入re模組：import re 一、re模組中常用的函式 1.c

正則表示式之re模組compile()

定義： compile(pattern[,flags] ) 根據包含正則表示式的字串建立模式物件。compile(pattern, flags=0) 通過help可以看到compile方法的介紹，返回一個pattern物件，但是卻沒有對第二個引數flags進行介紹。第二個引數

python3進階之正則表示式之re模組之分組（group）、貪心匹配、編譯

　　除了簡單地判斷是否匹配之外，正則表示式還有提取子串的強大功能。用()表示的就是要提取的分組（Group）。比如：^(\d{3})-(\d{3,8})$分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345'

正則表示式之re模組findall()

[python] view plain copy >>> import re >>> s = "adfad asdfasdf asdfas asdfawef asd adsfas " >>> reObj1 =

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

單個字元：數量詞：匹配開頭、結尾：匹配分組： demo.py（正則表示式，match從開頭匹配，分組，分組別名）： # coding=utf-8 import re # 小括號()表示分組 \1表示取出第

day023 正則表示式和re模組

一.正則1.字元組 [a-zA-Z0-9]字元組中的　 [^a] 除了字元組的2.　 3. 4. 二.re模組 re.S 設定 .的換行 obj=re 1.ret=re.search(正則，content) 找到一個結果就返回　　拿

python----使用re正則表示式刷選資料，去重，列表，取特定行資料（適用於web的html回包資料提取）

python—-使用re正則表示式刷選資料，去重，列表，取特定行資料（適用於web的html回包資料提取）環境配置：對目標伺服器的日誌檔案進行刷選特定資料（192.168.4.27） /usr/

Python中正則表示式對單個字元，多個字元，匹配邊界等使用

Regular Expression，正則表示式，又稱正規表示式、正規表示法、正則表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），是電腦科學的一個概

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

正則表示式的一些知識，留作後用

. 匹配任意字元，包括空字元（星號）表示前一個字元出現0次到任意次 .* 表示匹配任意長度的字串，可以是空字串 ? 表示前一個字元（或者說子表示式）出現0次到1次如有這麼幾個檔案a.xls a.xlsx a.xlsm a.xlsmx a.xls.? 匹配a.xls a.xlsx a.xls

正則表示式中的模式，函式，及使用規則

一、正則表示式轉義正則中的特殊符號： . * ? $ [] {} () | \ 正則表示式匹配特殊字元如果需要加 \ 表達轉義，比如： pattern

正則表示式真的很騷，可惜你不會寫！！！

本文旨在用最通俗的語言講述最枯燥的基本知識文章提綱：元字元重複限定符分組轉義條件或區間正則表示式在幾乎所有語言中都可以使用，無論是前端的JavaScript、還是後端的Java、c#。他們都提供相應的介面/函式支援正則表示式。

如何利用selenium+python獲取click()方法後請求返回的結果包含： javascript 陣列操作正則表示式匹配返回陣列，js兩個陣列取差集，再去重 by qiweb 2018

技術交流q and v信：908701702 ，熊貓燒香 qiweb2018 python程式碼思路【開啟網頁--定位元素--點選請求--獲取請求後伺服器返回的資訊】： # coding=utf-8 from selenium import webdriver from

正則表示式真的很騷，可惜你不會寫

本文旨在用最通俗的語言講述最枯燥的基本知識文章提綱：元字元重複限定符分組轉義條件或區間正則表示式在幾乎所有語言中都可以使用，無論是前端的JavaScript、還是後端的Java、c#。他們

JavaScript：正則表示式：基礎語法，

一、正則表示式基礎語法（Regular Expression） 1、正則表示式的建立方式：物件new RegExp(正則表示式) 或者 /正則表示式/ 虛擬碼 var reg = new RegExp(正則表示式)； var reg = /正則表示式/; 2

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容：

一、正則表示式(Regular Expression)

1、元字元: 元字元才是正則表示式的靈魂.

2、字元組

3、簡單的元字元

4、量詞

我們要⽤到量詞

5、惰性匹配和貪婪匹配

在量詞中的*, +,{} 都屬於貪婪匹配. 就是儘可能多的匹配到結果.

在使⽤.*後⾯加了, 則是儘可能的少匹配. 表⽰惰性匹配

.*?x的特殊含義 找到下⼀個x為⽌.

6、正則分組

7、轉義

這個時候我們就⽤到了r’\n’這個概念, 此時的正則是r’\n’就可以了.

二、re模組

1、search

fe: 找到第一個就返回，找不到就返回None

2、match

fe:

3、findall

fe:

4、 finditer

fe:

5、分組

（）這個分組是優先順序

6、其他操作

8、爬蟲重點

9、兩個坑，分組優先順序，和split的切割

坑1：注意: 在re模組中和我們線上測試⼯具中的結果可能是不⼀樣的.

坑2：split⾥也有⼀個坑

三、簡單爬蟲練習

fe1: 來看⼀個比較複雜的例⼦,

內含幹掉數字簽名證書的方法：

fe2: 簡單的爬蟲

fe3：多個分頁資訊的爬蟲

總結：

相關推薦

.*?x的特殊含義找到下⼀個x為⽌.