python爬蟲三大解析資料方法：正則及圖片下載案例

阿新 • • 發佈：2018-11-17

基本正則用法回顧

# 提取python
key = 'javapythonc++php'
print(re.findall('python', key)[0])

# 提取hello world
key = '<html><h1>hello world</h1></html>'
print(re.findall('<h1>(hello world)</h1>', key)[0])  # 分組的方法

# 提取170
string = '我喜歡cjv170的身高'
print(re.findall('\d+', string) 
[0])

# 提取http:// 和 https://
key = 'http://www.baidu.com and https://bjv.com'
print(re.findall('https?', key))  # ?值前面一個字元出現過一次或0次

# 提取hit.
key = '[email protected]'
print(re.findall('h.*?\.', key))  # ?切換貪婪模式

# 提取sas和saas
key = 'saas and sas and saaas'
print(re.findall('sa{1,2}s', key))

# 匹配i開頭的行 re.S(單行匹配全部拉通)  re.M(多行匹配) 

string = '''fall in love with you
i love you ver much
i love she
i love her'''
print(re.findall('^i.*', string, re.M))

# 匹配全部行
string = '''<div>靜夜思
窗前明月光
低頭思故鄉
</div>'''
print(re.findall('<div>.*</div>', string, re.S))

糗事百科圖片下載案例

import requests
import re

url = 'https://www.qiushibaike.com/pic/' 


data = requests.get(url=url).text

 # re.S單行處理 把換行看成\n一起匹配
img_list = re.findall('<div class="thumb">.*?<img src="//(.*?)".*?>.*?</div>', data, re.S) 

for url in img_list:
    img_url = 'https://' + url
    img_name = url.split('/')[-1]
    img_data = requests.get(url=img_url).content  # 圖片二進位制
    with open('糗事百科圖片庫/'+img_name, 'wb') as f:
        f.write(img_data)

python爬蟲三大解析資料方法：正則及圖片下載案例

基本正則用法回顧 # 提取python key = 'javapythonc++php' print(re.findall('python', key)[0]) # 提取hello world key = '<html><h1>hello world</h

python爬蟲三大解析資料方法：bs4 及爬小說網案例

bs4 python獨有可以將html文件轉成bs物件，可以直接呼叫bs物件的屬性進行解析安裝 pip install bs4 本地html Beautiful(“open(‘路徑’)”,‘lxml’) 網路html Beautiful

python爬蟲三大解析資料方法：xpath 及爬段子網案例

下載 pip install lxml 瀏覽器外掛外掛xpath安裝，XPath Helper 瀏覽器快捷鍵control+shift+x 用於測試自己的xpath是否寫對了注意 etree建立物件時 etree.parse('本地路徑') 或 et

《零基礎入門學習Python》第057講：論一隻爬蟲的自我修養5：正則表示式

如果你在課後有勤加練習，那麼你對於字串的查詢應該是已經深惡痛絕了，你發現下載一個網頁是很容易的，但是要在網頁中查詢到你需要的內容，那就是困難的，你發現字串查詢並沒有你想象的那麼簡單，並不是說直接使用 find 方法找到匹配字串的位置就可以了。我們來舉個例子，學習了前面幾節課你應該已經嘗試過

《零基礎入門學習Python》第060講：論一隻爬蟲的自我修養8：正則表示式4

有了前面幾節課的準備，我們這一次終於可以真刀真槍的幹一場大的了，但是呢，在進行實戰之前，我們還要講講正則表示式的實用方法和擴充套件語法，然後再來實戰，大家多把持一會啊。我們先來翻一下文件：首先，我們要舉的例子是講得最多的 search() 方法，search() 方法既有模組級別的

《零基礎入門學習Python》第059講：論一隻爬蟲的自我修養7：正則表示式3

今天我們先接著上節課的內容，把 Python3 正則表示式特殊符號及用法（詳細列表）這個表格講完：上節課我們介紹了正則表示式的特殊字元中的元字元，正則表示式的特殊字元除了元字元之外呢，還有一種就是通過反斜槓加上一個普通字元組成的特殊符號。我們接下來談談它們的含義。 \序

《零基礎入門學習Python》第058講：論一隻爬蟲的自我修養6：正則表示式2

上一節課我們通過一個例子（匹配 ip 地址）讓大家初步瞭解到正則表示式的魔力，也讓大家充分了解到學習正則表示式是一個相對比較困難的事情。所以這一節課我們將繼續學習正則表示式的語法。我們依稀還記得在Python中，正則表示式是以字串的形式來描述的，正則表示式的強大之處在於特殊符號的應用，我

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

python爬蟲基礎知識（二）--正則表示式

regular expression ：描述字串排列的一套規則，通過這套規則，我們可以過濾掉不需要的資訊，從而提取出我們需要的資訊，在爬蟲中，我們如果想要從網頁中獲取我們想要的資訊就需要構造相應的正則表示式結合python的方法進行獲取。 1.原子原子是正則表示式中最基

Python實用技法第23篇：正則：文字模式的匹配和查詢

1、需求

Python實用技法第24篇：正則：查詢和替換文字

1、需求

Python實用技法第25篇：正則：以不區分大小寫的方式對文字做查詢和替換

1、需求

python爬蟲--解析網頁幾種方法之正則表達式

ima 3.5 ref string tex href quest user lin 1、正則表達式正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 re 模塊使 Python 語言擁有全部的正則表達式功能。 re.match函數 re.

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

python第一篇：正則表示式的方法簡單歸納

首先先對一些常用的匹配模式進行一下介紹及互相認識一下，當然了可能它認識我，但我絕對還不認識它。。。 ******************************************** 元字元【 . ^ $ * + ? {} [] \ | () 】 *************

python第一篇：正則表達式的方法簡單歸納

取子串正則匹配 ear 字符0 結束所有 cde 但我長度首先先對一些常用的匹配模式進行一下介紹及互相認識一下，當然了可能它認識我，但我絕對還不認識它。。。 ******************************************** 元字符【 . ^

爬蟲第一課：正則表示式符號與方法

第一課：正則表示式符號與方法１． . :匹配任意字元，換行符除外： >>> import re >>> a='xy123' >>> b=re.findall('x',a) >>> b ['x'] >

Python爬蟲學習必備知識點：正則表示式模組詳解

一、基礎語法總結 1.1、匹配單個字元 a . d D w W s S [...] [^...] 匹配單個字元（.）規則：匹配除換行之外的任意字元 In [24]: re.findall("f.o","foo is not fao") Out[24]: ['foo',

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

python爬蟲三大解析資料方法：正則 及 圖片下載案例

基本正則用法回顧

糗事百科 圖片下載案例

相關推薦

python爬蟲三大解析資料方法：正則及圖片下載案例

糗事百科圖片下載案例