python爬蟲進階（一）：靜態網頁爬取

阿新 • • 發佈：2019-02-07

一、文章說明

本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。

另外，推薦一個比較好的爬蟲教程

二、課程基礎

1、HTML和CSS

爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程：

2、xpath解析網頁

掌握了上面的知識，下面就可以開始下一步學習了。如何解析網頁？這裡我推薦BeautifulSoup和xpath，掌握了這兩種解析方法基本上就夠了，當然，還有一種必須掌握：正則表示式，有點簡單粗暴，但屢試不爽吐舌頭

3、http響應狀態

2xx：成功

3xx：調轉

4xx：客戶端錯誤

5xx：伺服器錯誤

三、爬取過程的選擇策略

一般我們爬取都有一個明確的目標，如知道要爬那些網頁、網頁上的那些內容、需要爬多少等。但是當我們要對一個網站進行無腦爬取時，應綜合考慮如下策略：

1、重要的網頁距離種子站點比較近

2、深度有限，一般17層，再往深處爬無意義

3、寬度優先有利於多爬蟲並行爬取

4、深度限制與寬度優先相結合

四、如何記錄爬取歷史，不重複抓取？

1、將URL經過MD5或SHA-1等單向雜湊後再儲存到hashset或資料庫，這樣每一個URL儲存下來就只佔16個位元組。

2、Bit-Map方法。建立一個BitSet，將每個URL經過一個雜湊函式對映到某一位，只佔1位元組。

技巧：看一個站點有多少資訊，以便於我們估計記憶體消耗

百度：site：www.mafengwo.cn

我們可以看到螞蜂窩有多少個網頁。

同樣，Google： site：www.mafengwo.cn ，更厲害的是Google能看到種子站點下一個站點的網頁資訊：

site：www.mafengwo.cn/gonglve/

3、BitMap方式記錄

pip install bitarray

pip install mmh3

>>> from bitarray import bitarray
>>> import mmh3
>>> a = 2**31
>>> a
2147483648
>>> offset = 2147483647
>>> offset = 2147483647//2**31-1
>>> bit_array = bitarray(4*1024*1024*1023)
>>> #分配4G記憶體
>>> bit_array.setall(0)#記憶體位置初始化為0
>>> b1 = mmh3.hash('www.baidu.com',42)+offset#42是固定設定，offset將偏置設為0，索引從0開始，b1返回int型別
>>> bit_array[b1] = 1#值為0或1，如果該位置沒有佔用，就按照預設0，如果佔用就是1

4、Bloom Filter 演算法

pip install pybloom

>>> import pybloom
>>> fruit = pybloom.BloomFilter(100000,0.1)#0.1 容錯率
>>> fruit.update('apple')
Traceback (most recent call last):
  File "<pyshell#44>", line 1, in <module>
    fruit.update('apple')
AttributeError: 'BloomFilter' object has no attribute 'update'
>>> fruit.add('apple')
False
>>> len(fruit)#fruit包含的元素個數
1
>>> fruit.add('pear','orange','apple')
Traceback (most recent call last):
  File "<pyshell#47>", line 1, in <module>
    fruit.add('pear','orange','apple')
TypeError: add() takes from 2 to 3 positional arguments but 4 were given
>>> fruit.union('pear','orange','apple')
Traceback (most recent call last):
  File "<pyshell#48>", line 1, in <module>
    fruit.union('pear','orange','apple')
TypeError: union() takes 2 positional arguments but 4 were given
>>> fruit.add('pear')#只能新增一個？？如果fruit內不包含返回False，反之，True
False
>>> fruit.add('orange')
False
>>> fruit.add('apple')
True
>>> len(fruit)
3
>>> 'mike' in fruit
False
>>> 'apple' in fruit
True
>>>

技巧：在某些網站robots.txt頁面下有該網站的所有網頁資訊 www.xxxxxxxxx.xml

sitemap:

五、實戰案例

僅做測試：

獲取螞蜂窩城市遊記

程式碼：

環境：win7，Python3，pycharm

import urllib.request
import http.client
import re
from pybloom import BloomFilter
import os

request_headers = {
    'host': "www.mafengwo.cn",
    'connection': "keep-alive",
    'cache-control': "no-cache",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36",
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    'accept-language': "zh-CN,en-US;q=0.8,en;q=0.6"
}

def get_html(url):
    req = urllib.request.Request(url, headers=request_headers)
    response = urllib.request.urlopen(req)
    html = response.read()
    
    return html


def download_city_notes(id):
    for i in range(1, 999):
        url = 'http://www.mafengwo.cn/yj/%s/1-0-%d.html' % (id, i)
        if url in download_bf:
            continue
        print ('open url %s' %url)
        download_bf.add(url)
        html = get_html(url)
        htmlcontent = html.decode('utf-8')

        city_notes = re.findall('href="/i/\d{7}.html', htmlcontent)

        # 如果導航頁錯誤，該頁的遊記數為0，則意味著 1-0-xxx.html 已經遍歷完，結束這個城市
        if len(city_notes) == 0:
            return
        for city_note in city_notes:
            try:
                city_url = 'http://www.mafengwo.cn%s' % (city_note[6:])
                if city_url in download_bf:
                    continue
                print ('download %s' % (city_url))
                html = get_html(city_url)
                filename = city_url[7:].replace('/', '_')
                fo = open("%s%s" % (dirname, filename), 'wb+')
                fo.write(html)
                fo.close()
                download_bf.add(city_url)
            except Exception as Arguments:
                print (Arguments)
                continue


#global

city_home_pages = []
city_ids = []
dirname = 'mafengwo_notes/'

# 建立 Bloom Filter
download_bf = BloomFilter(1024 * 1024 * 16, 0.01)


def main():
    # 檢查用於儲存網頁資料夾是否存在，不存在則建立
    if not os.path.exists(dirname):
        os.makedirs(dirname)

    try:
        # 下載目的地的首頁
        mdd_url = 'http://www.mafengwo.cn/mdd/'
        html = get_html(mdd_url)
        htmlcontent = html.decode('utf-8')       #正則表示式匹配時需要解碼

        # 利用正則表示式，找出所有的城市主頁
        city_home_pages = re.findall('/travel-scenic-spot/mafengwo/\d{5}.html', htmlcontent)
        # 通過迴圈，依次下載每個城市下的所有遊記
        for city in city_home_pages:
            city_ids.append(city[29:34])
            download_city_notes(city[29:34])
    except urllib.request.HTTPError as Arguments:
        print (Arguments)
    except http.client.BadStatusLine:
        print ('BadStatusLine')
    except Exception as Arguments:
        print (Arguments)



if __name__ == '__main__':
    main()

好的！！暫時就這麼多了

第一次將筆記寫在CSDN上，太難寫了，主要太浪費時間還要寫得好看吐舌頭

希望堅持，將整個課程寫完

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

python爬蟲進階（八）：分散式系統的高可用與高併發處理

一、應對高併發的基本思路 1、加快單機的速度，例如使用Redis，提高資料訪問頻率；增加CPU的核心數，增大記憶體； 2、增加伺服器的數量，利用叢集。二、分散式系統的設計 1、無狀態應用本身沒有狀態，狀態全部通過配置檔案或者叢集的服務端提供並與之同步。比如不同

python爬蟲進階（十）：日誌系統、守護執行緒以及驗證碼處理

一、日誌系統首先，關日誌系統的設計參考這篇部落格。 1、日誌系統基本用途（1）多執行緒情況下，debug除錯非常困難（2）錯誤出現可能有一些隨機性（3）效能分析（4）錯誤記錄與分析（5）執行狀態的實時監測 2、日誌系統設計（1）錯誤級別：Debug，I

年薪20萬Python工程師進階（7）：Python資源大全，讓你相見恨晚的Python庫 python

我是環境管理管理 Python 版本和環境的工具 pyenv – 簡單的 Python 版本管理工具。 Vex – 可以在虛擬環境中執行命令。 virtualenv – 建立獨立 Python 環境的工具。 python程式語言學習扣群515267276 virtualen

Android進階（一）： Launcher啟動過程

1.前言最近一直在看《Android進階解密》的一本書，這本書編寫邏輯、流程都非常好，而且很容易看懂，非常推薦大家去看看（沒有收廣告費，單純覺得作者寫的很好）。今天就將 Launcher 系統啟動過程總結一下（基於Android 8.0 系統）。文章

年薪20萬Python工程師進階（7）：Python資源大全，讓你相見恨晚的Python庫 python

我是環境管理管理 Python 版本和環境的工具 pyenv – 簡單的 Python 版本管理工具。 Vex – 可以在虛擬環境中執行命令。 virtualenv – 建立獨立 Python 環境的工具。 python程式語言學習扣群515267276

java進階（一）：泛型

1、泛型簡介所謂泛型，即通過引數化型別來實現在同一份程式碼上操作多種資料型別，泛型程式設計是一種程式設計正規化，他利用“引數化型別”將型別抽象化，從而實現更為靈活的複用。先簡單給個例子： //可以想象這裡的T為Integer型別，以便於理解，其實它可以是任何型別 p

年薪20萬Python工程師進階（7）：Python資源大全，讓你相見恨晚的Python庫

我是環境管理管理 Python 版本和環境的工具 pyenv – 簡單的 Python 版本管理工具。 Vex – 可以在虛擬環境中執行命令。 virtualenv – 建立獨立 Python 環境的工具。 virtualenvwrappe

Flume學習進階（一）：source、channel、sink、processor、interceptor等元件列表說明及包含的型別介紹

最近在做flume日誌收集系統相關專案，收集flume相關的知識，以便查閱、分享。轉載出處：http://www.cnblogs.com/tq03/p/5151954.html 一、flume的基本架構圖：下面這個圖基本說明了flume的作用，以及flume中的基本元件

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

屬性動畫2：ValueAnimator高階進階（一）

1. 概述前面一篇屬性動畫1：基礎知識和ValueAnimator寫完，我對屬性動畫基礎知識和ValueAnimator的簡單用法有了一些瞭解。要想把屬性動畫吃透，我感覺需要更加深入的學習。現在，就從ValueAnimator的高階進階開始，繼續攻克

爬蟲工程師進階（八）：去重與入庫

資料去重又稱重複資料刪除，是指在一個數字檔案集合中，找出重複的資料並將其刪除，只儲存唯一的資料單元。資料去重可以有效避免資源的浪費，所以資料去重至關重要。資料去重資料去重可以從兩個節點入手：一個是URL去重。即直接篩選掉重複的URL；另一個是資料庫去重。即利用資料庫的一些特性

Python 從入門到進階（一）

人生苦短，我用 Python。 Python 無疑是目前最火的語言之一，在這裡就不再誇他的 NB 之處了，本著對計算機程式設計的濃厚興趣，便開始了對 Python 的自學之路，並記錄下此學習記錄的心酸歷程。 Python2.x 目前還是主流，但歷史總是向前看的，所以就裝了 Python3.x 的版本，但是

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

mysql進階（一） mysql備份

mysql備份的目的：實現災難恢復：誤操作、硬件故障、軟件故障、自然災害、黑客攻擊註意的要點： 1、能夠容忍丟失多少數據 2、恢復數據所用的時間 3、備份需要的時間 4、是否對業務有影響 5、備份時服務器負載備份類型完全備份：備份整個

函數進階（一）

並行自己的習題文件 false 聲明方式關鍵字 true 1.命名空間本質：存放名字與值的綁定關系命名空間的分類：（1）全局命名空間（變量）->位於函數體外（2）局部命名空間（變量）->

Redis高級進階（一）

具體類 tro 類型長度刪除過期數據專用影響生活設置時間一、redis中的事務在關系型數據庫中事務是必不可少的一個核心功能，生活中也是處處可見，比如我們去銀行轉賬，首先需要將A賬戶的錢劃走，然後存到B賬戶上，這兩個步驟必須在同一事務中，要麽都執行，要麽都不執

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

python多進程（一）

live() 支持允許註意 try inux 普通服務 ldr 操作系統進程 Unix/Linux操作系統提供了一個fork()系統調用，它非常特殊。普通的函數調用，調用一次，返回一次，但是fork()調用一次，返回兩次，因為操作系統自動把當前進程（稱為父進程）復

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

python爬蟲進階（一）：靜態網頁爬取

一、文章說明

二、課程基礎

1、HTML和CSS

2、xpath解析網頁

3、http響應狀態

三、爬取過程的選擇策略

四、如何記錄爬取歷史，不重複抓取？

五、實戰案例

相關推薦