Python 入門網絡爬蟲之精華版

阿新 • • 發佈：2017-07-19

網站爬蟲處理通過精華免費 proxy params 華爾街

Python 入門網絡爬蟲之精華版

轉載寧哥的小站，總結的不錯

Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲

另外，比較常用的爬蟲框架Scrapy，這裏最後也詳細介紹一下。

首先列舉一下本人總結的相關文章，這些覆蓋了入門網絡爬蟲需要的基本概念和技巧：寧哥的小站-網絡爬蟲

當我們在瀏覽器中輸入一個url後回車，後臺會發生什麽？比如說你輸入http://www.lining0806.com/，你就會看到寧哥的小站首頁。

簡單來說這段過程發生了以下四個步驟：

查找域名對應的IP地址。
向IP對應的服務器發送請求。
服務器響應請求，發回網頁內容。
瀏覽器解析網頁內容。

網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要明確要得到的內容是什麽？是HTML源碼，還是Json格式的字符串等。

1. 最基本的抓取

抓取大多數情況屬於get請求，即直接從對方服務器上獲取數據。

首先，python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：
    import requests
    response = requests.get(url)
    content = requests.get(url).content
    print "response headers:", response.headers
    print "content:", content
Urllib2：
    import urllib2
    response = urllib2.urlopen(url)
    content = urllib2.urlopen(url).read()
    print "response headers:", response.headers
    print "content:", content
Httplib2：
    import httplib2
    http = httplib2.Http()
    response_headers, content = http.request(url, ‘GET‘)
    print "response headers:", response_headers
    print "content:", content

此外，對於帶有查詢字段的url，get請求一般會將來請求的數據附在url之後，以?分割url和傳輸數據，多個參數用&連接。

data = {‘data1‘:‘XXXXX‘, ‘data2‘:‘XXXXX‘}
Requests：data為dict，json
    import requests
    response = requests.get(url=url, params=data)
Urllib2：data為string
    import urllib, urllib2    
    data = urllib.urlencode(data)
    full_url = url+‘?‘+data
    response = urllib2.urlopen(full_url)

相關參考：網易新聞排行榜抓取回顧

參考項目：網絡爬蟲之最基本的爬蟲：爬取網易新聞排行榜

2. 對於登陸情況的處理

2.1 使用表單登陸

這種情況屬於post請求，即先向服務器發送表單數據，服務器再將返回的cookie存入本地。

data = {‘data1‘:‘XXXXX‘, ‘data2‘:‘XXXXX‘}
Requests：data為dict，json
    import requests
    response = requests.post(url=url, data=data)
Urllib2：data為string
    import urllib, urllib2    
    data = urllib.urlencode(data)
    req = urllib2.Request(url=url, data=data)
    response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，服務器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests         
requests_session = requests.session() 
response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！
response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

相關參考：網絡爬蟲-驗證碼登陸

參考項目：網絡爬蟲之用戶名密碼及驗證碼登陸：爬取知乎網站

3. 對於反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP地址情況，也可解決由於“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對於“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {‘http‘:‘http://XX.XX.XX.XX:XXXX‘}
Requests：
    import requests
    response = requests.get(url=url, proxies=proxies)
Urllib2：
    import urllib2
    proxy_support = urllib2.ProxyHandler(proxies)
    opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
    urllib2.install_opener(opener) # 安裝opener，此後調用urlopen()時都會使用安裝過的opener對象
    response = urllib2.urlopen(url)

3.2 時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import time
time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

headers = {‘User-Agent‘:‘XXXXX‘} # 偽裝成瀏覽器訪問，適用於拒絕爬蟲的網站
headers = {‘Referer‘:‘XXXXX‘}
headers = {‘User-Agent‘:‘XXXXX‘, ‘Referer‘:‘XXXXX‘}
Requests：
    response = requests.get(url=url, headers=headers)
Urllib2：
    import urllib, urllib2   
    req = urllib2.Request(url=url, headers=headers)
    response = urllib2.urlopen(req)

4. 對於斷線重連

不多說。

def multi_session(session, *arg):
    retryTimes = 20
    while retryTimes>0:
        try:
            return session.post(*arg)
        except:
            print ‘.‘,
            retryTimes -= 1

或者

def multi_open(opener, *arg):
    retryTimes = 20
    while retryTimes>0:
        try:
            return opener.open(*arg)
        except:
            print ‘.‘,
            retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這裏針對華爾街見聞進行並行抓取的實驗對比：Python多進程抓取與 Java單線程和多線程抓取

相關參考：關於Python和Java的多進程多線程計算方法對比

6. 對於Ajax請求的處理

對於“加載更多”情況，使用Ajax來傳輸很多數據。

它的工作原理是：從網頁的url加載網頁的源代碼之後，會在瀏覽器裏執行JavaScript程序。這些程序會加載更多的內容，“填充”到網頁裏。這就是為什麽如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這裏，若使用Google Chrome分析”請求“對應的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現對應的GET鏈接尋找Type為text/html的，點擊，查看get參數或者復制Request URL)，循環過程。

如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的數據。
對返回的json格式數據(str)進行正則匹配。json格式數據中，需從’\uxxxx’形式的unicode_escape編碼轉換成u’\uxxxx’的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這裏列出在給定城市列表後，使用selenium來動態抓取去哪兒網的票價信息的代碼。

參考項目：網絡爬蟲之Selenium使用代理登陸：爬取去哪兒網站

8. 驗證碼識別

對於網站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

參考項目：驗證碼識別項目第一版：Captcha1

爬取有兩個需要註意的問題：

如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？
對於海量數據，如何實現分布式爬取？

分析

抓取之後就是對抓取的內容進行分析，你需要什麽內容，就從中提煉出相關的內容來。

常見的分析工具有正則表達式，BeautifulSoup，lxml等等。

存儲

分析出我們需要的內容之後，接下來就是存儲了。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數據庫等。

存儲有兩個需要註意的問題：

如何進行網頁去重？
內容以什麽形式存儲？

Scrapy

Scrapy是一個基於Twisted的開源的Python爬蟲框架，在工業中應用非常廣泛。

相關內容可以參考基於Scrapy網絡爬蟲的搭建，同時給出這篇文章介紹的微信搜索爬取的項目代碼，給大家作為學習參考。

參考項目：使用Scrapy或Requests遞歸抓取微信搜索結果

Python 入門網絡爬蟲之精華版

網站爬蟲處理通過精華免費 proxy params 華爾街 Python 入門網絡爬蟲之精華版轉載寧哥的小站，總結的不錯 Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲另外，比較常用的爬蟲框架Scrapy，這裏最後也詳細介紹一

Python 入門網絡爬蟲之精華版

抓取

1. 最基本的抓取

2. 對於登陸情況的處理

3. 對於反爬蟲機制的處理

4. 對於斷線重連

5. 多進程抓取

6. 對於Ajax請求的處理

7. 自動化測試工具Selenium

8. 驗證碼識別

分析

存儲

Scrapy

Python 入門網絡爬蟲之精華版

好好學Python，入門網路爬蟲之精華版！

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

皇冠體育二代信用盤帶手機版網絡爬蟲之scrapy框架詳解

Python網絡爬蟲之三種數據解析方式

python學習第八十五天：網絡爬蟲之數據解析方式

用Python寫網絡爬蟲（高清版）PDF

Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

python網絡爬蟲之requests模塊

Python網絡爬蟲之Scrapy框架（CrawlSpider）

網絡爬蟲之網頁排重：語義指紋

python：網絡爬蟲的學習筆記

網絡爬蟲之MongoDB數據庫的使用

python實戰——網絡爬蟲

網絡爬蟲之JSOUP

python寫網絡爬蟲的環境搭建

Python 3網絡爬蟲開發實戰.pdf（崔慶才著）

Python 入門網絡爬蟲之精華版

抓取

1. 最基本的抓取

2. 對於登陸情況的處理

3. 對於反爬蟲機制的處理

4. 對於斷線重連

5. 多進程抓取

6. 對於Ajax請求的處理

7. 自動化測試工具Selenium

8. 驗證碼識別

分析

存儲

Scrapy

相關推薦