python爬蟲總結

阿新 • • 發佈：2018-05-10

use 禁止訪問不同安裝docker 初學者 http sel 類型破解

[TOC]

由於某些原因最近終於可以從工作的瑣事中抽出身來，有時間把之前的一些爬蟲知識進行了一個簡單的梳理，也從中體會到階段性地對過往知識進行梳理是真的很有必要。

技術分享圖片

常用第三方庫

對於爬蟲初學者，建議在了解爬蟲原理以後，在不使用任何爬蟲框架的情況下，使用這些常用的第三方庫自己實現一個簡單的爬蟲，這樣會加深對爬蟲的理解。

urllib和requests都是python的HTTP庫，包括urllib2模塊以巨大的復雜性代價獲取綜合性的功能。相比於urllib2,Requests模塊更能簡約的支持完整的簡單用例。關於urllib和requests的優缺點和區別，大家可以去網上查一下。

BeautifulSoup和lxml都是python頁面解析的庫。BeautifulSoup 是基於 DOM 的，會載入整個文檔，解析整個DOM樹，因此時間和內存開銷都會大很多。而lxml只會進行局部遍歷，使用xpath能夠很快定位標簽。bs4 是用 python 寫的，lxml 是 c 語言實現的，也決定了lxml比bs4要快。

該博客有比較全面的關於python爬蟲常用第三方庫的匯總，可做參考。
https://blog.csdn.net/woshisunchi/article/details/60877817

爬蟲框架

python常用的爬蟲框架就是scrapy和pyspider兩個。
關於框架的使用方法及詳細介紹，可參考官方文檔。

動態頁面渲染

1. url請求分析

（1）認真分析頁面結構，查看js響應的動作;
（2）借助瀏覽器分析js點擊動作所發出的請求url;
（3）將此異步請求的url作為scrapy的start_url或者yield reques再次進行抓取。

2. selenium

Selenium是一個Web的自動化測試工具，最初是為網站自動化測試而開發的，類型像我們玩遊戲用的按鍵精靈，可以按指定的命令自動化操作，不同是Selenium可以直接運行在瀏覽器上，它支持所有主流的瀏覽器(包括PhantomJS這些無界面的瀏覽器)。

Selenium可以根據我們的指令，讓瀏覽器自動加載頁面，獲取需要的頁面，甚至頁面截屏，或者判斷網站上某些動作是否發生。

Selenium自己不帶瀏覽器，不支持瀏覽器的功能，它需要與第三方瀏覽器結合在一起才能使用。

3. phantomjs

使用selenium調用瀏覽器進行抓取頁面時，由於要執行打開瀏覽器並渲染頁面的操作，當進行大規模數據抓取時效率較低，無法滿足需求。這時我們可以選擇使用phantomjs。

PhantomJS是一個基於Webkit的"無界面"(headless)瀏覽器，它會把網站加載到內存並執行頁面上的JavaScript，因為不會展示圖形界面，所以運行起來比完整的瀏覽器更高效。

如果我們把Selenium和PhantomJS結合在一起，就可以運行一個非常強大的網絡爬蟲了，這個爬蟲可以處理JavaScript、Cookie、headers，以及任何我們真實用戶需要做的事情。

4. splash

Splash是一個Javascript渲染服務。它是一個實現了HTTP API的輕量級瀏覽器，Splash是用Python實現的，同時使用Twisted和QT。Twisted（QT）用來讓服務具有異步處理能力，以發揮webkit的並發能力。

python連接splash的庫叫做scrapy-splash，scrapy-splash使用的是Splash HTTP API，所以需要一個splash instance，一般采用docker運行splash，所以需要安裝docker。

5. spynner

spynner是一個QtWebKit的客戶端，它可以模擬瀏覽器，完成加載頁面、引發事件、填寫表單等操作。

爬蟲防屏蔽策略

1. 修改User-Agent

User-Agent是一種最常見的偽裝瀏覽器的手段。

User-Agent是指包含瀏覽器信息、操作系統信息等的一個字符串，也稱之為一種特殊的網絡協議。服務器通過它判斷當前訪問對象是瀏覽器、郵件客戶端還是網絡爬蟲。在request.headers裏可以查看user-agent，關於怎麽分析數據包、查看其User-Agent等信息，這個在前面的文章裏提到過。

具體方法可以把User-Agent的值改為瀏覽器的方式，甚至可以設置一個User-Agent池（list，數組，字典都可以），存放多個“瀏覽器”，每次爬取的時候隨機取一個來設置request的User-Agent，這樣User-Agent會一直在變化，防止被墻。

2. 禁止cookies

cookie其實是儲存在用戶終端的一些被加密的數據，有些網站通過cookies來識別用戶身份，如果某個訪問總是高頻率地發請求，很可能會被網站註意到，被嫌疑為爬蟲，這時網站就可以通過cookie找到這個訪問的用戶而拒絕其訪問。

通過禁止cookie，這是客戶端主動阻止服務器寫入。禁止cookie可以防止可能使用cookies識別爬蟲的網站來ban掉我們。

在scrapy爬蟲中可以設置COOKIES_ENABLES= FALSE，即不啟用cookies middleware，不向web server發送cookies。

3. 設置請求時間間隔

大規模集中訪問對服務器的影響較大，爬蟲可以短時間增大服務器負載。這裏需要註意的是：設定下載等待時間的範圍控制，等待時間過長，不能滿足短時間大規模抓取的要求，等待時間過短則很有可能被拒絕訪問。

設置合理的請求時間間隔，既保證爬蟲的抓取效率，又不對對方服務器造成較大影響。

4. 代理IP池

其實微博識別的是IP，不是賬號。也就是說，當需要連續抓取很多數據的時候，模擬登錄沒有意義。只要是同一個IP，不管怎麽換賬號也沒有用，主要的是換IP。

web server應對爬蟲的策略之一就是直接將IP或者整個IP段都封掉禁止訪問，當IP被禁封後，轉換到其他IP繼續訪問即可。方法：代理IP、本地IP數據庫（使用IP池）。

5. 使用Selenium

使用Selenium來模擬人工點擊訪問網站，是種很有效的防止被ban的方式。但是Selenium效率較低，不適合大規模數據抓取。

6. 破解驗證碼

驗證碼是現在最常見的防止爬蟲的手段。有能力的小夥伴可以自己寫算法破解驗證碼，不過一般我們可以花點錢使用第三方打碼平臺的接口，輕松實現驗證碼的破解。

結語

以上內容就是關於python爬蟲的一點梳理，具體到某個技術點需要自己再查詳細資料。希望對於學習爬蟲的同學有一點點幫助。

python爬蟲總結

python爬蟲總結

常用第三方庫

爬蟲框架

動態頁面渲染

1. url請求分析

2. selenium

3. phantomjs

4. splash

5. spynner

爬蟲防屏蔽策略

1. 修改User-Agent

2. 禁止cookies

3. 設置請求時間間隔

4. 代理IP池

5. 使用Selenium

6. 破解驗證碼

結語

最全Python爬蟲總結(轉載)

python爬蟲總結

python 爬蟲總結

python爬蟲總結: 網頁內容需要分類爬取

python 爬蟲總結(一)

[轉]用python爬蟲抓站的一些技巧總結 zz

python爬蟲知識總結

python爬蟲知識點總結（七）PyQuery詳解

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

爬蟲工程師熬夜寫了這篇文章，關於Python爬蟲的一些方法總結！

Python爬蟲學習筆記總結(一)

十幾年來總結的最經典的專案，用來作為python爬蟲實踐教學！

使用Python一年多了，總結八個好用的Python爬蟲技巧

Python爬蟲--2017python師資培訓（完）總結

總結八個好用的Python爬蟲技巧

python爬蟲-基礎用法總結

Python爬蟲：一些常用的爬蟲技巧總結

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

python爬蟲之下載檔案的方式總結以及程式例項

總結最近學習python爬蟲遇到的問題（selenium+Chrome，urllib，requests）

python爬蟲總結

常用第三方庫

爬蟲框架

動態頁面渲染

1. url請求分析

2. selenium

3. phantomjs

4. splash

5. spynner

爬蟲防屏蔽策略

1. 修改User-Agent

2. 禁止cookies

3. 設置請求時間間隔

4. 代理IP池

5. 使用Selenium

6. 破解驗證碼

結語

相關推薦