從零快速搭建自己的爬蟲系統

阿新 • • 發佈：2019-01-18

近期由於工作原因，需要一些資料來輔助業務決策，又無法通過外部合作獲取，所以使用到了爬蟲抓取相關的資料後，進行分析統計。在這個過程中，也看到很多同學爬蟲相關的文章，對基礎知識和所用到的技術分析得很到位，只是缺乏快速的實戰系統搭建指導。

本文將簡單歸納網頁爬蟲所需要的基礎知識，著重於實現一套完整可用的小型網頁爬取、分析系統，方便大家在有需要時，能夠快速搭建系統，以用到實踐中去。

關於網頁爬蟲的定義和用途，想必做技術的都有所瞭解，這裡就不再贅述。目前，大家使用爬蟲的目的除搜尋引擎屬於無差別爬取外，其他多用於垂直領域或特定網站內容的爬取，本文以特定網站內容爬取作為切入點，當然，也可以應用於垂直領域。

一套合格的網頁爬取、分析系統，大致分為：網頁抓取、網頁分析與連結發現、任務去重與排程、資料預處理與儲存、防反爬蟲策略、進度展示等幾個重要方面。下邊逐一做簡單歸納介紹。

一、基礎知識

（1）網頁爬取

網頁讀取，即讀取給定網頁的完整內容，包含非同步載入的內容，也就是完整地呈現到瀏覽器視窗的內容。

隨著智慧手機的普及，網頁普遍分為 PC 端和移動裝置端，由於不同端的網速、流量、裝置速度、螢幕大小等原因，移動裝置端多采用非同步載入的方式來優化使用者體驗，timeline 型別的無縫翻頁就是最佳的例子。這導致常用的 python requests, python urlib, wget, curl 等獲取到的網頁內容不完整，只有網頁的骨架而無內容，內容需要等待 JS 非同步載入。

這種問題的解決，我們一般使用帶 JS 執行引擎的瀏覽器驅動來執行網頁內的非同步載入 JS，解決非同步載入問題。常見的解決方案是 selenium 自動化瀏覽器測試元件配合 chromedriver 或 firfoxdriver 這些有介面瀏覽器來使用，如果是 linux 伺服器命令列下，則可配合 phantomjs 這款無介面瀏覽器。

python selenium 安裝：pip install selenium

這裡附上簡單的應用示例程式碼：

from selenium import webdriver

browser = webdriver.Chrome() # 使用 ChromeDriver，需要安裝

browser.get("http://www.baidu.com")

browser.find\_element\_by\_id("kw").send\_keys("selenium")

browser.find\_element\_by\_id("su").click() 

dir( browser ) # 檢視所有屬性和方法

print browser. 
page\_source # 網頁原始碼

browser.quit()

（2）網頁分析與連結發現

網頁分析，即將爬取到的網頁內容進行分析，提取需要的內容。**連結發現**，即提取該網頁中需要進一步爬取的 URI 地址，或者利用網頁內資訊構建 URI 地址。

網頁分析所針對的內容，大致分為：結構化內容（如 HTML 和 JSON）、半結構化內容（如一條含 JSON 的 JS 語句），非結構化內容（如純 txt）。（嚴格意義上說，結構化內容為固定的類似資料庫二維表一樣的內容，這裡僅針對網頁內容做適當的分類調整）

針對 HTML ，推薦使用 **pyquery** 進行分析。pyquery 的使用非常簡單，用於爬蟲時也無需用到高階特性，常用方法如下例所示：

from pyquery import PyQuery as pq 

web = pq( "http://www.qq.com" )

print web("title").text() # 列印標題

print web("span#guess").text() # 列印 <span id="guess"> WWWQQCOM </span> 標籤區域的文字

print web("span.undis").text() # 列印 <span class="undis"> 騰訊網 </span> 標籤區域的文字

print web('a.qqlogo').attr('href') # 列印 <a href="www.qq.com" class="qqlogo"> 騰訊網 </a> 的連線內容

針對 JSON，可使用 python 原生的 **json** 模組進行分析。

針對半結構化的內容，則需要特定的分析，一般格式固定，如新增定長的字首和字尾，但此處無法通用，針對性強，比如含有 JSON 內容，只能固定暴力地將其提取出來再分析。

（3）任務去重與排程

主要是防止網頁的重複抓取，比如 A 中包含了 B 的地址，B 中又包含了返回 A 的地址，如果不做去重，則容易造成爬蟲在 A 和 B 間死迴圈的問題。但同時也要注意去重的時間視窗，無限期的去重將導致網頁內容無法重新爬取被更新。排程是從系統特性的角度出發，網頁爬取的主要耗時是在網路互動，等待一個網址進行 DNS 解析、請求、返回資料、非同步載入完成等，需要幾秒甚至更長的時間。小批量任務情況下，簡單地使用多執行緒（thread）、多程序（subprocess）都可以解決問題，python 2.7，也可以使用 twitter 開源的 tornado 框架內的 coroutine 模組做協程，python 3.4 本身也提供了非同步 async 關鍵字。

（4）資料儲存與預處理、防反爬蟲策略、進度展示

資料預處理，即篩掉無用的內容，並格式化有用資料，降低儲存的壓力和資料大小，也方便後期分析處理。一般網頁抓取時，需要的是展現在使用者面前的文字和圖片資訊，而網頁內的 css 樣式表、js 程式碼等則不那麼關心，這時，同樣推薦使用 pyquery 進行資料提取，簡直方便好用（不過 pyquery 存在一些小 bug，標籤解析在特定情況下易被 '>' 打斷）。防反爬蟲則可以搜尋下"防爬蟲""反爬蟲"等關鍵字，看下實現原理，如果目標網站有，進行鍼對性破解即可，一般採用隨機 User-Agent 和降頻等策略都可以繞過，掛代理換 IP 就會麻煩一些，不過大多數瀏覽器驅動也都支援。

（5）資料展示

這是額外的說明，爬取到資料後，進行資料統計分析之後，是要用來輔助決策的，要展示給老闆或產品看的，如何直觀地將成果展示出來呢？這時推薦使用 JS 的 Highcharts 元件進行資料展示。github 上有 Highcharts 的 python 封裝，但使用起來比較麻煩，學習還需要耗費不少時間，這裡封裝了幾個常用圖表形式的簡易 python 介面，如果需要其他型別的圖，按照 highcharts 的文件進行和已有程式碼稍加擴充套件即可擴充，簡單易用。（程式碼整理上傳後貼連結）

二、常見爬蟲實現

基礎知識介紹完後，我們來搭建實際的系統。不管是自己動手，還是使用做好的框架或者產品，都需要知道自己的目的是什麼，要達到什麼樣的目的，如果想加深知識學習，那無疑自己動手做一套是最合適的，如果是需要快速完成工作，最好是使用現成的框架或產品。

（1）自己動手

如果想自己開發一個的話，作者也是支援的，簡單開發將基礎元件聯動起來，也可以完成任務，雖然坑比較多，尤其是異常環節處理以及編碼問題的解決。但話說回來，經驗不就是從踩過的坑中學習的嗎？如果想在這方面有所作為，自己寫或仿寫都是必不可少的學習途徑。

由於自己開發的起點層次有很多，最底層的可以從自己建 TCP 連結解析 http 協議開始，也可以從利用已有 http 開發庫開始（求別說最底層應該從寫作業系統或協議棧開始。。。）。

常見的使用 python 開發爬蟲的**套路**：

**subrpocess/thread 做多程序任務分發 requests/selenium 網頁抓取 pyquery 網頁分析加連結生成 db 或 shelve 做結果儲存自定義資料統計分析 matlab/highcharts 做報表圖。**

其中，網頁獲取可以用 urllib 來替代，pyquery 也可以用 beautifulsoup 或正則來替代，但這兩者都不推薦，用起來比 requests pyquery 麻煩。

db 常用的就是 sqlite，shelve 可以用來儲存 python 物件，如果你的資料分析也是 python 指令碼實現，shelve 無疑可以降低不少解析時間。

matlab 做報表圖是畫報表後生成圖片格式。這裡也建議使用 highcharts 來做報表，只是 highcharts 生成的結果是展示成網頁形式，動態渲染。

在常見的**報表知會**場景中大致分為兩種：1、發定期郵件看走勢；2、網頁展示。如果需要定期郵件，公司內部有提供從 server 傳送郵件/rtx 的工具，可以找運維要一下。但是該工具限制無法直接傳送圖片，通過將郵件做成 html 格式，將圖片轉為 base64 內嵌進 html 即可。

那麼如何將 **highcharts 生成的報表匯出圖片**呢？新版本的 highcharts 有提供介面，但並不是很好用，因為你的報表也不僅僅是一個圖，多個圖還要手工拼裝，根據郵件客戶端的不同，有可能展示的樣式也會有變化。這裡我們仍然可以使用 phantomjs 來完成，原理就是使用瀏覽器對渲染後的頁面進行整頁截圖。實現的原理也比較簡單，使用 js 程式碼，控制瀏覽器直接以圖片形式渲染網頁，之後儲存。由於該需求反響強烈，phantomjs 官網也提供瞭解決方案：http://phantomjs.org/screen-capture.html，即下載 rasterize.js，按照下面命令來執行截圖。

這個命令的含義是使用 phantomjs 執行 rasterize.js 渲染 my_html.html 並將結果儲存到 tmp.png 中。

$ phantomjs rasterize.js ./my\_html.html ./tmp.png

生成截圖的過程中有**可能遇到的坑**，在這裡也提一下，希望後來的同學不會再因為這個問題浪費時間：首先，控制 phantomjs 進行截圖的時候，有可能截圖不完整，這是因為網頁有一個動畫繪製的過程(如 highcharts 圖表頁)，可以修改 rasterize.js 內設定的預設 200ms 的超時渲染時間到 5000ms 甚至更長，保證網頁載入完後再截圖。另外，在公司環境下，爬蟲多部署在 server 端的 linux 系統下，伺服器系統很少安裝字型檔案，如果截圖出的內容中文字缺失或跟本地預覽樣式不符，一般就是這個問題了。

（2） scrapy

如果到百度或者谷歌上搜 python 爬蟲關鍵字的話，你肯定會看到有不少人推薦使用 scrapy。scrapy 是不錯的爬蟲庫，或者說是爬蟲框架，著重實現了上述的網頁爬取、任務去重排程功能，也提供網頁內容分析，不過是 xpath 的形式。其他方面，如結果儲存和進度展示需要開發者自己完成，也沒有提供簡便的頻控防反爬蟲策略的功能。

（3） pyspider

pyspider，是近幾年國人開發的一款爬蟲產品，之所以提升到產品級別，是因為該框架提供了相當完善的爬蟲全流程的功能。從網頁爬取，到內容分析，再到頻控，定時重新整理，資料儲存，分散式部署等，做得可圈可點，且相當易用，也是本文重點推薦的系統。

pyspider 簡單的二次開發介面，同時自帶了一個頁面開發偵錯程式。在實際的應用中，配合 phantomjs 進行頁面渲染獲取動態載入資料非常方便。

這裡的我們先看使用方法，體驗一下 pyspider 的強大和易用，再來介紹該框架的架構和實現方法。

安裝：

pip install pyspider

執行：

pyspider

如果已安裝 phantomjs，則可使用 $ pyspider all 來配合使用。

訪問、開發：

Create project 後，直接點選 project ，即可進入**頁面式的開發除錯環境**，非常方便。

我們以 douyu 的一個簡單例子來介紹下**二次開發程式碼的含義**

之後點選右上角 save 後，返回首頁，修改 project status 和 rate/burst 後，點選 run 即可執行：

關於 rate/burst，這裡是**採用令牌桶做的頻控**，這裡設定 0.1/5 的含義是：rate = 0.1 每秒發起 0.1 個請求，即 10s 一個請求，耗費一個令牌；burst = 5，最多併發發起 5 個請求，即耗費 5 個令牌，那麼也意味著併發後，第 6 個請求，要等待 50s。

另外，pyspider 安裝完即可用，預設採用 sqlite 作為資料庫，單機部署，使用本機的 phantomjs 和 xmlrpc。單機效能不足以支撐時，也可以支援各模組的分散式部署。如果需要分散式部署，就需要了解下 pyspider 的架構情況，和基本的實現原理。

下面來簡要地看一下pyspider 的架構：

從圖中可以看出，pyspider 主要的構成模組為排程器 scheduler，網頁爬取 fetcher，資料預處理與連結發現 processor，output 到資料庫，還有 web 頁面的進度監控、運營。

結合上述談到的爬蟲幾大塊，淺顯地看一下 pyspider 的實現：

webui部分，使用 flask 模組實現。

fetcher部分使用 tornado 的 gen 模組內的 coroutine 做協程，當 fetch_type = 'js' 的時候則連結 phantomjs 進行資料的爬取，否則直接非同步爬取。

processor處理階段，提供了 pyquery 解析物件 repsonse.doc，也可以直接訪問頁面原始碼進行解析，連結發現需要使用者自己完成，pyquery 也提供了方便的介面 reponse.doc('a') 即可篩選出所有的 <a > 標籤物件。

任務排程，pyspider 採用資料庫來儲存需要的任務，taskid = md5sum( URL ) 為 primary key 儲存每個任務連結上次執行的時間以及更新時間，以此方式去重和篩選出可執行的任務，放入內部執行佇列中，由 fetcher 提取執行。表結構如下：

CREATE TABLE `taskdb\_douyu\_pro` (

                taskid PRIMARY KEY,

                project,

                url, status,

                schedule, fetch, process, track,

                lastcrawltime, updatetime

                );

CREATE INDEX `status\_taskdb\_douyu\_pro\_index` ON `taskdb\_douyu\_pro` (status);

**資料儲存**，也是可配置的，但幾十萬連結的小量，還是可以用 sqlite 來儲存。表結構如下：

CREATE TABLE `resultdb\_douyu\_pro` (

                taskid PRIMARY KEY,

                url,

                result,

                updatetime

                );

三、一些遺留的問題及小技巧

1、pyspider 使用 phantomjs 抓取頁面時發現，當請求量較大，會存在 phantomjs 有大量連結未關閉，從而停止響應。沒有深入定位具體原因，採用暴力定時重啟 phantomjs 的方式來解決了，有遇到的同學可以深入定位一下。

2、另外，selenium phantomjs 是可以通過執行 js 程式碼來操作瀏覽器動作的，所以遇到翻頁自動載入的情況，可以尋找頁內的 more 元素傳送 click() 事件。

3、如果目標網站量較少，不妨試一下手機端的站點，一般手機端站點為了優化使用者體驗，都提供了非同步載入功能，提供非同步載入，則很大可能是使用 ajax 進行 json 明文形式的查詢和結果返回，可以通過 chrome 的 F12 或 safari 的響應式設計模式，記錄請求 timeline，直接定位到網站自身提供的 restAPI 查詢介面，要比解析網頁事半功倍了。

從零快速搭建自己的爬蟲系統

一、基礎知識

二、常見爬蟲實現

pip install pyspider

pyspider

三、一些遺留的問題及小技巧

從零快速搭建自己的爬蟲系統

從零開始搭建自己的VueJS2.0+ElementUI單頁面網站（一、環境搭建）

【從零開始搭建自己的.NET Core Api框架】（二）搭建項目的整體架構

【從零開始搭建自己的.NET Core Api框架】（三）集成輕量級ORM——SqlSugar：3.3 自動生成實體類

【從零開始搭建自己的.NET Core Api框架】（六）泛型倉儲的作用

LFS 8.3 從零開始做自己的系統（二）～！～

LFS 8.3 從零開始做自己的系統（一）～！～

vue從入門到女裝？？：從零開始搭建後臺管理系統（一）安裝框架

從零開始搭建完整分散式系統

如何從零開始搭建自己的部落格（通俗易懂）

從零開始搭建自己的網站二：Springboot專案框架搭建

什麼是devops，基於Gitlab從零開始搭建自己的持續整合流水線(Pipeline)

Vue+ElementUI從零開始搭建自己的網站（三、元件間的通訊）

基於ionic+cordova+angularJs從零開始搭建自己的移動端H5 APP

一、從零開始搭建自己的靜態部落格 -- 基礎篇

二、從零開始搭建自己的靜態部落格 -- 主題篇

微信公共號(企業號)開發框架-gochat的從零開始教程(二): 5分鐘快速搭建自己的公共號

從零開始搭建ELK+GPE監控預警系統

從零開始搭建系統3.4——緩存組件開發

從零開始搭建系統2.7——Quartz安裝及配置

從零快速搭建自己的爬蟲系統

一、基礎知識

二、常見爬蟲實現

pip install pyspider

pyspider

三、一些遺留的問題及小技巧

相關推薦