Python3爬蟲（十六） pyspider框架

阿新 • • 發佈：2018-05-06

暫停 update trie 字典管理生成 qlite tps 方便

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、pyspider介紹
1.基本功能
提供WebUI可視化功能，方便編寫和調試爬蟲
提供爬取進度監控、爬取結果查看、爬蟲項目管理
支持多種數據庫，MySQL、MongoDB、Redis、SQLite、PostgreSQL等
支持多種消息隊列，RabbitMQ、Beanstalk、Redis等
提供優先級控制、失敗重試、定時抓取等
對接了PhantomJS，可實現對JavaScript頁面的抓取
支持單機、分布式、Docker部署

2.pyspider 與 scrapy 對比
pyspider提供WebUI，scrapy原生不具備此功能
pyspider調試方便
pyspider支持PhantomJS、scrapy支持scrapy-Splash組件
pyspider內置pyquery作為選擇器，scrapy對接了XPath、CSS選擇器和正則表達式
pyspider擴展程度低

3.框架設計
三大模塊：調度器（Scheduler）、抓取器（Fetcher）、處理器（Processer）

4.具體流程
1.每個pyspider項目都對用一個Python腳本，該腳本定義了一個Handler類，使用on_start()方法，開始項目，然後交由scheduler進行調度處理
2.Scheduler將抓取任務傳給Fetcher，Fetcher響應完成後，將響應傳給Processer
3.Processer處理並提取新的URL再通過消息隊列的方式傳給Scheduler，如果生成了新的提取結果，則發往結果隊列等待Result Worker處理
4.循環上述過程，直到抓取結束，結束時會調用on_finished()

5.例子
https://github.com/Infi-chu/quna

二、pyspider詳解
1.啟動：
pyspider all
2.crawl()方法
url：爬取的URL，可以定義為單個URL字符串或URL列表
callback：回調函數，指定了該URL對應的響應內容應該由哪個方法來解析
age：任務的有效時間
priority：優先級，默認為0，越大越優先
exetime：可以設置定時任務，其值是時間戳，默認是0，代表立即執行
retries：重試次數，默認是3
itag：設置判定網頁是否發生變化的節點值
auto_recrawl：開啟後，爬取任務在過期後重新執行
method：HTTP請求方式
params：定義GET請求參數
data：定義POST請求參數
files：上傳的文件，需指定文件名
user_agent：User-Agent
headers：Request Headers
cookies:Cookies，字典格式
connect_timeout:初始化連接時最長的等待時間，默認是20秒
timeout：抓取網頁的最長等待時間，默認是120秒
allow_redirects：確定是否自動處理重定向，默認是True
validate_cert：是否驗證證書，默認是True
proxy：代理
fetch_type：開啟PhantomJS渲染
js_script：頁面加載完畢後執行的JavaScript腳本
js_run_at：腳本運行位置，默認在節點結尾
js_viewport_width/js_viewport_height：JavaScript渲染頁面的窗口大小
load_images：確定是否加載圖片，默認是False
save：在不同的方法之間傳遞參數
cancel：取消任務
force_update：強制更新狀態
3.任務區分：
判斷是否為同一任務，將比較URL的MD5值是否一樣
4.全局配置：
在crawl_config中指定全局配置
5.定時爬取
通過every屬性來設置時間間隔
6.項目狀態：
TODO 剛創建還未執行
STOP 停止
CHECKING 運行的項目被修改後
DEBUG/RUNNNING 運行
PAUSE 多次出錯，掛起或暫停
7.刪除項目
將狀態設置為STOP，分組名稱修改為delete，24小時後自動刪除

Python3爬蟲（十六） pyspider框架

暫停 update trie 字典管理生成 qlite tps 方便 Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、pyspider介紹1.基本功能提供WebUI可視化功能，方便編寫和調試爬蟲提供爬取進度監控、爬取結果查看

Python3爬蟲（十六） pyspider框架

Python3爬蟲（十六） pyspider框架

Python3爬蟲（十八） Scrapy框架（二）

Android Multimedia框架總結（十六）Camera2框架之openCamera及session過程

Python3基礎之（十六）讀寫檔案2

Django框架（十六）—— forms元件、區域性鉤子、全域性鉤子

python3 練習題100例（十六）雞尾酒療法

【零基礎】Python3學習課後練習題（十六）

一起寫RPC框架（十六）RPC註冊中心三--註冊中心服務提供者端的處理

Python 爬蟲從入門到進階之路（十六）

全棧JavaScript之路（十六）HTML5 HTMLDocument 類型的變化

（十六）Hibernate中的延遲加載

文件系統命令（十六）

OpenCV探索之路（十六）：圖像矯正技術深入探討

【轉】 JMeter學習（十六）JMeter函數學習

selenium測試（Java）--下載文件（十六）

Python學習筆記（十六）拓展庫Scipy

java（十六） CSS

《Linux內核設計與實現》讀書筆記（十六）- 頁高速緩存和頁回寫

（十六）解耦合

Java學習筆記（十六）：static關鍵字

Python3爬蟲（十六） pyspider框架

相關推薦