5 爬蟲之scrapy框架

阿新 • • 發佈：2019-01-24

test 網絡爬蟲 -s 持久 nts ebs sta 網站下載器

一 scrapy框架簡介

1 介紹

Scrapy一個開源和協作的框架，其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的，使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛，可用於如數據挖掘、監測和自動化測試等領域，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy 是基於twisted框架開發而來，twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞（又名異步）的代碼來實現並發。

整體架構大致如下：
技術分享圖片

Components：

1、引擎(EGINE)
引擎負責控制系統所有組件之間的數據流，並在某些動作發生時觸發事件。有關詳細信息，請參見上面的數據流部分。

2、調度器(SCHEDULER)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麽, 同時去除重復的網址

3、下載器(DOWLOADER)
用於下載網頁內容, 並將網頁內容返回給EGINE，下載器是建立在twisted這個高效的異步模型上的

4、爬蟲(SPIDERS)
SPIDERS是開發人員自定義的類，用來解析responses，並且提取items，或者發送新的請求

5、項目管道(ITEM PIPLINES)

在items被提取後負責處理它們，主要包括清理、驗證、持久化（比如存到數據庫）等操作
下載器中間件(Downloader Middlewares)位於Scrapy引擎和下載器之間，主要用來處理從EGINE傳到DOWLOADER的請求request，已經從DOWNLOADER傳到EGINE的響應response，
你可用該中間件做以下幾件事：
　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
　　(2) change received response before passing it to a spider;

　　(3) send a new Request instead of passing received response to a spider;
　　(4) pass response to a spider without fetching a web page;
　　(5) silently drop some requests.

6、爬蟲中間件(Spider Middlewares)
位於EGINE和SPIDERS之間，主要工作是處理SPIDERS的輸入（即responses）和輸出（即requests）

官網鏈接

下載

#Linux：
              pip3 install scrapy

#Windows：
              a. pip3 install wheel

              b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

              c. 進入下載目錄，執行 pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl

              d. pip3 install pywin32

5 爬蟲之scrapy框架

test 網絡爬蟲 -s 持久 nts ebs sta 網站下載器一 scrapy框架簡介 1 介紹 Scrapy一個開源和協作的框架，其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的，使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scra

5 爬蟲之scrapy框架

一 scrapy框架簡介

1 介紹

下載

5 爬蟲之scrapy框架

皇冠體育二代信用盤帶手機版網絡爬蟲之scrapy框架詳解

爬蟲之scrapy框架

2018 - Python 3.7 爬蟲之 Scrapy 框架的安裝及配置（一）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

Python爬蟲之scrapy框架爬蟲步驟

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

python爬蟲之Scrapy框架中的Item Pipeline用法

python爬蟲之Scrapy框架:兩種隨機選擇User-Agent的方法

爬蟲之Scrapy框架介紹

Python爬蟲之Scrapy框架的UA池和代理池

python爬蟲之Scrapy框架（CrawSpider）

Python網絡爬蟲之Scrapy框架（CrawlSpider）

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

python之Scrapy框架的第一個爬蟲

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

Python爬蟲從入門到放棄（十二）之 Scrapy框架的架構和原理

5 爬蟲之scrapy框架

一 scrapy框架簡介

1 介紹

下載

相關推薦