1. 程式人生 > >46.Scrapy框架結構

46.Scrapy框架結構

 

Scrapy的介紹:
Scrapy是基於Twisted的非同步處理框架,是純python語言實現的爬蟲框架,特點是架構清晰,模組間耦合度低、擴充套件性強較為靈活。

框架結構如圖所示:

 

 Engine:引擎,處理整個系統的資料流處理、觸發事務,是整個框架的核心。

 Item:專案,定義爬蟲結果的資料結構,爬去的資料被賦值為該item物件。

 Scheduler:排程器,接受引擎發過來的請求並將其加入佇列中,在引擎再次請求時將請求提供給引擎。

 Downloader:下載器,下載網頁內容,並將內容返還給蜘蛛。

 Spiders:蜘蛛,定義爬取的邏輯和網頁的解析規則,主要負責解析響應並生成提取結果和新的請求。

 Item Pipline:專案管道,負責處理由蜘蛛從網頁抽取的專案,主要任務是清洗、驗證和儲存資料。

 Downloader Middlerwares:下載中介軟體,位於引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應。

 Spider Middlewares:蜘蛛中介軟體,位於引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應和輸出的結果及新的請求。

 

 

 

---恢復內容結束---