Scrapy框架原理及流程

阿新 • • 發佈：2018-12-13

這是一篇整理爬蟲概念知識的文章。

Scrapy工作流程圖

Scrapy資料流是由執行的核心引擎(engine)控制，流程是這樣的：

1、爬蟲引擎獲得初始請求開始抓取。

2、爬蟲引擎開始請求排程程式，並準備對下一次的請求進行抓取。

3、爬蟲排程器返回下一個請求給爬蟲引擎。

4、引擎請求傳送到下載器，通過下載中介軟體下載網路資料。

5、一旦下載器完成頁面下載，將下載結果返回給爬蟲引擎。

6、引擎將下載器的響應通過中介軟體返回給爬蟲進行處理。

7、爬蟲處理響應，並通過中介軟體返回處理後的items，以及新的請求給引擎。

8、引擎傳送處理後的items到專案管道，然後把處理結果返回給排程器，排程器計劃處理下一個請求抓取。

9、重複該過程（繼續步驟1），直到爬取完所有的url請求。

爬蟲引擎(ENGINE)

爬蟲引擎負責控制各個元件之間的資料流，當某些操作觸發事件後都是通過engine來處理。

排程器 (SCHEDULER)

排程接收來engine的請求並將請求放入佇列中，並通過事件返回給engine。

下載器

通過engine請求下載網路資料並將結果響應給engine。

Spider

Spider發出請求，並處理engine返回給它下載器響應資料，以items和規則內的資料請求(urls)返回給engine。

管道專案(item pipeline)

負責處理engine返回spider解析後的資料，並且將資料持久化，例如將資料存入資料庫或者檔案。

下載中介軟體

下載中介軟體是engine和下載器互動元件，以鉤子(外掛)的形式存在，可以代替接收請求、處理資料的下載以及將結果響應給engine。

spider中介軟體

spider中介軟體是engine和spider之間的互動元件，以鉤子(外掛)的形式存在，可以代替處理response以及返回給engine items及新的請求集。

Scrapy框架原理及流程

這是一篇整理爬蟲概念知識的文章。 Scrapy工作流程圖 Scrapy資料流是由執行的核心引擎(engine)控制，流程是這樣的： 1、爬蟲引擎獲得初始請求開始抓取。 2、爬蟲引擎開始請求排程程式，並準備對下一次的請求進行抓取。 3、爬蟲排程器返回下一個請求

Andfix熱修復框架原理及源代碼解析-上篇

ren oid 聯系 pass 重命名命名 key () 提示熱補丁介紹及Andfix的使用 Andfix熱修復框架原理及源代碼解析-上篇 Andfix熱修復框架原理及源代碼解析-下篇 1.不知道怎樣使用的同學，建議看看我上一篇寫的介紹熱補丁和An

node.js基本工作原理及流程

實例 I/O 同步問題 code 本地 https 事情 sans ready 概述 Node.js是什麽 Node 是一個服務器端 JavaScript 解釋器，用於方便地搭建響應速度快、易於擴展的網絡應用。Node.js 使用事件驅動，非阻塞I/O 模型而得以輕量

Scrapy框架的執行流程解析

... run方法 att page 集合 exception nco 生成 lis 這裏主要介紹七個大類Command->CrawlerProcess->Crawler->ExecutionEngine->sceduler另外還有兩個類：Reque

【Ceph系列01】Ceph的工作原理及流程

-o 尋址 ofo color proc 分享圖片 tac ges sha 首先我們了解一下Ceph系統中的尋址流程，如下圖所示：本文部分參考來自 http://www.csdn.net/article/2014-04-08/2819192-ceph-swift-on

事務原理及流程，儲存點的使用

一、事務概述： 1.事務由一系列的相關的sql語句組成的最小邏輯工作單元 2.oracle以事務為單位來處理資料，保證資料的一致性 3.如果對事務進行提交，該事物的所有sql語句操作都會提交，成為資料庫的永久組成部分 4.如果事務遇到錯誤而被取消或

SpringMVC（一）框架設計及流程

Spring MVC（一）框架設計及流程 SpringMVC框架設計框架設計圖如下上圖是SpringMVC框架執行的流程。處理請求先到達控制器（Controller），控制器的作用是進行請求轉發，這樣它會根據請求的內容去訪問模型層（Model）；在現今網際網路體系中，資

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

框架對於特別小的爬蟲，一般直接編寫就可以了，但一般面對一個專案級別的爬蟲，都選擇用框架框架可以理解為一個等你填坑的程式碼： 1. 為你編寫好那些必須的、重複的程式碼 2. 為你模組化好每一個元件，自動建立元件之間的聯絡，這樣就方便使用者清晰瞭解它的

大資料-Hadoop生態(17)-MapReduce框架原理-MapReduce流程,Shuffle機制,Partition分割槽

MapReduce工作流程 1.準備待處理檔案 2.job提交前生成一個處理規劃 3.將切片資訊job.split,配置資訊job.xml和我們自己寫的jar包交給yarn 4.yarn根據切片規劃計算出MapTask的數量 (以一個MapTask為例) 5.Maptask呼叫

YARN框架原理及執行機制

　　YARN是Hadoop2.0中的資源管理系統，它的設計思想是將MRv1中的JobTracker拆分成兩個獨立的服務：一個全域性的資源管理器ResourceManager和每個應用程式持有的ApplicationMaster。其中RM負責整個系統的資源管理和分配，AM負責單個應用程式的管理。一、YARN

Node Js 基本工作原理及流程詳解

1，專案前期準備：以express 框架為例 npm i express-generator -g //全域性安裝express框架 express -e //生成express應用骨架 npm i //安裝依賴 npm start //在3000埠監聽拓展

Hadoop Yarn 框架原理及運作機制

1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統，它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務：一個全域性的資源管理器ResourceManager和每個應用程式特有的ApplicationMaster。其中Res

SSM框架理解及流程

SSM框架是spring MVC ，spring和mybatis框架的整合，是標準的MVC模式，將整個系統劃分為表現層，controller層，service層，DAO層四層。流程： A、建立資料庫，根據需求分析中所需要的各種實體，建立對應的實體表，並給出表中的屬性和約束條件。

Yarn 框架原理及運作機制

1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統，它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務：一個全域性的資源管理器ResourceManager和每個應用程式特有的ApplicationMaster。其中Resource

Asp.net中基於Forms驗證的角色驗證授權[原理及流程]

Asp.net的身份驗證有有三種，分別是"Windows | Forms | Passport"，其中又以Forms驗證用的最多，也最靈活。Forms 驗證方式對基於使用者的驗證授權提供了很好的支援，可以通過一個登入頁面驗證使用者的身份，將此使用者的身份發回到客戶端的Cookie，之後此使用者再訪問這個we

“Ceph淺析”系列之五——Ceph的工作原理及流程

收到monitor發來的cluster map之後，這個新OSD計算出自己所承載的PG（為簡化討論，此處我們假定這個新的OSD開始只承載一個PG），以及和自己承載同一個PG的其他OSD。然後，新OSD將與這些OSD取得聯絡。如果這個PG目前處於降級狀態（即承載該PG的OSD個數少於正常值，如正

貝葉斯估計原理及流程

知乎上有個專題叫：你對貝葉斯統計有怎樣的理解？本篇儘量通俗點理解下貝葉斯統計~_~ 還是沿用經典案例：一種癌症，得了這個癌症的人被檢測出為陽性的機率為90%，未得這種癌症的人被檢測出陰性的機率

Hadoop2.X Yarn框架原理及運作機制

需要注意的是，該排程器是一個“純排程器”，它不再從事任何與具體應用程式相關的工作，比如不負責監控或者跟蹤應用的執行狀態等，也不負責重新啟動因應用執行失敗或者硬體故障而產生的失敗任務，這些均交由應用程式相關的ApplicationMaster完成。排程器僅根據各個應用程式的資源需求進行資源分配，而資源分配單位用

檔案上傳原理及流程

感謝原博主： http://blog.sina.com.cn/s/blog_8f32dc250100wva8.html 一、HTTP檔案上傳 html <input type=”file” name=”xxx”> type：型別 name：名字 method

瞭解RPG遊戲中劇情播放器的製作原理及流程

http://www.iamsevent.com/post/44.html 本章原始碼下載：http://www.iamsevent.com/zb_users/UPLOAD/dramaPlayer/MyDramaSystem.rar（其中包含劇情編輯器及劇情測試應用。

Scrapy框架原理及流程

相關推薦