【scrapy】流程大致分析

阿新 • • 發佈：2017-11-28

下一個跟著數據定義 gin war 自定義輸出 -s 結果

Scrapy流程分析

Scrapy 是一個重型爬蟲框架。主要分為5部分:引擎(Engine)、調度器(Scheduler)(這個不太熟悉)、下載器(Downloader) 、爬蟲(Spider)、管道（Item Pipeline）。

Engine是scrapy的核心,主要負責調度各個組件，保證數據流轉。其中包括每五秒自動運行的呼吸函數。
Scheduler負責管理任務、過濾任務、輸出任務的調度器，存儲、去重(中間件??)
Downloader 負責從網頁上下載網頁數據，吐給調度器處——吐給spider處理——吐給pipeline進行存儲處理
Spider 爬蟲
Item Pipeline負責輸出結構化數據，可自定義輸出位置(文件、MYSQL、MangoDB..)

中間件:除了以上五個部分，還有中間件也是非常重要的。中間件主要分為兩種：Downloader Middlewares(下載中間件)、Spider Middlewares(爬蟲中間件)。主要用於過濾、處理下載的數據或者爬蟲的返回值

流程圖如下:

技術分享圖片

scrapy流程圖(自己瞎畫的)

流程概述:

Engine從爬蟲中獲取初始化請求(種子URL)
Engine把該請求放入Scheduler中，同時獲取下一個請求（這兩為異步）
Scheduler返回給Engine一個待下載的請求
Engine發送請求給下載器，中間會經過Downloader Middlewares的過濾
這個請求通過下載器下載完成後，生成一個相應對象（response），這個對象將被返回給Engine，中間需要經過一次Downloader Middlewares。

Engine接受到對象之後，發送給爬蟲，中間會經過一系列的Spider Middlewares。
在爬蟲中執行相應的自定義邏輯。執行完邏輯之後，爬蟲執行相應的回調方法，處理得到的數據或者新的request請求。將這個結果發送給Engine，中間經過一系列Spider Middlewares
Engine得到返回值，若是requests則再執行2，若是對象則交由Pipeline處理
從1開始重復，直到調度器中沒有新的請求。

參考: Scrapy源碼閱讀分析<一>

跟著大佬走了一遍，還是似懂非懂，但是受益匪淺。

自己修為還差得遠..再走幾遍再走幾遍

【scrapy】流程大致分析

下一個跟著數據定義 gin war 自定義輸出 -s 結果 Scrapy流程分析 Scrapy 是一個重型爬蟲框架。主要分為5部分:引擎(Engine)、調度器(Scheduler)(這個不太熟悉)、下載器(Downloader) 、爬蟲(Spider)、管道（I

【NOI2015】程序自動分析

單個 -- space != name style namespace cstring 說明題目描述在實現程序自動分析的過程中，常常需要判定一些約束條件是否能被同時滿足。考慮一個約束滿足問題的簡化版本：假設x1,x2,x3...代表程序中出現的變量，給定n個形如x

【轉】大數據分析中Redis怎麽做到220萬ops

12g 要求維度日誌 24小時線程物流 line 壓力測試原文：http://www.cnblogs.com/nnhy/archive/2018/01/16/Redis220.html 大數據時代，海量數據分析就像吃飯一樣，成為了我們每天的工作。為了更

【scrapy】scrapy-redis 全國建築市場基本信息采集

redis callback ids super call connect info turn 一個簡介環境: python3.6 　　 scrapy 1.5 使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式

【轉載】Android Bug分析系列：第三方平臺安裝app啟動後，home鍵回到桌面後點擊app啟動時會再次啟動入口類bug的原因剖析

特殊返回 androidm android系統圖片管理相關 OS 簡便前言　　前些天，測試MM發現了一個比較奇怪的bug。　　具體表現是：　　1、將app包通過電腦QQ傳送到手機QQ上面，點擊安裝，安裝後選擇打開app （此間的應用邏輯應該是要觸發【閃屏頁

【重點】測試需求分析

apple 什麽是 2.0 pre 二次 4.0 核心重要性 pin p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 } p.p2 { margin:

【Coursera】主成分分析

同時什麽求解部分 div 希望之間二維應該一、問題主方向的概念是什麽？為什麽降低維度的方法是使方差最大化？假設某兩個特征之間成線性關系，在二維平面上的表示就是數據點呈線性分布，那麽可以通過將數據在主方向上進行投影，得到一個一維的數據，這個一維的數據保留了

【轉】數據分析

算數例子 sce 活動排列 standards 對稱兩個發現詳解 Kaggle 房價預測競賽優勝方案：用 Python 進行全面數據探索方法框架：理解問題：查看每個變量並且根據他們的意義和對問題的重要性進行哲學分析。單因素研究：只關

【轉載】主成分分析法（PCA）

差異投影 3D 方式分享 alt 訓練矩陣 9.png https://www.jisilu.cn/question/252942 進行維數約減（Dimensionality Reduction），目前最常用的算法是主成分分析法 (Principal Componet

【原始碼】主成分分析（PCA）與獨立分量分析（ICA）MATLAB工具箱

本MATLAB工具箱包含PCA和ICA實現的多個函式，並且包括多個演示示例。在主成分分析中，多維資料被投影到最大奇異值相對應的奇異向量上，該操作有效地將輸入訊號分解成在資料中最大方差方向上的正交分量。因此，PCA常用於維數降低的應用中，通過執行PCA產生資料的低維表示，同時，該低維表

【Android】Retrofit原始碼分析

Retrofit簡介 retrofit n. 式樣翻新，花樣翻新 vt. 給機器裝置裝配（新部件），翻新，改型 Retrofit 是一個 RESTful 的 HTTP 網路請求框架的封裝。注意這裡並沒有說它是網路請求框架，主要原因在於網路請求的工作並不是 Retrofit

【Android】OkHttp原始碼分析

Android為我們提供了兩種HTTP互動的方式：HttpURLConnection 和 Apache HttpClient，雖然兩者都支援HTTPS，流的上傳和下載，配置超時，IPv6和連線池，已足夠滿足我們各種HTTP請求的需求。但更高效的使用HTTP 可以讓您的應用執行更快、更節省

【NLP】【三】jieba原始碼分析之關鍵字提取（TF-IDF/TextRank）

【一】綜述利用jieba進行關鍵字提取時，有兩種介面。一個基於TF-IDF演算法，一個基於TextRank演算法。TF-IDF演算法，完全基於詞頻統計來計算詞的權重，然後排序，在返回TopK個詞作為關鍵字。TextRank相對於TF-IDF，基本思路一致，也是基於統計的思想，只不過其計算詞的權

【NLP】【二】jieba原始碼分析之分詞

【一】詞典載入利用jieba進行分詞時，jieba會自動載入詞典，這裡jieba使用python中的字典資料結構進行字典資料的儲存，其中key為word，value為frequency即詞頻。 1. jieba中的詞典如下： jieba/dict.txt X光 3 n X光線 3

【NLP】【四】jieba原始碼分析之詞性標註

【一】詞性標註詞性標註分為2部分，首先是分詞，然後基於分詞結果做詞性標註。【二】jieba的詞性標註程式碼流程詳解 1. 程式碼位置 jieba/posseg/_init_.py 2. 流程分析 def cut(sentence, HMM=True): """

【Hadoop】MapReduce深度分析

MapReduce深度分析 MapReduce總結構分析資料流向分析處理過程分析各階段分析 MapTask Read階段 Map階段 Collector和Partitio

【8】netty4原始碼分析-flush

轉自 http://xw-z1985.iteye.com/blog/1971904 Netty的寫操作由兩個步驟組成： Write:將msg儲存到ChannelOutboundBuffer中 Flush：將msg從ChannelOutboundBuffer中flush到套接字的傳送緩

【7】netty4原始碼分析-write

轉自 http://xw-z1985.iteye.com/blog/1970844 Netty的寫操作由兩個步驟組成： Write:將msg儲存到ChannelOutboundBuffer中 Flush：將msg從ChannelOutboundBuffer中flush到套接字的傳送緩

【6】netty4原始碼分析-accept

轉自 http://xw-z1985.iteye.com/blog/1941800 本文分析服務端如何accept客戶端的connect請求，首先看下selector的I/O多路複用的分發邏輯： //NioEventLoop private static void process

【9】netty4原始碼分析- read

轉自 http://xw-z1985.iteye.com/blog/1972779 當selector檢測到OP_READ事件時，觸發read操作： //NioEventLoop if ((readyOps & (SelectionKey.OP_READ | Select

【scrapy】流程大致分析

相關推薦