Scrapy五大核心組件簡介

阿新 • • 發佈：2019-05-15

持久化存儲重復處理持久化簡介成功行數據資源事務

五大核心組件

scrapy框架主要由五大組件組成,他們分別是調度器(Scheduler),下載器(Downloader),爬蟲(Spider),和實體管道(Item Pipeline),Scrapy引擎(Scrapy Fngine)

下面我們說說他們各自的作用:

調度器

用來接受引擎發過來的請求,由過濾器重復的url並將其壓入隊列中,在引擎再次請求的時候返回,
可以想象成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列,由他決定下一個要抓取的網址是什麽,用戶可以根據自己的需求定制調度器

下載器

下載器,是所有組件中負擔最大的,它用於高速地下載網絡上的資源,Scrapy的下載器代碼不會太復雜,但效率高(原因:Scrapy下載器是建立在twisted這個高效的異步模型上的)

爬蟲

爬蟲是主要幹活的,用戶最關心的部分, 它可以生成url, 並從特定的url中提取自己需要的信息, 即所謂的實體(Item). 用戶也可以從中提取出鏈接, 讓Scrapy繼續抓取下一個頁面.

實體管道

負責處理爬蟲從網頁中抽取的實體, 主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息. 當頁面被爬蟲解析後, 將被發送到項目管道, 並經過幾個特定的次序處理數據.

引擎

Scrapy引擎是整個框架的核心。它用來控制調試器、下載器、爬蟲。實際上，引擎相當於計算機的CPU,它控制著整個流程。對整個系統的數據流進行處理, 觸發事務(框架核心).

工作流程

技術分享圖片

步驟詳解:

1.spider中的url被封裝成請求對象交給引擎(每一個對應一個請求對象)

2.引擎拿到請求對象之後,將全部交給調度器

3.調度器鬧到所有請求對象後,通過內部的過濾器過濾掉重復的url,最後將去重後的所有url對應的請求對象壓入到隊列中,隨後調度器調度出其中一個請求對象,並將其交給引擎

4.引擎將調度器調度出的請求對象交給下載器

5.下載器拿到該請求對象去互聯網中下載數據

6.數據下載成功後會被封裝到response中,隨後response會被交給下載器

7.下載器將response交給引擎

8.引擎將response交給spiders

9.spiders拿到response後調用回調方法進行數據解析,解析成功後生成item,隨後spiders將item交給引擎

10引擎將item交給管道,管道拿到item後進行數據的持久化存儲

Scrapy五大核心組件簡介

持久化存儲重復處理持久化簡介成功行數據資源事務五大核心組件 scrapy框架主要由五大組件組成,他們分別是調度器(Scheduler),下載器(Downloader),爬蟲(Spider),和實體管道(Item Pipeline),Scrapy引擎(Sc

Scrapy五大核心組件工作流程

spi 持久化存儲行數據驗證返回爬蟲 rap mage 去重一.Scrapy五大核心組件工作流程 1.核心組件 # 引擎(Scrapy) 對整個系統的數據流進行處理, 觸發事務(框架核心). # 調度器(Scheduler) 用來接受引擎發過來的請求. 由過濾器

爬蟲框架scrapy（3）五大核心組件

作用核心調度器相關處理流 load 下一步互聯網 scrapy scrapy 五大核心組件的工作流程當執行爬蟲文件時，5大核心組件就在工作了 spiders 引擎（Scrapy Engine）管道（item Pipeline）調度器（Scheduler）下載器（D

SpringCloud五大核心組件

href 解決穩定子項目 reg region 包括模式 com Spring Cloud由眾多子項目組成，如Spring Cloud Config、Spring Cloud Netflix、Spring Cloud Consul 等，提供了搭建分布式系統及微服務常用

Scrapy核心組件

什麽 item 持久項目請求 span 下載 font 數據流 • 引擎(Scrapy)用來處理整個系統的數據流處理, 觸發事務(框架核心) • 調度器(Scheduler)用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可

.net/c#常用框架/中間件簡介

跨語言 bat 方法 entity 系統 wcf 序列 lpush 面向任務調度 Quartz.NET：Quartz.NET是一個開源的作業調度框架，非常適合在平時的工作中，定時輪詢數據庫同步，定時郵件通知，定時處理數據等。 Quartz.NET允許開發人員根

jsTree插件簡介(三)

asc dom 目前 highlight light 加載 boa open board UI-plugin JSTree的UI插件：用來處理選擇、不選和鼠標懸浮樹選項的插件。一、屬性包括： 1、select_limit：指定一次可以選中幾個節點，默認為-1，表示無

作業一統計軟件簡介與數據操作

簡化隨著 os x window 文件 lan 設計 sum pow SPSS(Statistical Product and Service Solutions)，"統計產品與服務解決方案"軟件。最初軟件全稱為"社會科學統計軟件包"(SolutionsSt

作業一統計軟件簡介

時間序列分析表達發展制圖數學新的就是簡便 width 一、spss簡介 SPSS是世界上最早采用圖形菜單驅動界面的統計軟件，它最突出的特點就是操作界面極為友好，輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規範的界面展現出來，使用Win

統計軟件簡介

文字量變完整 enc 文字處理功能數據管理方式實現統計軟件簡介一、R軟件 R是一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編

作業一統計軟件簡介與數據

計算機入參網絡程序員系統維護 torrent 遊戲軟件 src 數學庫 SPSS(Statistical Product and Service Solutions)，"統計產品與服務解決方案"軟件。最初軟件全稱為"社會科學統計軟件包"(SolutionsStati

包婷婷（201550484）作業一統計軟件簡介與數據操作

computing ron doc tar sas 評價 ces 常見括號 SPSS(Statistical Product and Service Solutions)，"統計產品與服務解決方案"軟件。最初軟件全稱為"(SolutionsStatistical Pack

作業一統計軟件簡介與數據操作

height license 商業方向清晰 ont 命令式計算機 idt 一、SPSS SPSS(Statistical Product and Service Solutions)，"統計產品與服務解決方案"軟件。最初軟件全稱為"社會科學統計軟件包"(Sol

Django 中間件簡介

請求 soft 規則 ngs cep 執行有一個 exception def Django 中間件簡介 django 中的中間件（middleware），在django中，中間件其實就是一個類，在請求到來和結束後，django會根據自己的規則在合適的時機執行中間件中相應的

hadoop核心組件（一）

poi 不可組件為我 med 批處理數據庫 true 讀取　　hadoop的核心組件：hdfs（分布式文件系統）、mapreduce（分布式計算框架）、Hive（基於hadoop的數據倉庫）、HBase（分布式列存數據庫）、Zookeeper（分布式協作服務）、S

EasyUI：datagrid控件簡介

tag easy 控件滾動條 easyui 控件簡介 body data pan EasyUI：datagrid控件簡介 1，水平滾動條屬性： //顯示滾動條 fitColumns:false //不顯示滾動條 fitColumns:true EasyUI：data

Tomcat基本安裝與組件簡介

tomcat安裝使用 tomcat組件了解 tomcat 一、Tomcat 通常意義上的web服務器接受請求後，只是單純地響應靜態資源，如html文件，圖片文件等，不能在後端進行一定的處理操作。 Tomcat是Apache下的一個子項目，它具備web服務器的所有功能，不僅可以監聽接受請求並響

Nginx配置文件簡介及多域名虛擬主機配置

Nginx；CentOS 1.Nginx的功能模塊 Nginx軟件的強大是由於它具有眾多的功能模塊，下面列出企業中常用的重要模塊。（1）Nginx核心功能模塊（Core functionality） Nginx核心功能模塊負責Nginx的全局應用，主要對應主配置文件的Main區塊和E

中間件簡介

速度客戶端分類快速開發 oracle數據 link 就會 user 運行環境中間件中間件（middleware）是基礎軟件的一大類，中間介處於操作系統與用戶的應用軟件的中間。中間件在操作系統，網絡和數據庫之上，應用軟件的下層，總的作用是為處於自己上層的應用軟件提供運

Scrapy命令行工具簡介

一個 XML 介紹 col 中文 awl 添加分享圖片機制 Windows 10家庭中文版，Python 3.6.4，virtualenv 16.0.0，Scrapy 1.5.0，在最初使用Scrapy時，使用編輯器或IDE手動編寫模塊來創建爬蟲（Spider）程

Scrapy五大核心組件簡介

相關推薦