Python爬蟲基礎講解（二十五）：scrapy 框架結構

阿新 • • 發佈：2021-06-24

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542

Python學習交流群：1039649593

scrapy 框架結構

思考

scrapy 為什麼是框架而不是庫?
scrapy是如何工作的?

專案結構

在開始爬取之前，必須建立一個新的Scrapy專案。進入您打算儲存程式碼的目錄中，執行下列命令:

注意:建立專案時，會在當前目錄下新建爬蟲專案的目錄。

這些檔案分別是:

scrapy.cfg:專案的配置檔案
quotes/:該專案的python模組。之後您將在此加入程式碼
quotes/items.py:專案中的item檔案

quotes/middlewares.py:爬蟲中介軟體、下載中介軟體(處理請求體與響應體)
quotes/pipelines.py:專案中的pipelines檔案
quotes/settings.py:專案的設定檔案
quotes/spiders/:放置spider程式碼的目錄

Scrapy原理圖

各個元件的介紹

Engine。引擎,處理整個系統的資料流處理、觸發事務,是整個框架的核心。
ltem。專案,它定義了爬取結果的資料結構,爬取的資料會被賦值成該ltem物件。
Scheduler。排程器,接受引擎發過來的請求並將其加入佇列中,在引擎再次請求的時候將請求提供給引擎。
Downloader。下載器,下載網頁內容,並將網頁內容返回給蜘蛛。
Spiders。蜘蛛,其內定義了爬取的邏輯和網頁的解析規則,它主要負責解析響應並生成提結果和新的請求。
Item Pipeline。專案管道,負責處理由蜘蛛從網頁中抽取的專案,它的主要任務是清洗、驗證和儲存資料。
Downloader Middlewares。下載器中介軟體,位於引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應。
Spider Middlewares。蜘蛛中介軟體,位於引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應和輸出的結果及新的請求。

資料的流動

Scrapy Engine(引擎):負責Spider、ltemPipeline、Downloader、Scheduler中間的通訊，訊號、資料傳遞等。
Scheduler(排程器):負責接受引擎傳送過來的Request請求，並按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。
Downloader(下載器):負責下載Scrapy Engine(引擎)傳送的所有Requests請求，並將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理，
Spider(爬蟲)︰負責處理所有Responses,從中分析提取資料，獲取ltem欄位需要的資料，並將需要跟進的URL提交給引擎，再次進入Scheduler(排程器)，
ltem Pipeline(管道):負責處理Spider中獲取到的ltem，並進行進行後期處理(詳細分析、過濾、儲存等）的地方.
Downloader Middlewares(下載中介軟體):你可以當作是一個可以自定義擴充套件下載功能的元件。
Spider Middlewares(Spider中介軟體):你可以理解為是一個可以自定擴充套件和操作引擎和Spider中間通訊的功能元件（比如進入Spider的Responses;和從Spider出去的Requests)

Python爬蟲基礎講解（二十五）：scrapy 框架結構

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十六）：scrapy.Spider

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十四）：第一個scrapy爬蟲

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Hadoop基礎（二十五）：OutputFormat資料輸出

1 OutputFormat介面實現類 2自定義OutputFormat 3 自定義OutputFormat案例實操 1．需求過濾輸入的log日誌，包含atguigu的網站輸出到e:/atguigu.log，不包含atguigu的網站輸出到e:/other.log。

Flink基礎（二十五）：FLINK SQL(一)查詢語句（一）基本查詢

來源：https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/sql/queries.html 0 簡介

設計模式學習筆記（二十五）：模板方法模式

1 概述 1.1 引言模板方法模式是結構最簡單的行為型設計模型，在其結構中只存在父類與之類之間的繼承關係，通過使用模板方法模式，可以將一些複雜流程的實現步驟封裝在一系列基本方法中，在抽象父類提供一個稱之為模

大資料實戰（二十五）：電商數倉（十八）之使用者行為資料採集（十八）ODS層建立

0 簡介 1 建立資料庫 1）建立gmall資料庫 hive (default)> create database gmall; 說明：如果資料庫存在且有資料，需要強制刪除時執行：drop database gmall cascade;

springboot系列學習（二十五）：springboot專案裡面整合spring Security框架。一步一步帶你整合使用，小白必看（二）

認證和授權，我們已經會在配置類裡面寫了。如果退出了，springsecurity框架給給我們寫了，我們拿來用就可以了。在授權的方法裡面寫

net根據list建立xml_從零開始寫文字編輯器（二十五）：支援對目錄URL遍歷XML資源...

技術標籤：net根據list建立xml 前言現階段的資源載入是固定的 string.xml 來載入所有字串資源。但一個檔案顯然不利於編輯和分類。當我把所有選單項字串列出時，已經多達230個，更不論對話方塊/按鈕等使用的字串

資料視覺化基礎專題（二十八）：Pandas基礎（八）合併（一）concat

一合併 1Concatenating objects Theconcat()function (in the main pandas namespace) does all of the heavy lifting of performing concatenation operations along an axis while performing optional set logic