scrapy框架爬蟲流程與介紹

阿新 • • 發佈：2020-10-23

scrapy框架爬蟲流程與介紹

學習scrapy框架的網上教材：https://lib-nuanxin.wqxuetang.com/read/pdf/3210751

1.scrapy 的基礎概念：

　　scrapy 是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，我們只需要實現少量程式碼，就能夠快速的抓取到資料內容。Scrapy 使用了 Twisted['twɪstɪd](其主要對手是Tornado)非同步網路框架來處理網路通訊，可以加快我們的下載速度，不用自己去實現非同步框架，並且包含了各種中介軟體介面，可以靈活的完成各種需求。

二、整體架構

引擎(Scrapy Engine)：用來處理整個系統的資料流處理，觸發事務。

排程器(Scheduler)：用來接受引擎發過來的請求，壓入佇列中，並在引擎再次請求的時候返回。
下載器(Downloader)：用於下載網頁內容，並將網頁內容返回給Spiders。
爬蟲(Spiders)：爬蟲是主要幹活的，用它來制訂特定域名或網頁的解析規則。編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每個spider負責處理一個特定(或一些)網站。
專案管道(ItemPipeline)：負責處理有Spiders從網頁中抽取的專案，他的主要任務是清晰、驗證和儲存資料。當頁面被Spiders解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。
下載器中介軟體(DownloaderMiddlewares)：位於Scrapy引擎和下載器之間的鉤子框架，主要是處理Scrapy引擎與下載器之間的請求及響應。

蜘蛛中介軟體(SpiderMiddlewares)：介於Scrapy引擎和Spiders之間的鉤子框架，主要工作是處理Spiders的響應輸入和請求輸出。
排程中介軟體(SchedulerMiddlewares)：介於Scrapy引擎和排程之間的中介軟體，從Scrapy引擎傳送到排程的請求和響應。

爬取流程：上圖綠線是資料流向，所有的操作都是圍繞著ScrapyEngine進行操作的，也就是說

ScrapyEngine處理指揮著整個框架；

引擎開啟一個網站(open adomain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。
引擎從Spider中獲取到第一個要爬取的URL並在排程器(Scheduler)以Request排程。

引擎向排程器請求下一個要爬取的URL。
排程器返回下一個要爬取的URL給引擎，引擎將URL通過下載中介軟體(請求(request)方向)轉發給下載器(Downloader)。
一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中介軟體(返回(response)方向)傳送給引擎。
引擎從下載器中接收到Response並通過Spider中介軟體(輸入方向)傳送給Spider處理。
Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。
引擎將(Spider返回的)爬取到的Item給ItemPipeline，將(Spider返回的)Request給排程器。
(從第二步)重複直到排程器中沒有更多地request，引擎關閉該網站。

scrapy框架爬蟲流程與介紹

scrapy框架爬蟲流程與介紹學習scrapy框架的網上教材：https://lib-nuanxin.wqxuetang.com/read/pdf/3210751

laravel 框架執行流程與原理簡單分析

本文例項講述了laravel 框架執行流程與原理。分享給大家供大家參考，具體如下：

Scrapy框架基本命令與settings.py設定

本文例項講述了Scrapy框架基本命令與settings.py設定。分享給大家供大家參考，具體如下：

scrapy框架爬蟲的主要步驟：

1.進入你要建立爬蟲專案的目錄，例如我的：cd E:\\spiders_test\\day7 2.使用命令：scrapy startproject Daomu 建立爬蟲專案

scrapy框架的簡介與使用

Scrapy框架 crapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，訊號、資料傳遞等。

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

Scrapy框架介紹之Puppeteer渲染的使用

1、Scrapy框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。

用Scrapy框架開發的一個爬蟲專案

　　為什麼要單獨開這麼一篇隨筆，主要還是在上一篇隨筆\"一個小爬蟲的整體解決方案\"（https://www.cnblogs.com/qinyulin/p/13219838.html）中沒有著重介紹Scrapy,包括後面幾天也對程式碼做了Review，優化了一些效能

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

介面測試框架實戰 | 流程封裝與基於加密介面的測試用例設計

本文節選自霍格沃茲《測試開發實戰進階》課程教學內容。介面測試僅僅掌握 Requests 或者其他一些功能強大的庫的用法，是遠遠不夠的，還需要具備能根據公司的業務流程以及需求去定製化一個介面自動化測試框架的

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

爬蟲——scrapy框架

今日內容 scrapy 架構 # 通用的網路爬蟲框架,爬蟲界的django 5大元件 -引擎(EGINE)：大總管，負責控制資料的流向

Python網路爬蟲的基本流程與準備

基本流程：準備工作：（通過瀏覽器檢視分析目標網頁，學習程式設計基礎規範）

scrapy框架爬蟲流程與介紹

scrapy框架爬蟲流程與介紹

相關推薦