10 scrapy框架解讀--深入理解爬蟲原理

阿新 • • 發佈：2019-02-15

這裡寫圖片描述

scrapy框架結構圖:

這裡寫圖片描述

組成部分介紹:

Scrapy Engine：
負責元件之間資料的流轉，當某個動作發生時觸發事件
Scheduler：
接收requests，並把他們入隊，以便後續的排程
Downloader：
負責抓取網頁，並傳送給引擎，之後抓取結果將傳給spider
Spiders：
使用者編寫的可定製化的部分，負責解析response，產生items和URL
Item Pipeline：
負責處理item，典型的用途：清洗、驗證、持久化
Downloader middlewares：
位於引擎和下載器之間的一個鉤子，處理傳送到下載器的requests和傳送到引擎的response(若需要在Requests到達Downloader之前或者是responses到達spiders之前做一些預處理，可以使用該中介軟體來完成)
Spider middlewares：
位於引擎和抓取器之間的一個鉤子，處理抓取器的輸入和輸出
(在spiders產生的Items到達Item Pipeline之前做一些預處理或response到達spider之前做一些處理)

Scrapy中的資料流:

Scrapy中的資料流由執行引擎控制，其過程如下:
1. 引擎開啟一個網站(open a domain),找到處理該網站的spider，並向該spider請求第一個要爬取的url(s);
2. 引擎從spider中獲取到第一個要爬取的url並在排程器(scheduler)以requests排程；
3. 引擎向排程器請求下一個要爬取的url；
4. 排程器返回下一個要爬取的url給引擎，引擎將url通過下載器中介軟體(請求requests方向)轉發給下載器(Downloader);
5. 一旦頁面下載完畢，下載器生成一個該頁面的responses，並將其通過下載器中介軟體(返回responses方向)傳送給引擎；
6. 引擎從下載器中接收到responses並通過spider中介軟體(輸入方向)傳送給spider處理；
7. spider處理responses並返回爬取到的Item及(跟進的)新的resquests給引擎
8. 引擎將(spider返回的)爬取到的Item給Item Pipeline，將(spider返回的)requests給排程器；
9. (從第二部)重複直到(排程器中沒有更多的request)引擎關閉該網站

中介軟體的編寫:

down loader middle ware – 檢視文件151頁
spider middle wares – 檢視文件162頁

10 scrapy框架解讀--深入理解爬蟲原理

scrapy框架結構圖: 組成部分介紹: Scrapy Engine：負責元件之間資料的流轉，當某個動作發生時觸發事件 Scheduler：接收requests，並把他們入

10張圖帶你深入理解Docker容器和鏡像-轉

轉換 AS pos run IT tree 很難的區別 write 轉載：http://dockone.io/article/783 這篇文章希望能夠幫助讀者深入理解Docker的命令，還有容器（container）和鏡像（image）之間的區別，並深入探討容器和運行

深入理解mysqldump原理 --single-transaction --lock-all-tables --master-data

在mysqldump過程中，之前其實一直不是很理解為什麼加了--single-transaction就能保證innodb的資料是完全一致的，而myisam引擎無法保證，必須加--lock-all-tables，前段時間抽空詳細地查看了整個mysqldump過程。理解master-data和--

python之Scrapy框架的第一個爬蟲

執行： D:\pycodes\python123demo>scrapy crawl demo scrapy crawl demo 學習筆記：程式碼： D:\pycodes>scrapy startproject python123demo Ne

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

記憶體系列二：深入理解硬體原理

本篇文章承接上文繼續介紹DDR記憶體的硬體原理，包括如何定址，時序和時延以及可以為提高記憶體的效能可以有哪些方法。上次雖然解決了小張的問題，卻引發了他對記憶體原理的興趣。這不他又來找我了，說我還欠他一個解釋。這次我們約在一個咖啡館見面，這次內容有點深入，我帶了些圖片，小張也點了一大杯美式，計劃大幹一

《深入理解mybatis原理》 MyBatis快取機制的設計與實現

本文主要講解MyBatis非常棒的快取機制的設計原理，給讀者們介紹一下MyBatis的快取機制的輪廓，然後會分別針對快取機制中的方方面面展開討論。 MyBatis將資料快取設計成兩級結構，分為一級快取、二級快取： &nb

《深入理解mybatis原理》 MyBatis的二級快取的設計原理

MyBatis的二級快取是Application級別的快取，它可以提高對資料庫查詢的效率，以提高應用的效能。本文將全面分析MyBatis的二級快取的設計原理。 1.MyBatis的快取機制整體設計以及二級快取的工作模式

深入理解計算機原理——程式與執行（二）

浮點數（1）浮點數的表示方法；（2）浮點數的精度與範圍；（3）浮點數的分佈；（4）浮點數階碼的表示方法；（5）浮點數位數規格化；（6）結合例子學習浮點數的表示方法；（7） IEEE 754標準； 2

簡述JAVA GC回收機制，深入理解GC原理

什麼是“GC” 垃圾回收機制。為什麼要用“GC” 眾所周知，JAVA 這語言，與C語言不同，Java記憶體（堆記憶體）的分配與回收由JVM垃圾收集器自動完成，比如 C語言自己定義的變數，不用時需要自己回收這個變數。JAVA 這就是自動完成了，自動檢測，無用的

深入理解PHP原理之Opcodes

最近要給Yahoo的同事們做一個關於PHP和Apache處理請求的內部機制的講座，剛好寫了些關於Opcodes的文字，就發上來了，這個文章基於 Sara Golemon大師的《Understanding OPcode》 Opcode是一種PHP指令碼編譯後的中間語言，就像Java的Byt

深入理解Memcached原理

1.為什麼要使用memcache 由於網站的高併發讀寫需求，傳統的關係型資料庫開始出現瓶頸，例如： 1）對資料庫的高併發讀寫：關係型資料庫本身就是個龐然大物，處理過程非常耗時（如解析SQL語句，事務處理等）。如果對關係型資料庫進行高併發讀寫（每秒上萬次的訪問），那麼它是

《深入理解mybatis原理(三)》 MyBatis的一級快取實現詳解及使用注意事項

0.寫在前面 MyBatis是一個簡單，小巧但功能非常強大的ORM開源框架，它的功能強大也體現在它的快取機制上。MyBatis提供了一級快取、二級快取這兩個快取機制，能夠很好地處理和維護快取，以提高系統的效能。本文的目的則是向讀者詳細介紹MyBatis的一級快取，深入原始碼，解析MyBa

學習Docker之10張圖帶你深入理解Docker容器和映象

剛開始接觸Docker之後，就對容器和映象的概念有所迷惑，上一篇也簡單的說了一下之前的見解，其實並不準確，在之後的學習中再加上網上找的資料，發現了下面的這一片博文，一定要多看幾遍，看完思考再看，就會對容器和映象有更深刻的認識。【編者的話】本文用圖文

深入理解PHP原理之函式(Introspecting PHP Function)

宣告：此內容轉載鳥哥，只是留作個人學習、記錄用。為表尊重，特此說明。在PHP中，函式分為倆種， •一種是zend_internal_function, 這種函式是由擴充套件或者Zend/PHP核心提供的，用’C/C++’編寫的，可以直接執行的函式。 •另外一種是ze

深入理解作業系統原理之檔案系統

一、概述作業系統對系統的軟體資源（不論是應用軟體和系統軟體）的管理都以檔案方式進行，承擔這部分功能的作業系統稱為檔案系統。 1、檔案計算機系統對系統中軟體資源：無論是程式或資料、系統軟體或應用軟體都以檔案方式來管理。檔案是存貯在某種介質上的（如磁碟

10.scrapy框架簡介和基礎應用

今日概要 scrapy框架介紹環境安裝基礎使用今日詳情一.什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同

《深入理解mybatis原理》 Mybatis初始化機制詳解侵立刪

對於任何框架而言，在使用前都要進行一系列的初始化，MyBatis也不例外。本章將通過以下幾點詳細介紹MyBatis的初始化過程。 1.MyBatis的初始化做了什麼 2. MyBatis基於XML配置檔案建立Configuration物件的過程 &nb

深入理解作業系統原理之程序管理（一）

一、概述 1、為什麼引入程序程式併發執行時具有如下特徵：間斷性程式在併發執行時，由於它們共享資源或為完成同一項任務而相互合作，使在併發程式之間形成了相互制約的關係。相互制約將導致併發程式具有“執行-暫停-執行”這種間斷性活動規律。失去封閉性

深入理解PHP原理之變數【轉自（風雪之隅）】

PHP作為一個弱型別，動態的指令碼語言（不嚴格驗證變數型別）。宣告一個變數的時候，並不需要顯示指定它儲存的資料型別。<?php$var = 1; //int$var = "goith"; //st

10 scrapy框架解讀--深入理解爬蟲原理

scrapy框架結構圖:

組成部分介紹:

Scrapy中的資料流:

中介軟體的編寫:

相關推薦