scrapy入門到放棄02：整一張架構圖，開發一個程式

阿新 • • 發佈：2021-07-07

這個圖畫的我覺得不錯

前言

Scrapy開門篇寫了一些純理論知識，這第二篇就要直奔主題了。先來講講Scrapy的架構，並從零開始開發一個Scrapy爬蟲程式。

本篇文章主要闡述Scrapy架構，理清開發流程，掌握基本操作。

整體架構

自己動手畫架構圖一張：

這就是Scrapy的整體架構，看起來流程比較複雜，但其實需要開發者參與的部分不多。這裡先介紹一下各個部分。

Spider：要開發的爬蟲程式，用來定義網站入口，實現解析邏輯併發起請求。
Pipeline：資料管道，可自定義實現資料持久化方式。
Middleware：中介軟體，分為兩類。一類是下載器中介軟體，主要處理請求，用於新增請求頭、代理等；一類是spider中介軟體，用於處理響應，用的很少。

Scheduler：排程器，用來存放爬蟲程式的請求。
Downloader：下載器。對目標網站發起請求，獲取響應內容。

一個完整的爬蟲，開發者需要參與1、2、3部分的開發。甚至最簡單的爬蟲，只需要開發Spider部分即可。

準備工作

安裝Scrapy

Scrapy的安裝和普通模組相同：

pip3 install scrapy

安裝之後，就會多出一個scrapy命令，我們可以使用此命令來新建專案、新建爬蟲程式、進入shell互動環境等等。

命令說明如下圖：

新建專案

和普通python專案不同的是，Scrapy需要使用命令列新建專案，然後再匯入IDE進行開發。

scrapy startproject [ProjectName]

執行上面命令，新建一個新的Scrapy專案。

從專案結構可以看出，一個Scrapy專案分為四大模組，與架構中各個部分對應。

新建爬蟲程式

將專案匯入IDE，spiders包用於存放開發的爬蟲程式。而爬蟲程式的新建也是通過命令列操作。

# domain就是域名，例如百度域名就是www.baidu.com
scrapy genspider [SpiderName] [domin]

在本scrapy專案任何目錄下的命令列中執行此命令，都會在spiders下新建一個爬蟲程式。

爬蟲程式開發

如圖，scrapy爬蟲程式已經生成，在其中實現解析規則程式碼即可完成開發。

這裡依然以斗羅大陸為例，程式程式碼如下。

程式結構

每個Scrapy程式都會有三個模組：

name：每個專案中的爬蟲的名稱，作為唯一標識用於爬蟲的啟動
allowed_domains：主要用於限定執行爬蟲網站的域名
start_urls：：網站入口，起始url
parse：預設的第一個解析函式

上面說道，start_urls是爬蟲程式的入口，那麼它是怎麼發起請求，並將Res響應傳給parse解析？作為一個list型別，是否可以有多個入口url？

start_requests()

每個爬蟲程式都繼承了Spider類，裡面的start_requests方法用來發起請求，並自動將響應傳遞給parse()。

如圖，我們可以看到，此方法遍歷了start_urls來發起了請求。那麼，我就不想傳遞給parse()解析，我就想自定義方法，啷個怎麼辦來？

小事莫慌，我們重寫start_requests就好了嘛。

如圖，我們自定義了parse_first解析函式，在發起請求時使用callback來指定回撥函式，這裡記住：函式名一定不要加括號，加括號表示立即執行此函式，不加代表是引用。

修改後的程式輸出結果和之前相同。

Request

我們使用yield Request發起一個請求，為什麼不用return？因為yield不會立即返回，不會終結方法。這裡就涉及到了生成器的問題，有興趣的可以去研究一下。

Request使用的引數如下順序排列：

url：要請求的url
callback：處理響應的回撥函式
meta：字典，通過響應傳遞kv資料給回撥函式
dont_filter：預設為False，即開啟url去重。如果我們在start_urls寫入兩條一樣的url時，只會輸出一次結果，如果我們修改為True，則輸出兩次。
method：請求方式，預設為get
priority：請求優先順序，預設為0，數值越大優先順序越大

至於cookies、headers引數，我們可以在Request設定，但大多時候都是在下載器middleware中進行設定。

爬蟲程式啟動

Scrapy爬蟲程式的啟動主要有兩種方式。

命令列啟動

第一種就是在scrapy專案目錄下的命令列下啟動。

scrapy crawl [SpiderName]

這種啟動方式的缺點顯而易見，就是無法IDE中使用Debug功能，所以這種方式通常用於生產。

IDE啟動

我們在開發過程中通常使用第二種啟動方式，這也是符合我們常規啟動程式的方式。新建一個python程式，引入命令列工具執行爬蟲啟動命令。

from scrapy.cmdline import execute

if __name__ == "__main__":
    execute("scrapy crawl DouLuoDaLu".split(" "))

這樣就可以在IDE中啟動程式，並使用Debug功能。

scrapy shell互動環境

我們可以shell互動環境中進行解析程式碼的除錯。

scrapy shell https://v.qq.com/detail/m/m441e3rjq9kwpsc.html

輸入命令回車，對斗羅大陸頁面發起請求並進入shell環境。

如圖所示，在進入shell環境後，自動封裝了一些變數，這裡我們只關注響應response。

如圖，我們在shell互動環境中對網頁進行了解析。這樣，我們將測試好的解析程式碼複製到程式中即可，這樣提高了開發效率。

輸入view(response)，敲擊回車，將自動在瀏覽器開啟頁面。

結語

在樣例程式中，請求和響應只在架構圖右半邊簡單地流轉，如果想要持久化，還需要定義pipeline等等，而且程式中也只寫了一層解析函式，即parse()。

如果在parse中還要進行深度爬取，我們也要在parse中發起請求，並定義新的callback回撥函式來進行解析，一直到我們想要的資料頁面為止。當然，這些後面都會講到。

自Scrapy系列寫了開篇之後，就擱置了很久。一是最近的確挺忙的，二是Scrapy知識點比較多，一時間不知該從何處寫起。不過我還是會繼續寫下去的，雖然可能更新的有點慢，歡迎小夥伴催更、也希望多多提出寶貴的意見。

95後小程式設計師，寫的都是日常工作中的親身實踐，置身於初學者的角度從0寫到1，詳細且認真。

文章會在公眾號 [入門到放棄之路] 首發，期待你的關注。

scrapy入門到放棄02：整一張架構圖，開發一個程式

這個圖畫的我覺得不錯前言 Scrapy開門篇寫了一些純理論知識，這第二篇就要直奔主題了。先來講講Scrapy的架構，並從零開始開發一個Scrapy爬蟲程式。

如何畫一張架構圖

引題當我們想用一張或幾張圖來描述我們的系統時，是不是經常遇到以下情況：

啟明雲端分享：用一張表格帶你瞭解sigmastar SSD20x系列的區別！幫助你快速完成選型！

2021年8月13 星宸科技在深圳隆重舉行VAD生態合作伙伴的首次認證授牌儀式。不同細分領域共計9家合作伙伴獲得認證。

EA新專利：用一張照片將玩家融入到遊戲中

EA剛剛為一項新技術申請了專利，這項技術不僅能讓玩家“進入遊戲”，還能在遊戲中重現玩家的帽子。

原始碼淺析：MySQL一條insert操作，會寫哪些檔案？包括UNDO相關的檔案嗎？

DML操作的大致流程在解答上述疑惑之前，我們來梳理一下DML操作的大致流程：

navicat操作mysql中某一張表後，卡死不動，無法操作

技術標籤：資料庫mysql 原由剛剛寫java程式然後對資料庫進行操作，然後用navicat去清空了表，結果卡死了，無論是刪除表還是清空表，連開啟表都打開不了了，我以為是網慢，然後開別的表沒有問題，其實這就是表鎖

C語言：求一個數的階乘（用程式或者函式來實現）

技術標籤：數學程式碼c語言小程式程式 #include<stdio.h> int main(){ int n; scanf("%d",&n);

愛奇藝推出多畫面互動直播超級晚會：手機 “一屏四看”，實時互動投票

1月28日訊息近期，2021 愛奇藝 “為愛尖叫”晚會舉辦，這是首臺多畫面互動直播超級晚會，採用一屏四看的觀看方式，將主舞臺與幾大互動專區同時展現在使用者面前；同時還把晚會主導權交到使用者手中，由他們的實時投

英特爾新任 CEO 基辛格：作為一名技術專家，我內心也是一名極客

2月16日訊息從英特爾獲悉，英特爾公司 2 月 15 日正式完成 CEO 過渡，帕特 · 基辛格上任成為英特爾公司創立以來第八任 CEO。

騰訊 QQ 安卓版 8.6.0 正式版更新：“拍一拍”支援撤回，語音視訊通話可智慧降噪

3月19日訊息騰訊 QQ 安卓版現已迎來 8.6.0 正式版更新，語音視訊通話支援智慧降噪，“拍一拍”支援撤回。

石頭掃拖機器人 T7S 系列官宣：“每一步震動全場”，3 月 29 日見

3月24日訊息今日上午，石頭科技官方宣佈，石頭掃拖機器人 T7S 系列將於 3 月 29 日正式釋出。

Linux從頭學06：16張結構圖，徹底理解【程式碼重定位】的底層原理

作者：道哥，10+年的嵌入式開發老兵。公眾號：【IOT物聯網小鎮】，專注於：C/C++、Linux作業系統、應用程式設計、物聯網、微控制器和嵌入式開發等領域。公眾號回覆【書籍】，獲取 Linux、嵌入式領域經典書籍。

華為智選阿爾法蛋智慧詞典筆 S 開啟預售：支援一掃即查，到手價 649 元

8 月 18 日訊息7 月 29 日，在華為旗艦新品釋出會上，華為智選阿爾法蛋智慧詞典筆 S 正式釋出，這是一款面向孩子的智慧詞典筆，不僅可以幫助孩子在學習英語過程中查詢單詞、翻譯，還支援語文學習的快速查字、詩詞、

谷歌又一部門震盪：半年 2 名副總出走，開發團隊只剩一半

8 月 25 日訊息最近的 Google Pay，正深陷於離職浪潮之中。今年 4 月底副總 Caesar Sengupta 的離職，就像是拉開了出走的序幕。

Epic 商城假日特賣 12 月 17 日開啟：每天一款免費遊戲，持續 15 天

12 月 16 日訊息，今日 Epic 商城公佈了 2021 年聖誕、新年期間的假日特賣活動。12 月 17 日起至 2022 年 1 月 6 日，將有 1300 餘款遊戲、版本以及附加內容於商城中參加特賣，這些遊戲的折扣從 10% 到 95% 不等。除

谷歌宣佈放棄 FLoC：推出全新的 Topics API，以取代第三方 Cookie

1 月 26 日訊息，2021 年初，谷歌提供了群組聯合學習 (FLoC)，以替代網站上投放相關廣告的第三方 Cookie。在過去一年的多方反對後，谷歌近日提出了一個新的解決方案 ——Topics API。谷歌希望到 2023 年逐步停止在

比亞迪 2021 年營收 2161 億元，同比增長 38.02%：淨利潤 30.45 億元，同比下降 28.08%

3 月 29 日訊息，比亞迪今日公佈了 2021 年年度報告，2021 年營收2161 億元，同比增長 38.02%；歸屬上市公司股東的淨利潤 30.45 億元，同比下降 28.08。2021 年，比亞迪三大業務佔總收入的比例分別為 52.04%、40.00

面試官：有一種資料型別，Redis 要存兩次，為什麼？

來源：blog.csdn.net/zwx900102/article/details/113096979 前言在 Redis 中，有一種資料型別，當在儲存的時候會同時採用兩種資料結構來進行分別儲存，那麼 Redis 為什麼要這麼做呢？這麼做會造成同一份資料佔用兩倍

陣列-給定一個數組 nums，編寫一個函式將所有 0 移動到陣列的末尾，同時保持非零元素的相對順序

技術標籤：資料結構與演算法-樹一、思路不以零為主角，以非零為主角；用雙指標，非零和零換位置；一個索引指向非零元素，另一個指標指向最靠近左邊的零；

資料庫一主雙從，實現一個簡單的主從切換~

技術標籤：mysql 一主多從，實現資料庫高可用一、準備環境1.先做一主雙從192.168.131.80配置：192.168.131.81配置：192.168.131.82配置：

scrapy入門到放棄02：整一張架構圖，開發一個程式

前言

整體架構

準備工作

安裝Scrapy

新建專案

新建爬蟲程式

爬蟲程式開發

程式結構

start_requests()

Request

爬蟲程式啟動

命令列啟動

IDE啟動

scrapy shell互動環境

結語

相關推薦