Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

阿新 • • 發佈：2019-01-27

ide 字典初始化需要工作流程 www. 默認 apple 一個

原文地址https://www.cnblogs.com/zhaof/p/7192503.html

Spider類定義了如何爬去某個網站，包括爬取的動作以及如何從網頁內容中提取結構化的數據，總的來說spider就是定義爬取的動作以及分析某個網頁

工作流程分析

以初始的URL初始化Request，並設置回調函數，當該request下載完畢並返回時，將生成response，並作為參數傳給回調函數. spider中初始的requesst是通過start_requests()來獲取的。start_requests()獲取 start_urls中的URL，並以parse以回調函數生成Request
在回調函數內分析返回的網頁內容，可以返回Item對象，或者Dict，或者Request，以及是一個包含三者的可叠代的容器，返回的Request對象之後會經過Scrapy處理，下載相應的內容，並調用設置的callback函數

在回調函數內，可以通過lxml，bs4，xpath,css等方法獲取我們想要的內容生成item
最後將item傳遞給Pipeline處理

我們以通過簡單的分析源碼來理解
我通常在寫spiders下寫爬蟲的時候，我們並沒有寫start_requests來處理start_urls中的url，這是因為我們在繼承的scrapy.Spider中已經寫過了，我們可以點開scrapy.Spider查看分析

技術分享圖片

通過上述代碼我們可以看到在父類裏這裏實現了start_requests方法，通過make_requests_from_url做了Request請求
如下圖所示的一個例子，parse回調函數中的response就是父類列start_requests方法調用make_requests_from_url返回的結果，並且在parse回調函數中我們可以繼續返回Request,如下屬代碼中yield Request()並設置回調函數。

技術分享圖片

spider內的一些常用屬性

我們所有自己寫的爬蟲都是繼承與spider.Spider這個類

name

定義爬蟲名字，我們通過命令啟動的時候用的就是這個名字，這個名字必須是唯一的

allowed_domains

包含了spider允許爬取的域名列表。當offsiteMiddleware啟用時，域名不在列表中URL不會被訪問
所以在爬蟲文件中，每次生成Request請求時都會進行和這裏的域名進行判斷

start_urls

起始的url列表
這裏會通過spider.Spider方法中會調用start_request循環請求這個列表中每個地址。

custom_settings

自定義配置，可以覆蓋settings的配置，主要用於當我們對爬蟲有特定需求設置的時候

設置的是以字典的方式設置:custom_settings = {}

from_crawler

這是一個類方法，我們定義這樣一個類方法，可以通過crawler.settings.get()這種方式獲取settings配置文件中的信息，同時這個也可以在pipeline中使用

start_requests()
這個方法必須返回一個可叠代對象，該對象包含了spider用於爬取的第一個Request請求
這個方法是在被繼承的父類中spider.Spider中寫的，默認是通過get請求，如果我們需要修改最開始的這個請求，可以重寫這個方法，如我們想通過post請求

make_requests_from_url(url)
這個也是在父類中start_requests調用的，當然這個方法我們也可以重寫

parse(response)
這個其實默認的回調函數
負責處理response並返回處理的數據以及跟進的url
該方法以及其他的Request回調函數必須返回一個包含Request或Item的可叠代對象

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

ide 字典初始化需要工作流程 www. 默認 apple 一個原文地址https://www.cnblogs.com/zhaof/p/7192503.html Spider類定義了如何爬去某個網站，包括爬取的動作以及如何從網頁內容中提取結構化的數據，總的來說spi

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

工作流程分析

spider內的一些常用屬性

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

Python爬蟲從入門到放棄（十四）之 Scrapy框架中選擇器的用法

Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

Python爬蟲從入門到放棄（十二）之 Scrapy框架的架構和原理

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎使用者資訊(上)

Python爬蟲從入門到放棄（二十三）之 Scrapy的中間件Downloader Middleware實現User-Agent隨機切換

python學習筆記（十五）之集合

Spring Boot 初級入門教程（十五） —— 整合 MyBatis

Linux小小白入門教程（十五）：使用者和使用者組

Python爬蟲包 BeautifulSoup 學習（十一） CSS 選擇器

SpringBoot入門學習（十五）~~註冊Servlet元件

安卓入門教程（十五）- Fragment，Service，WAMP下載

Golang 入門系列（十五）如何理解go的併發？

Spring Boot入門系列（十五）Spring Boot 開發環境熱部署

Openstack入門篇（十一）之neutron服務（控制節點）的部署與測試

JavaFX UI控制元件教程（十五）之Combo Box

Java框架（十五）之springMVC（檔案上傳、攔截器）

opencv學習（十五）之影象傅立葉變換dft

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

工作流程分析

spider內的一些常用屬性

相關推薦