Python 爬蟲從入門到進階之路（十八）

阿新 • • 發佈：2019-07-15

在之前的文章我們通過 scrapy 框架及 scrapy.Spider 類做了一個《糗事百科》的糗百爬蟲，本章我們再來看一下相較於 scrapy.Spider 類更為強大的 CrawlSpider 類。

CrawlSpider 是Spider的派生類，Spider 類的設計原則是隻爬取start_url列表中的網頁，而 CrawlSpider 類定義了一些規則 (rule) 來提供跟進link的方便的機制，從爬取的網頁中獲取link並繼續爬取的工作更適合。

原始碼參考

 1 class CrawlSpider(Spider):
 2     rules = ()
 3     def __init__(self, *a, **kw):
 4         super(CrawlSpider, self).__init__(*a, **kw)
 5         self._compile_rules()
 6 
 7     #首先呼叫parse()來處理start_urls中返回的response物件
 8     #parse()則將這些response物件傳遞給了_parse_response()函式處理，並設定回撥函式為parse_start_url()
 9     #設定了跟進標誌位True
10     #parse將返回item和跟進了的Request物件    
11     def parse(self, response):
12         return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)
13 
14     #處理start_url中返回的response，需要重寫
15     def parse_start_url(self, response):
16         return []
17 
18     def process_results(self, response, results):
19         return results
20 
21     #從response中抽取符合任一使用者定義'規則'的連結，並構造成Resquest物件返回
22     def _requests_to_follow(self, response):
23         if not isinstance(response, HtmlResponse):
24             return
25         seen = set()
26         #抽取之內的所有連結，只要通過任意一個'規則'，即表示合法
27         for n, rule in enumerate(self._rules):
28             links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
29             #使用使用者指定的process_links處理每個連線
30             if links and rule.process_links:
31                 links = rule.process_links(links)
32             #將連結加入seen集合，為每個連結生成Request物件，並設定回撥函式為_repsonse_downloaded()
33             for link in links:
34                 seen.add(link)
35                 #構造Request物件，並將Rule規則中定義的回撥函式作為這個Request物件的回撥函式
36                 r = Request(url=link.url, callback=self._response_downloaded)
37                 r.meta.update(rule=n, link_text=link.text)
38                 #對每個Request呼叫process_request()函式。該函式預設為indentify，即不做任何處理，直接返回該Request.
39                 yield rule.process_request(r)
40 
41     #處理通過rule提取出的連線，並返回item以及request
42     def _response_downloaded(self, response):
43         rule = self._rules[response.meta['rule']]
44         return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)
45 
46     #解析response物件，會用callback解析處理他，並返回request或Item物件
47     def _parse_response(self, response, callback, cb_kwargs, follow=True):
48         #首先判斷是否設定了回撥函式。（該回調函式可能是rule中的解析函式，也可能是 parse_start_url函式）
49         #如果設定了回撥函式（parse_start_url()），那麼首先用parse_start_url()處理response物件，
50         #然後再交給process_results處理。返回cb_res的一個列表
51         if callback:
52             #如果是parse呼叫的，則會解析成Request物件
53             #如果是rule callback，則會解析成Item
54             cb_res = callback(response, **cb_kwargs) or ()
55             cb_res = self.process_results(response, cb_res)
56             for requests_or_item in iterate_spider_output(cb_res):
57                 yield requests_or_item
58 
59         #如果需要跟進，那麼使用定義的Rule規則提取並返回這些Request物件
60         if follow and self._follow_links:
61             #返回每個Request物件
62             for request_or_item in self._requests_to_follow(response):
63                 yield request_or_item
64 
65     def _compile_rules(self):
66         def get_method(method):
67             if callable(method):
68                 return method
69             elif isinstance(method, basestring):
70                 return getattr(self, method, None)
71 
72         self._rules = [copy.copy(r) for r in self.rules]
73         for rule in self._rules:
74             rule.callback = get_method(rule.callback)
75             rule.process_links = get_method(rule.process_links)
76             rule.process_request = get_method(rule.process_request)
77 
78     def set_crawler(self, crawler):
79         super(CrawlSpider, self).set_crawler(crawler)
80         self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider繼承於Spider類，除了繼承過來的屬性外（name、allow_domains），還提供了新的屬性和方法:

LinkExtractors

from scrapy.linkextractors import LinkExtractor

Link Extractors 的目的很簡單: 提取連結｡

每個LinkExtractor有唯一的公共方法是 extract_links()，它接收一個 Response 物件，並返回一個 scrapy.link.Link 物件。

Link Extractors要例項化一次，並且 extract_links 方法會根據不同的 response 呼叫多次提取連結｡

 1 class scrapy.linkextractors.LinkExtractor(
 2     allow = (),
 3     deny = (),
 4     allow_domains = (),
 5     deny_domains = (),
 6     deny_extensions = None,
 7     restrict_xpaths = (),
 8     tags = ('a','area'),
 9     attrs = ('href'),
10     canonicalize = True,
11     unique = True,
12     process_value = None
13 )

主要引數：

allow：滿足括號中“正則表示式”的值會被提取，如果為空，則全部匹配。
deny：與這個正則表示式(或正則表示式列表)不匹配的URL一定不提取。
allow_domains：會被提取的連結的domains。
deny_domains：一定不會被提取連結的domains。
restrict_xpaths：使用xpath表示式，和allow共同作用過濾連結。

rules

在rules中包含一個或多個Rule物件，每個Rule對爬取網站的動作定義了特定操作。如果多個rule匹配了相同的連結，則根據規則在本集合中被定義的順序，第一個會被使用。

1 class scrapy.spiders.Rule(
2         link_extractor, 
3         callback = None, 
4         cb_kwargs = None, 
5         follow = None, 
6         process_links = None, 
7         process_request = None
8 )

link_extractor：是一個Link Extractor物件，用於定義需要提取的連結。
callback：從link_extractor中每獲取到連結時，引數所指定的值作為回撥函式，該回調函式接受一個response作為其第一個引數。

注意：當編寫爬蟲規則時，避免使用parse作為回撥函式。由於CrawlSpider使用parse方法來實現其邏輯，如果覆蓋了 parse方法，crawl spider將會執行失敗。
follow：是一個布林(boolean)值，指定了根據該規則從response提取的連結是否需要跟進。如果callback為None，follow 預設設定為True ，否則預設為False。
process_links：指定該spider中哪個的函式將會被呼叫，從link_extractor中獲取到連結列表時將會呼叫該函式。該方法主要用來過濾。
process_request：指定該spider中哪個的函式將會被呼叫，該規則提取到每個request時都會呼叫該函式。 (用來過濾request)

接下來我們就按上面所說的內容將之前的糗百爬蟲做一下修改，我們將 qiubaiSpider.py 的程式碼改為如下：

 1 import scrapy
 2 # 匯入CrawlSpider類和Rule
 3 from scrapy.spiders import CrawlSpider, Rule
 4 # 匯入連結規則匹配類，用來提取符合規則的連線
 5 from scrapy.linkextractors import LinkExtractor
 6 from ..items import QiushiItem
 7 
 8 
 9 class QiushiSpider(CrawlSpider):
10     # 爬蟲名
11     name = "qiubai"
12     # 允許爬蟲作用的範圍，不能越界
13     allowd_domains = ["https://www.qiushibaike.com/"]
14     # 爬蟲起始url
15     start_urls = ["https://www.qiushibaike.com/text/page/1/"]
16     # Response 裡連結的提取規則，返回的符合匹配規則的連結匹配物件的列表
17     pageLink = LinkExtractor(allow=("/page/\d+"))
18     # 獲取這個列表裡的連結，依次傳送請求，並且繼續跟進，呼叫指定回撥函式處理
19     rules = [
20         Rule(pageLink, callback="parseContent", follow=True)
21     ]
22 
23     # 指定的回撥函式
24     def parseContent(self, response):
25         # 通過 scrayy 自帶的 xpath 匹配想要的資訊
26         qiushi_list = response.xpath('//div[contains(@id,"qiushi_tag")]')
27         for site in qiushi_list:
28             # 例項化從 items.py 匯入的 QiushiItem 類
29             item = QiushiItem()
30             # 根據查詢發現匿名使用者和非匿名使用者的標籤不一樣
31             try:
32                 # 非匿名使用者
33                 username = site.xpath('./div/a/img/@alt')[0].extract()  # 作者
34                 imgUrl = site.xpath('./div/a/img/@src')[0].extract()  # 頭像
35             except Exception:
36                 # 匿名使用者
37                 username = site.xpath('./div/span/img/@alt')[0].extract()  # 作者
38                 imgUrl = site.xpath('./div/span/img/@src')[0].extract()  # 頭像
39             content = site.xpath('.//div[@class="content"]/span[1]/text()').extract()
40             item['username'] = username
41             item['imgUrl'] = "https:" + imgUrl
42             item['content'] = content
43 
44             # 將獲取的資料交給 pipeline 管道檔案
45             yield item

在控制檯或終端輸入 scrapy crawl qiubai 即可執行程式並獲取糗百資料。

需要注意的是在 rule 規則中的 callback 千萬不能寫 parse，因為 CrawlSpider 使用 parse 方法來實現其邏輯，如果覆蓋了 parse方法，crawl spider將會執行失敗。

Python 爬蟲從入門到進階之路（十八）

原始碼參考

LinkExtractors

rules

Python 爬蟲從入門到進階之路（十八）

Python 爬蟲從入門到進階之路（十一）

Python 爬蟲從入門到進階之路（十二）

Python 爬蟲從入門到進階之路（十四）

Python 爬蟲從入門到進階之路（十五）

Python 爬蟲從入門到進階之路（十六）

Python 爬蟲從入門到進階之路（十七）

Java 從入門到進階之路（十一）

Java 從入門到進階之路（十二）

Java 從入門到進階之路（十五）

Java 從入門到進階之路（十六）

Java 從入門到進階之路（十七）

Java 從入門到進階之路（十九）

Vue 進階之路（十一）

Vue 進階之路（十四）

Java 從入門到進階之路（十）

Java 從入門到進階之路（二十三）

成為1個技術大牛的入門到進階之路（學習路線圖）

進階之路（基礎篇） - 011 arduino api基礎手冊

進階之路（基礎篇） - 008 SPI數據傳輸(庫函數方法)

Python 爬蟲從入門到進階之路（十八）

原始碼參考

LinkExtractors

rules

相關推薦