18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解
CrawlSpider的引入:
提問:如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話,有幾種實現方法?
方法一:基於Scrapy框架中的Spider的遞歸爬取進行實現(Request模塊遞歸回調parse方法)。
方法二:基於CrawlSpider的自動爬取進行實現(更加簡潔和高效)
CrawlSpider的簡介:
CrawlSpider其實是Spider的一個子類,除了繼承到Spider的特性和功能外,還派生除了其自己獨有的更加強大的特性和功能。其中最顯著的功能就是”LinkExtractors鏈接提取器“。Spider是所有爬蟲的基類,其設計原則只是為了爬取start_url列表中網頁,而從爬取到的網頁中提取出的url進行繼續的爬取工作使用CrawlSpider更合適。
CrawlSpider的使用:
CrawlSpider的使用和Spider使用差不多,只有在爬蟲文件的時候有所有區別
1.創建scrapy工程:scrapy startproject projectName
2.切換到當前的工程目錄下 cd projectName
創建爬蟲文件:scrapy genspider -t crawl spiderName www.xxx.com
--此指令對比以前的指令多了 "-t crawl",表示創建的爬蟲文件是基於CrawlSpider這個類的,而不再是Spider這個基類。
執行爬蟲文件 scrapy crawl projectName
3.觀察生成的爬蟲文件
自動生成的爬蟲文件
# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class CsSpider(CrawlSpider): name = ‘cs‘ # allowed_domains = [‘www.xxx.com‘] start_urls = [‘http://www.xxx.com/‘] rules = ( Rule(LinkExtractor(allow=r‘Items/‘), callback=‘parse_item‘, follow=True), ) def parse_item(self, response): i = {} #i[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).extract() #i[‘name‘] = response.xpath(‘//div[@id="name"]‘).extract() #i[‘description‘] = response.xpath(‘//div[@id="description"]‘).extract() return i
通常將爬蟲文件更改成下面的形式
# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor # 導入CrawlSpider相關模塊 from scrapy.spiders import CrawlSpider, Rule # 表示該爬蟲程序是基於CrawlSpider類的 class CsSpider(CrawlSpider): # 爬蟲文件名 name = ‘cs‘ # allowed_domains = [‘www.xxx.com‘] # 起始的url start_urls = [‘http://www.xxx.com/‘] # 將鏈接提取器從rules規則解析器中提取出來, # 鏈接提取器:有一個前提(follow=False),作用就是提取起始url對應頁面中符合要求的鏈接 link = LinkExtractor(allow=r‘Items/‘) #allow後面跟的是一個正則表達式(符合條件要求或規則) # 在rules這個元祖中存放的都是規則解析器 # 規則解析器的作用:將鏈接提取器提取的 鏈接對應的頁面源碼數據 根據指定要求進行解析
# follow = True: 讓鏈接提取器繼續作用在 鏈接提取器提取出來的 所對應的頁面源碼中 rules = ( Rule(link, callback=‘parse_item‘, follow=True), # callback指定解析方式 ) def parse_item(self, response): i = {} #i[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).extract() #i[‘name‘] = response.xpath(‘//div[@id="name"]‘).extract() #i[‘description‘] = response.xpath(‘//div[@id="description"]‘).extract() return i
CrawlSpider的代碼詳解:
1. 導入CrawlSpider相關模塊
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
2.LinkExtractor:顧名思義,鏈接提取器。
LinkExtractor(
allow=r‘Items/‘,# 滿足括號中“正則表達式”的值會被提取,如果為空,則全部匹配。
deny=xxx, # 滿足正則表達式的則不會被提取。
restrict_xpaths=xxx, # 滿足xpath表達式的值會被提取
restrict_css=xxx, # 滿足css表達式的值會被提取
deny_domains=xxx, # 不會被提取的鏈接的domains。
)
- 作用:提取response中符合規則的鏈接。
3.Rule : 規則解析器。根據鏈接提取器中提取到的鏈接,根據指定規則提取解析器鏈接網頁中的內容。
Rule(LinkExtractor(allow=r‘Items/‘), callback=‘parse_item‘, follow=True)
- 參數介紹:
參數1:指定鏈接提取器
參數2:指定規則解析器解析數據的規則(回調函數)
參數3:是否將鏈接提取器繼續作用到鏈接提取器提取出的鏈接網頁中。當callback為None,參數3的默認值為true。
4. rules=( ):指定不同規則解析器。一個Rule對象表示一種提取規則。
5. callback指定的是解析方式,默認是parse_item
6. follow參數
- follow=False 鏈接提取器 提取起始url對應頁面中符合要求的鏈接
- follow = True 讓鏈接提取器繼續作用在 鏈接提取器提取出的來鏈接 所對應的頁面源碼中
CrawlSpider整體爬取流程:
a)爬蟲文件首先根據起始url,獲取該url的網頁內容
b)鏈接提取器會根據指定提取規則將步驟a中網頁內容中的鏈接進行提取
c)規則解析器會根據指定解析規則將鏈接提取器中提取到的鏈接中的網頁內容根據指定的規則進行解析
d)將解析數據封裝到item中,然後提交給管道進行持久化存儲
示例:爬取抽屜新熱榜首頁中所有的頁面
# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor # 導入CrawlSpider相關模塊 from scrapy.spiders import CrawlSpider, Rule # 表示該爬蟲程序是基於CrawlSpider類的 class CsSpider(CrawlSpider): # 爬蟲文件名 name = ‘cs‘ # allowed_domains = [‘www.xxx.com‘] # 起始的url start_urls = [‘https://dig.chouti.com/all/hot/recent/1‘] # 將鏈接提取器從rules規則解析器中提取出來, # 鏈接提取器:有一個前提(follow=False),作用就是提取起始url對應頁面中符合要求的鏈接 link = LinkExtractor(allow=r‘/all/hot/recent/\d+‘) #allow後面跟的是一個正則表達式(符合條件要求或規則) # 在rules這個元祖中存放的都是規則解析器 # 規則解析器的作用:將鏈接提取器提取的 鏈接對應的頁面源碼數據 根據指定要求進行解析 # follow=True:讓鏈接提取器繼續作用在 鏈接提取器提取出的來鏈接 所對應的頁面源碼中 rules = ( Rule(link, callback=‘parse_item‘, follow=False), # callback指定解析方式 ) def parse_item(self, response): print(response) # response對應的是對拿到的每一個鏈接發請求拿到的響應對象詳細代碼
一個特殊的情況:
示例:爬取糗事百科糗圖板塊的所有頁碼數據
# 表示該爬蟲程序是基於CrawlSpider類的 class CsSpider(CrawlSpider): # 爬蟲文件名 name = ‘cs‘ # allowed_domains = [‘www.xxx.com‘] # 起始的url start_urls = [‘https://www.qiushibaike.com/pic/‘] # 將鏈接提取器從rules規則解析器中提取出來, # 鏈接提取器:有一個前提(follow=False),作用就是提取起始url對應頁面中符合要求的鏈接 link = LinkExtractor(allow=r‘/pic/page/\d+\?‘) #s=為隨機數 link1 = LinkExtractor(allow=r‘/pic/$‘) #s=為隨機數 # 在rules這個元祖中存放的都是規則解析器 # 規則解析器的作用:將鏈接提取器提取的 鏈接對應的頁面源碼數據 根據指定要求進行解析 # follow=True:讓鏈接提取器繼續作用在 鏈接提取器提取出的來鏈接 所對應的頁面源碼中 rules = ( Rule(link, callback=‘parse_item‘, follow=False), Rule(link1, callback=‘parse_item‘, follow=True), # callback指定解析方式 ) def parse_item(self, response): print(response) # response對應的是對拿到的每一個鏈接發請求拿到的響應對象
18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解