三十三、scrapy的crawlspider爬蟲

阿新 • • 發佈：2018-12-27

1.crawlspider是什麼

回顧之前的程式碼中，我們有很大一部分時間在尋找下一頁的url地址或者是內容的url地址上面，這個過程能更簡單一些麼？

思路：

從response中提取所有的滿足規則的url地址
自動的構造自己requests請求，傳送給引擎

對應的crawlspider就可以實現上述需求，能夠匹配滿足條件的url地址，組裝成Reuqest物件後自動傳送給引擎，同時能夠指定callback函式，即：crawlspider爬蟲可以按照規則自動獲取連線
crawlspider的作用：crawlspider可以按照規則自動獲取連線

2.建立crawlspider爬蟲並觀察爬蟲內的預設內容

2.1 建立crawlspider爬蟲：

scrapy genspider -t crawl tencent xxx

2.2 spider中預設生成的內容如下：

class TencentSpider(CrawlSpider):
    name = 'itcast1'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['http://hr.tencent.com']

    rules = (
        Rule(LinkExtractor( 
allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract() 

        return i

2.3 觀察跟普通的scrapy.spider的區別

在crawlspider爬蟲中，沒有parse函式

重點在rules中：

rules是一個元組或者是列表，包含的是Rule物件
Rule表示規則，其中包含LinkExtractor,callback和follow等引數
LinkExtractor:連線提取器，可以通過正則或者是xpath來進行url地址的匹配
callback :表示經過連線提取器提取出來的url地址響應的回撥函式，可以沒有，沒有表示響應不會進行回撥函式的處理
follow：連線提取器提取的url地址對應的響應是否還會繼續被rules中的規則進行提取，True表示會，Flase表示不會

3. crawlspider騰訊招聘爬蟲

通過crawlspider爬取騰訊招聘的詳情頁的招聘資訊

url：http://hr.tencent.com/position.php

思路分析：

定義一個規則，來進行列表頁翻頁，follow需要設定為True
定義一個規則，實現從列表頁進入詳情頁，並且指定回撥函式
在詳情頁提取資料

注意：連線提取器LinkExtractor中的allow對應的正則表示式匹配的是href屬性的值

4.crawlspider使用的注意點：

除了用命令scrapy genspider -t crawl <爬蟲名> <allowed_domail>建立一個crawlspider的模板，還可以手動建立
crawlspider中不能再有以parse為名的資料提取方法，該方法被crawlspider用來實現基礎url提取等功能
Rule物件中LinkExtractor為固定引數，其他callback、follow為可選引數
不指定callback且follow為True的情況下，滿足rules中規則的url還會被繼續提取和請求
如果一個被提取的url滿足多個Rule，那麼會從rules中選擇一個滿足匹配條件的Rule執行

5 瞭解crawlspider其他知識點

（1）連結提取器LinkExtractor的更多常見引數

allow: 滿足括號中的’re’表示式的url會被提取，如果為空，則全部匹配
deny: 滿足括號中的’re’表示式的url不會被提取，優先順序高於allow
allow_domains: 會被提取的連結的domains(url範圍)，如：[‘hr.tencent.com’, ‘baidu.com’]
deny_domains: 不會被提取的連結的domains(url範圍)
restrict_xpaths: 使用xpath規則進行匹配，和allow共同過濾url，即xpath滿足的範圍內的url地址會被提取，如：restrict_xpaths=’//div[@class=“pagenav”]’

（2）Rule常見引數

LinkExtractor: 連結提取器，可以通過正則或者是xpath來進行url地址的匹配
callback: 表示經過連線提取器提取出來的url地址響應的回撥函式，可以沒有，沒有表示響應不會進行回撥函式的處理
follow: 連線提取器提取的url地址對應的響應是否還會繼續被rules中的規則進行提取，預設True表示會，Flase表示不會
process_links: 當連結提取器LinkExtractor獲取到連結列表的時候呼叫該引數指定的方法，這個自定義方法可以用來過濾url，且這個方法執行後才會執行callback指定的方法

6 參考程式碼

crawlspider的作用：crawlspider可以按照規則自動獲取連線

Tencent/spiders/tencent.py

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TencentSpider(CrawlSpider):
    name = 'tencent'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['https://hr.tencent.com/position.php']

    rules = (
        # 列表頁
        Rule(LinkExtractor(allow=r'position\.php\?&start=\d+#a'), follow=True),
        # 詳情頁
        Rule(LinkExtractor(allow=r'position_detail\.php\?id=\d+&keywords=&tid=0&lid=0'), callback='parse_item'),
    )

    def parse_item(self, response):
        i = {}
        # 崗位職責資料
        i['job_content'] = response.xpath('//ul[@class="squareli"]/li/text()').extract()
        print(i)
        return i

Tencent/settings.py

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

ROBOTSTXT_OBEY = False

三十三、scrapy的crawlspider爬蟲

1.crawlspider是什麼回顧之前的程式碼中，我們有很大一部分時間在尋找下一頁的url地址或者是內容的url地址上面，這個過程能更簡單一些麼？思路：從response中提取所有的滿足規則的url地址自動的構造自己requests請求，

三十三、iptables規則備份和恢復、firewalld的9個zone、關於zone的操作、

iptables規則備份和恢復 firewalld的9個zone 關於zone的操作關於service的操作三十三、iptables規則備份和恢復、firewalld的9個zone、firewalld關於zone的操作、firewalld關於service的操作一、iptables規則備份

【Android Studio安裝部署系列】三十三、windows系統中通過SourceTree使用git

十三、原生爬蟲實戰

enc pri 實例 vid 唯一標識 ext 聯盟 info 目標一、簡單實例 1、需求：爬取熊貓直播某類主播人氣排行 2、了解網站結構分類——英雄聯盟——"觀看人數" 3、找到有用的信息二、整理爬蟲常規思路 1、使用工具chrome——F12——element—

三十三、python學習之Flask框架(五)模板:WTF表單、CSRF跨站請求偽造、模板特有函式&變數

一、WTF表單: 1.web表單: Web 表單是 Web 應用程式的基本功能。預設開啟CSRF保護功能它是HTML頁面中負責資料採集的部件。表單有三個部分組成：表單標籤、表單域、表單按鈕。表單允許使用者輸入資料，負責HTML頁面資料採集，通過表單將使用者輸入的資料提交給伺服器

三十三、JWT簡介

JSON Web Token（縮寫 JWT）是目前最流行的跨域認證解決方案，本文介紹它的原理和用法。 /div div id="more" class="asset-more" 一、跨域認證的問題網際網路服務離不開使用者認證。一般流程是下面這樣。 1、使用者向伺服

三十三、vue-router配置子路由

三十三、Oracle層次查詢 connect by prior

Oracle層次查詢 connect by prior 1、表格初始化指令碼 https://download.csdn.net/download/

三十三、手機觸屏touch、手勢、重力監聽事件

一、手機觸屏事件 1.常見的觸屏事件： touchstart:觸控開始時候觸發 touchmove：手指在螢幕上滑動的時候觸發 touchend：觸控結束的時候觸發 touchcancel：當一些更高級別的事件發生的時候（如電話接入或者彈出資訊）會取消當前的touch操作，即觸發ontou

《我學區塊鏈》—— 三十三、以太坊開發者資源工具集

三十三、以太坊安全之以太坊開發者資源工具開發語言、框架與工具語言 Solidity - 官方推薦以太坊智慧合約開發語言，也是目前最為主流的智慧合約語言。 Bamboo - 是一種將智慧合約描述為有限狀態機的語言，把智慧合約看成一個狀態和交易的函式，同時

三十三、Linux 程序與訊號——中斷系統呼叫和函式可重入性

33.1 中斷系統呼叫程序呼叫 “慢” 系統呼叫時，如果發生了訊號，核心會重啟系統呼叫。慢系統呼叫可能會永久阻塞的系統呼叫從終端裝置、管道或網路裝置上的檔案讀取向上述檔案寫入某些裝置上的檔案開啟 pause 和 wait 系統呼叫

Linux學習筆記（三十三）iptables備份、firewalld

iptables備份；firewall一、保存和備份iptables規則 service iptables save //會把規則保存到/etc/sysconfig/iptables iptables-save > my.ipt // 把iptables規則備份到my.ipt文件中

javaSE (三十三）其他流（序列流、記憶體輸出流、隨機訪問流、物件操作流、資料輸入輸出流、列印流、標準輸入輸出流、properties）

1、序列流（SequenceInputStream ）：序列流主要的作用就是整合位元組輸入流，將很多的進口整合成一個這裡著重講一下多於兩個輸入流的整合：步驟：建立三個輸入流建立vector集合存入這些輸入流將這些輸入流變成列舉型別 Vector.e

四十三、python學習之Django框架(三):資料庫,資料庫配置,定義模型,shell工具,資料庫操作,查詢集

一、資料庫: 1. ORM框架: object relation mapping: 物件關係對映,在ORM框架中,它幫我們把類和資料表進行了一個對映,可以讓我們通過類和類物件就能夠操作它所對應的表格中的資料.ORM框架還有一個功能,它可以根據我們設計的類自動幫

C++（三十三） — 全局函數、成員函數的區別

返回值參數 pri () font 復制 ++ private 區別區別：（1）全局函數的參數個數，比局部函數要多一個；（2）二者都可，返回元素、返回引用。 class test { public: test(int a, int b) {

Unity 遊戲框架搭建 2019 (三十二、三十三) 類的命名 & 程式碼檔案命名

昨天我們完成了第八個示例的第二個 MenuItem 選單順序的調整。我們今天再往下接著調整。我們來看下接下來的 MenuItem 程式碼如下: [MenuItem("QFramework/8.總結之前的方法/3.生成檔名到剪下板")] private static void MenuClicked

Android筆記三十三.BroadcastReceiver使用

mod 調用 raw ras ive ceo () 廣泛全部廣播是一種廣泛運用在應用程序之間傳輸信息的機制，而BroadcastReceiver是對發送出來的廣播進行過濾接收並響應的一類組件。BroadcastReceiver本質上是一種全局監聽器。用於監聽

【H.264/AVC視頻編解碼技術具體解釋】十三、熵編碼算法（3）：CAVLC原理

統計視頻編解碼高效 png h264 轉化頻率遊程編碼而且《H.264/AVC視頻編解碼技術具體解釋》視頻教程已經在“CSDN學院”上線。視頻中詳述了H.264的背景、標準協議和實現，並通過一個實戰project的形式對H.264的標準進行解

十三、模板設計模式

time nbsp args 功能程序模板設計模式結束時間 pan () /* 模板設計模式：實現一個功能時，功能的一部分是確定的，一部分是不確定的，確定的部分還會用到不確定的部分，那麽就把不確定的部分暴露出去，讓子類去實現實現計算

AGG第三十三課 line_profile_aa 參數分析說明

agg agg::line_profile_aa renderer_outline_aa1 前言 agg::line_profile_aa是agg::renderer_outline_aa渲染線段的屬性設置類，aa就是anti-aliased的意思，具有抗鋸齒功能。2 函數功能說明

三十三、scrapy的crawlspider爬蟲

1.crawlspider是什麼

2.建立crawlspider爬蟲並觀察爬蟲內的預設內容

2.1 建立crawlspider爬蟲：

2.2 spider中預設生成的內容如下：

2.3 觀察跟普通的scrapy.spider的區別

3. crawlspider騰訊招聘爬蟲

4.crawlspider使用的注意點：

5 瞭解crawlspider其他知識點

6 參考程式碼

相關推薦