Scrapy研究探索（六）——自動爬取網頁之II（CrawlSpider）

阿新 • • 發佈：2019-02-10

一.目的。

在pipelines.py中實現獲得資料的過濾以及儲存。

但是以上述方法只能爬取start_url列表中的網頁，而網路爬蟲如google等搜尋引擎爬蟲實現的就是對整個網際網路的爬取，所以在本教程中研究使用scrapy自動實現多網頁爬取功能。

二.熱身。

1.CrawlSpider

（1）概念與作用：

它是Spider的派生類，首先在說下Spider，它是所有爬蟲的基類，對於它的設計原則是隻爬取start_url列表中的網頁，而從爬取的網頁中獲取link並繼續爬取的工作CrawlSpider類更適合。

（2）使用：

它與Spider類的最大不同是多了一個rules引數，其作用是定義提取動作。在

rules中包含一個或多個Rule物件，Rule類與CrawlSpider類都位於scrapy.contrib.spiders模組中。

class scrapy.contrib.spiders.Rule (
link_extractor, callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None )

`其中：`

link_extractor為LinkExtractor，用於定義需要提取的連結。

callback引數：當link_extractor獲取到連結時引數所指定的值作為回撥函式。

`callback引數使用注意：`

當編寫爬蟲規則時，請避免使用parse作為回撥函式。於使用parse方法來實現其邏輯，如果您覆蓋了parse方法，crawlspider將會執行失敗。

follow：指定了根據該規則從response提取的連結是否需要跟進。當callback為None,預設值為true。

process_links：主要用來過濾由link_extractor獲取到的連結。

process_request：主要用來過濾在rule中提取到的request。

2.LinkExtractor

（1）概念：

顧名思義，連結提取器。

（2）作用：

response物件中獲取連結，並且該連結會被接下來爬取。

（3）使用：

通過SmglLinkExtractor提取希望獲取的連結。

classscrapy.contrib.linkextractors.sgml.SgmlLinkExtractor(
allow=(),deny=(),allow_domains=(),deny_domains=(),deny_extensions=None,restrict_xpaths=(),tags=('a','area'),attrs=('href'),canonicalize=True,unique=True,process_value=None)

主要引數：

allow：滿足括號中“正則表示式”的值會被提取，如果為空，則全部匹配。

deny：與這個正則表示式(或正則表示式列表)不匹配的URL一定不提取。

allow_domains：會被提取的連結的domains。

deny_domains：一定不會被提取連結的domains。

restrict_xpaths：使用xpath表示式，和allow共同作用過濾連結。

三.RUN!

shell中驗證

開始編寫程式碼之前，使用scrapyshell檢視使用SmglLinkExtractor在網頁中獲取到的連結：
```
scrapy shell http://blog.csdn.net/u012150179/article/details/11749017
```
繼續import相關模組：
```
fromscrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
```
現在使用SgmlLinkExtractor檢視在當前網頁中獲得的連結：
```
item=SgmlLinkExtractor(allow=('/u012150179/article/details')).extract_links(response)
```
其中item為包含Link()物件的列表，現在顯示其中的text元素（就是獲取到的文章連結對應的文章標題）：
```
for i in item:
    print i.text
```
部分結果截圖：

對照網頁可以得到此時獲取的是當前網頁中所有滿足allow條件的連結，不僅包含“下一篇”的連結，還有網頁側邊欄“閱讀排行“、”評論排行“中的文章連結。為了只獲得”下一篇“文章連結，這就要進行所有連結的篩選，引入引數restrict_xpaths，繼續：
```
item= SgmlLinkExtractor(allow=('/u012150179/article/details'),restrict_xpaths=('//li[@class="next_article"]')).extract_links(response)
```
這是在如上檢視結果，便提取出了“下一篇”文章連結。
注意：在shell中並不對提取到的link進行跟進。

在這裡不得不提的就是scrapy shell是對除錯、驗證很有用的互動工具。應該掌握。

在shell中進行了驗證後進入寫程式碼階段。

編寫程式碼

（1）items.py和pipelines.py以及settings.py與之前教程類似，不詳細描述。

（2）爬蟲編寫。

上碼：

# -*- coding:utf-8 -*-

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from CSDNBlogCrawlSpider.items import CsdnblogcrawlspiderItem


class CSDNBlogCrawlSpider(CrawlSpider):

    """繼承自CrawlSpider，實現自動爬取的爬蟲。"""

    name = "CSDNBlogCrawlSpider"
    #設定下載延時
    download_delay = 2
    allowed_domains = ['blog.csdn.net']
    #第一篇文章地址
    start_urls = ['http://blog.csdn.net/u012150179/article/details/11749017']

    #rules編寫法一，官方文件方式
    #rules = [
    #    #提取“下一篇”的連結並**跟進**,若不使用restrict_xpaths引數限制，會將頁面中所有
    #    #符合allow連結全部抓取
    #    Rule(SgmlLinkExtractor(allow=('/u012150179/article/details'),
    #                          restrict_xpaths=('//li[@class="next_article"]')),
    #         follow=True)
    #
    #    #提取“下一篇”連結並執行**處理**
    #    #Rule(SgmlLinkExtractor(allow=('/u012150179/article/details')),
    #    #     callback='parse_item',
    #    #     follow=False),
    #]

    #rules編寫法二，更推薦的方式（自己測驗，使用法一時經常出現爬到中間就finish情況，並且無錯誤碼）
    rules = [
        Rule(SgmlLinkExtractor(allow=('/u012150179/article/details'),
                              restrict_xpaths=('//li[@class="next_article"]')),
             callback='parse_item',
             follow=True)
    ]

    def parse_item(self, response):

        #print "parse_item>>>>>>"
        item = CsdnblogcrawlspiderItem()
        sel = Selector(response)
        blog_url = str(response.url)
        blog_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract()

        item['blog_name'] = [n.encode('utf-8') for n in blog_name]
        item['blog_url'] = blog_url.encode('utf-8')

        yield item

執行：

scrapy crawl CSDNBlogCrawlSpider

得到的效果如教程（五）一致。

其中指出和教程（五）所編寫爬蟲方法的差異：

首先，基類CrawlSpider提供了更完善的自動多網頁爬取機制，只需要我們配置的就是rules，通過Rule物件實現連結的提取與跟進，恩，對，沒了。。。就這樣。詳細的註釋也都在程式中。

進行到這裡，就將本篇文章主題講述完畢，核心是CrawlSpider，主要方法是rules。

關於scrapy的使用可參見之前文章：

Scrapy研究探索（六）——自動爬取網頁之II（CrawlSpider）

一.目的。在pipelines.py中實現獲得資料的過濾以及儲存。但是以上述方法只能爬取start_url列表中的網頁，而網路爬蟲如google等搜尋引擎爬蟲實現的就是對整個網際網路的爬取，所以在本教程中研究使用scrapy自動實現多網頁爬取功能。二.熱身。

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

爬蟲（進階），爬取網頁資訊並寫入json檔案

import requests # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re import json from bs4 import BeautifulSoup import copy print('正在爬取網頁連結……'

爬蟲-----selenium模塊自動爬取網頁資源

pri 輸入文字豆瓣移動相關 append 字符 scrollto value selenium介紹與使用 1 selenium介紹　　什麽是selenium？selenium是Python的一個第三方庫，對外提供的接口可以操作瀏覽器，然後讓瀏覽器完成自動化的操

scrapy研究探索（二）——爬w3school.com.cn

下午被一個問題困擾了好一陣，最終使用另一種方式解決。在開始之前假設你已經成功安裝一切所需，整懷著一腔熱血想要抓取某網站。一起來have a try。 1．前期基礎準備。 Oh,不能在準備了，直接來。（1）建立專案。輸入： scapy startproject

Scrapy研究探索（三）——Scrapy核心架構與代碼執行分析

動作 rap sdn rep edi 而後 spi download 其它學習曲線總是這樣，簡單樣例“淺嘗”。在從理論+實踐慢慢攻破。理論永遠是基礎，切記“勿在浮

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

知乎爬蟲（scrapy預設配置下單機1小時可爬取60多萬條資料）

前言：學了爬蟲差不多快一年了，然而由於專案原因，這還是第一次發爬蟲的部落格，在學習的過程中，受益最大的就是看了九茶的微博爬蟲吧，所以在這裡特別鳴謝。他的程式碼裡涉及了很多：自動化技術、模擬登入、分散式、redis、mongodb等都有涉及，而且還講了程式碼的

Scrapy爬取前程無憂（51job）相關職位資訊

Scrapy爬取前程無憂（51job）python職位資訊開始是想做資料分析的，上網上找教程，看到相關部落格我就跟著做，但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議，我爬的時候Scrapy訪問量開到128，relay僅有兩秒，還以為會封ip。沒想到只是改請求頭就

前程無憂爬蟲實戰（通過輸入關鍵字爬取任意職位並自動儲存為.csv文字）

![0e644a1fa9dc00c3e7c752bdf4382aa2.jpg](https://upload-images.jianshu.io/upload_images/9136378-72ab92577ff68f7d.jpg?imageMogr2/auto-orient/strip%7Ci

拉勾爬蟲實戰（通過輸入關鍵字爬取任意職位並自動儲存為.csv文字）

![178bc26d6a28e9f177010e9150d849f2.jpg](https://upload-images.jianshu.io/upload_images/9136378-068a8b1de5a0204f.jpg?imageMogr2/auto-orient/

Scrapy-Splash爬取淘寶排行榜（三）

五寫spider 1.知道了要爬取的內容，所以，我們首先在start_urls中設定如下： start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850'

python scrapy爬取全部豆瓣電影（可能是54萬資料）

（一）爬取環境 win10 python3 scrapy （二）豆瓣電影參考標準主要參考來自神箭手的雲市場（三）爬取步驟主要爬取的欄位有：標題，得分，

python自動投票原始碼（自動爬取更換ip）

import re import random import sys import time import datetime import threading from random import choice import requests import bs4 def

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

Scrapy研究探索（六）——自動爬取網頁之II（CrawlSpider）

一.目的。

二.熱身。

1.CrawlSpider

（1）概念與作用：

（2）使用：

其中：

callback引數使用注意：

2.LinkExtractor

（1）概念：

（2） 作用：

（3） 使用：

三.RUN!

shell中驗證

編寫程式碼

（1）items.py和pipelines.py以及settings.py與之前教程類似，不詳細描述。

（2）爬蟲編寫。

其中指出和教程（五）所編寫爬蟲方法的差異：

相關推薦

`其中：`

`callback引數使用注意：`

（2）作用：

（3）使用：