scrapy基礎知識之 RedisCrawlSpider：

阿新 • • 發佈：2017-06-09

span 準備動態 none efi pytho sel ext import

這個RedisCrawlSpider類爬蟲繼承了RedisCrawlSpider，能夠支持分布式的抓取。因為采用的是crawlSpider，所以需要遵守Rule規則，以及callback不能寫parse()方法。

同樣也不再有start_urls了，取而代之的是redis_key，scrapy-redis將key從Redis裏pop出來，成為請求的url地址。

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor

from scrapy_redis.spiders import RedisCrawlSpider


class MyCrawler(RedisCrawlSpider):
  
    name = ‘mycrawler_redis‘
    redis_key = ‘mycrawler:start_urls‘

    rules = (
        # follow all links
        Rule(LinkExtractor(), callback=‘parse_page‘, follow=True),
    )

    # __init__方法必須按規定寫，使用時只需要修改super()裏的類名參數即可
    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop(‘domain‘, ‘‘)
        self.allowed_domains = filter(None, domain.split(‘,‘))

        # 修改這裏的類名為當前類名
        super(MyCrawler, self).__init__(*args, **kwargs)

    def parse_page(self, response):
        return {
            ‘name‘: response.css(‘title::text‘).extract_first(),
            ‘url‘: response.url,
        }

註意：

同樣的，RedisCrawlSpider類不需要寫allowd_domains和start_urls：

scrapy-redis將從在構造方法__init__()裏動態定義爬蟲爬取域範圍，也可以選擇直接寫allowd_domains。
必須指定redis_key，即啟動爬蟲的命令，參考格式：redis_key = ‘myspider:start_urls‘
根據指定的格式，start_urls將在 Master端的 redis-cli 裏 lpush 到 Redis數據庫裏，RedisSpider 將在數據庫裏獲取start_urls。

執行方式：

通過runspider方法執行爬蟲的py文件（也可以分次執行多條），爬蟲（們）將處於等待準備狀態：

scrapy runspider mycrawler_redis.py
在Master端的redis-cli輸入push指令，參考格式：

$redis > lpush mycrawler:start_urls http://www.dmoz.org/
爬蟲獲取url，開始執行。

scrapy基礎知識之 RedisCrawlSpider：

span 準備動態 none efi pytho sel ext import 這個RedisCrawlSpider類爬蟲繼承了RedisCrawlSpider，能夠支持分布式的抓取。因為采用的是crawlSpider，所以需要遵守Rule規則，以及callback不能寫

scrapy基礎知識之使用FormRequest.from_response()方法模擬用戶登錄：

imp gin req params level spa 密碼重寫 start 通常網站通過實現對某些表單字段（如數據或是登錄界面中的認證令牌等）的預填充使用Scrapy抓取網頁時，如果想要預填充或重寫像用戶名、用戶密碼這些表單字段，可以使用 FormRequest

scrapy基礎知識之 pycharm 調試小技巧：

.py 小技巧 char line awl spi cmd 調試基礎知識在項目根目錄下新建main.py文件,用於調試 from scrapy.cmdline import executeexecute(["scrapy","crawl","MySpider"])scr

scrapy基礎知識之 Scrapy-Redis分布式策略：

空間 spider head spi 指紋負責 edi all redis Scrapy-Redis分布式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slave

scrapy基礎知識之關於爬蟲部分一些建議：

限制支持結束攜程 target 經理框架實際應用分享 1.盡量減少請求次數，能抓列表頁就不抓詳情頁，減輕服務器壓力，程序員都是混口飯吃不容易。 2.不要只看 Web 網站，還有手機 App 和 H5，這樣的反爬蟲措施一般比較少。 3.實際應用時候，一般防守方做到

scrapy基礎知識之傳送POST請求

可以使用 yield scrapy.FormRequest(url, formdata, callback)方法傳送POST請求。如果希望程式執行一開始就傳送POST請求，可以重寫Spider類的start_requests(self) 方法，並且不再呼叫start_url

Java Web基礎知識之Filter：過濾一切你不想看到的事情

不要相信客戶端，所以做後端的人都應該銘記的事情。因為前端傳過來的資料並不總是合法和有效的，所以後端是對訪問資源的最後一道保護傘。之前我們在Spring中說到過AOP程式設計，AOP基礎知識，它就可以在執行我們的方法之前進行一些預處理和驗證來保護後端的資源。不難想到她的實現

Java Web基礎知識之安全：人生苦短，注意安全

關於web程式中的安全方面，想必大多數人都不甚瞭解，或者說感覺沒有必要了解，身邊開發網站的人主要就是注重後臺的功能和前臺的介面，不要說程式的安全問題，甚至後臺資料庫訪問的問題可能都沒有下大力氣解決。但是這又是和我們密切相關的一個問題，每天看到網站哪個系統或者網站又出現安全問

python基礎知識之將item寫入JSON文件：

ext self 它的基礎 string 寫入 lan raw pre pipelines.py import json class xxPipeline(object): def __init__(self): self.filename=ope

Python基礎知識之：hello world，註釋，變量，數據類型

我們重要一個 yield code oba () turn 編程語言　　從接觸編程語言以來，在我腦海裏經常有三個問號：這是什麽？這個有什麽用？這個怎麽用？　　我覺得初學一個東西，把這三個問號都搞明白，那麽剩下的就是孰能生巧的過程了，在接下來的博客中，每個知

第一節，基礎知識之第一步：代數

utf-8 int32 數值 tor out 跳過數據如何 python函數先聲明：theano模塊的內容大都是參考來源於網上，並親手實踐復現一遍，也有部分內容是自己補充本文會列出所參考文章，如有版權問題，請聯系我，我會及時刪除 # -*- coding: utf

Java Web基礎知識之Servlet（3）：Session管理

Session 管理是Web應用開發中的一個重要的內容，其實每天我們瀏覽網站，網站的後臺都是通過這門技術來記錄我們的瀏覽狀態，最典型的就是登入，每次你在網站上登入一次，當跳轉到該網站的任何其他頁面都不會再次要求你登入，這就是使用了Session管理技術。那麼問題來了我們為什

Java Web基礎知識之檔案下載：當你下載檔案的時候到底發生了什麼？

從網上下載檔案幾乎是每個人都會遇到的，不管是圖片、文字檔案還是一些視訊，但是我們真的知道在下載的過程中發生了什麼嗎？本文章就學習一下其中的原理。關於檔案下載存在靜態下載和動態下載兩種，靜態下載是比較容易的，我們平常在網上對很多圖片和和視訊等的下載有很多其實就是靜態下載，那

Java Web基礎知識之檔案上傳：檔案上傳一窺究竟

其實檔案上傳的文章已經寫得很多了，但是好多文章都是都是說明了怎麼實現，沒有說這個過程到底發生了什麼（會不會引來仇恨。。），其實實現檔案上傳並不複雜，也沒有多少程式碼，但是要是清楚的明白其中的原理還是費點功夫的，這裡就還原檔案上傳的整個過程。其實關於檔案上傳在最早之前是使用

Vue：Vue基礎知識之利用v-if、v-else語句控制頁面文字內容的改變

1、v-if、v-else判斷語句例項 v-if='isLogin' //類似 if else v-else v-if:是vue 的一個內部指令，指令用在我們的html中。 v-if用來

Objective-C 基礎知識之（八）：NSSet

集合 1、集合和陣列、字典類似，都只能儲存不同型別的物件。集合中的物件具有唯一性，即同一物件在集合中儲存N次，集合只讀取一次物件，可通過NSCountedSet中的方法countForObject:獲取同一物件儲存的個數。陣列可以儲存多次同一物件。字典可以儲存多次同

算法基礎知識之樹、二叉樹,

pan rect nbsp 結構 src class wiki 子節點資料一、樹把它叫做“樹”是因為它看起來像一棵倒掛的樹，也就是說它是根朝上，而葉朝下的。在計算機科學中，樹（英語：tree）是一種抽象數據類型（ADT）或是實作這種

算法基礎知識之樹、二叉樹

image inline cstyle width var mar span mes med 一、樹把它叫做“樹”是因為它看起來像一棵倒掛的樹，也就是說它是根朝上，而葉朝下的。在計算機科學中，樹（英語：tree）是一種抽象數據類型（AD

django基礎知識之模板:

編譯處理加載 res 對象應用基礎知識 render ont 模板介紹作為Web框架，Django提供了模板，可以很便利的動態生成HTML 模版系統致力於表達外觀，而不是程序邏輯模板的設計實現了業務邏輯(view)與顯示內容（template）的分離，一個

django基礎知識之QueryDict對象:

get() 基礎列表都是 pos 類型獲取 clas 如果 QueryDict對象定義在django.http.QueryDict request對象的屬性GET、POST都是QueryDict類型的對象與python字典不同，QueryDict類型的對象用

scrapy基礎知識之 RedisCrawlSpider：

註意：

執行方式：

`scrapy runspider mycrawler_redis.py`

`$redis > lpush mycrawler:start_urls http://www.dmoz.org/`

scrapy基礎知識之 RedisCrawlSpider：

scrapy基礎知識之使用FormRequest.from_response()方法模擬用戶登錄：

scrapy基礎知識之 pycharm 調試小技巧：

scrapy基礎知識之 Scrapy-Redis分布式策略：

scrapy基礎知識之關於爬蟲部分一些建議：

scrapy基礎知識之傳送POST請求

Java Web基礎知識之Filter：過濾一切你不想看到的事情

Java Web基礎知識之安全：人生苦短，注意安全

python基礎知識之將item寫入JSON文件：

Python基礎知識之：hello world，註釋，變量，數據類型

第一節，基礎知識之第一步：代數

Java Web基礎知識之Servlet（3）：Session管理

Java Web基礎知識之檔案下載：當你下載檔案的時候到底發生了什麼？

Java Web基礎知識之檔案上傳：檔案上傳一窺究竟

Vue：Vue基礎知識之利用v-if、v-else語句控制頁面文字內容的改變

Objective-C 基礎知識之（八）：NSSet

算法基礎知識之樹、二叉樹,

算法基礎知識之樹、二叉樹

django基礎知識之模板:

django基礎知識之QueryDict對象:

scrapy基礎知識之 RedisCrawlSpider：

註意：

執行方式：

scrapy runspider mycrawler_redis.py

$redis > lpush mycrawler:start_urls http://www.dmoz.org/

相關推薦

`scrapy runspider mycrawler_redis.py`

`$redis > lpush mycrawler:start_urls http://www.dmoz.org/`