scrapy-redis下載及專案講解

阿新 • • 發佈：2019-02-06

首先，如果沒有下載git，執行後續命令時，可能會報錯。

安裝很簡單，一直進行下一步即可（個別選項依照個人需求更改）

空白處滑鼠右擊，點選 Git Bash Here 出現視窗，輸入命令：git --version 即可檢視當前下載的git版本（效果如下）

接下來就來下載 scrapy-redis專案

在桌面新建資料夾（名字自定義），然後開啟cmd終端，cd到剛才新建的資料夾路徑，輸入命令：git clone + 複製專案的下載路徑，回車執行完畢後，專案就下載好了，檔案中顯示內容大致如下：

將資料夾拖入到PyChrom中，點選example下，進入到settings 裡面，確保下方程式碼處於解註釋狀態

，

# 使用scrapy_redis的去重類  不使用scrapy預設的去重類
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy_redis的排程器，不使用scrapy預設的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 控制爬蟲是否允許暫停
SCHEDULER_PERSIST = True


ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    # 使用redis資料庫所要新增的管道，如果使用redis資料庫 必須新增
    'scrapy_redis.pipelines.RedisPipeline': 400,、

#這兩句程式碼可寫可不寫，如若不寫，預設為本機ip
REDIS_HOST = '127.0.0.1'  # redis資料庫的ip
# 埠為數字
REDIS_PORT = 6379

接下來就自帶的三個爬蟲小程式進行實操講解：

（1）dmoz專案（此處為單機爬蟲）

由於 dmoz.com已經於去年停止使用，所以這裡就改爬紅袖小說的小說名字......

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class DmozSpider(CrawlSpider):
    """Follow categories and extract links."""
    name = 'dmoz'
    allowed_domains = ['hongxiu.com']
    start_urls = ['https://www.hongxiu.com/finish']
    # 規則
    rules = [
        # 獲取網頁的指定內容 然後進入到指定方法裡面
        Rule(LinkExtractor(
            restrict_css=('.book-info')
            # follow 設定是否繼續執行後面的內容
            # 如果有回撥函式，則預設為False 否則為True
        ), callback='parse_directory', follow=True),
    ]

    def parse_directory(self, response):
        # for div in response.css('.title-and-desc'):
        #     yield {
        #         'name': div.css('.site-title::text').extract_first(),
        #         'description': div.css('.site-descr::text').extract_first().strip(),
        #         'link': div.css('a::attr(href)').extract_first(),
        #     }
        print('----------------')
        print(response.url)

在執行命令之前，先在終端開啟redis資料庫（命令：redis-server redis.windows.conf）,之後再開啟一個cmd終端視窗，cd到當前需執行的資料夾路徑下，然後輸入命令：scrapy crawl dmoz 即可。

（2.）mycrawler_redis專案（分散式爬蟲）

注意：網頁連結依然引用紅袖連結

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor

from scrapy_redis.spiders import RedisCrawlSpider


class MyCrawler(RedisCrawlSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'mycrawler_redis'
    # allowde_domains = ['biadu.com']

    redis_key = 'mycrawler:start_urls'  # 類名 : start_urls  推薦寫法；標準寫法
    # start_urls = ['']

    rules = (
        # follow all links
        Rule(LinkExtractor(), callback='parse_page', follow=True),
        # Rule(LinkExtractor(), callback='detali')
    )
    # 初始化方法
    # def __init__(self, *args, **kwargs):
    #     #   動態的    定義   allowde允許 domains域名 list列表
    #     # Dynamically define the allowed domains list.
    #     # 此處動態定義域名列表
    #     domain = kwargs.pop('domain', '')
    #     # self.allowed_domains = filter(None, domain.split(','))
    #     # super 後面寫自己的類名
    #     super(MyCrawler, self).__init__(*args, **kwargs)

    def parse_page(self, response):
        # return {
        #     'name': response.css('title::text').extract_first(),
        #     'url': response.url,
        # }
        print('============================')
        print(response.url)

開啟cmd終端，輸入命令：scrapy crawl mycrawler_redis ，執行後，會到下圖位置停止：

這裡先不要關閉或者停止執行，另外開啟一個cmd終端，輸入命令：redis-cli，效果如下：

接著再次輸入命令：lpush key值（redis-key值） value值（爬取的網頁連結） 回車，上一個終端命令即可繼續執行（因為在等待請求網頁連結）

開啟redis資料庫資料庫檢視：

第三個小專案跟第二個專案類似，這裡就跳過了。

scrapy-redis下載及專案講解

首先，如果沒有下載git，執行後續命令時，可能會報錯。安裝很簡單，一直進行下一步即可（個別選項依照個人需求更改）空白處滑鼠右擊，點選 Git Bash Here 出現視窗，輸入命令：git --version 即可檢視當前下載的git版本（效果如下）接

scrapy簡單入門及例項講解（一）

初識Scrapy Scrapy是一個用於Web網站抓取的應用框架，輸出的結構化資料可以廣泛用於各類程式，比如：資料探勘、資料處理、資料存檔等儘管Scrapy是為Web抓取設計的，但也可以用於從API中提取資料通過一個例項認識spider 為了快速認識S

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Scrapy簡單入門及例項講解

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associa

Scrapy簡單入門及例項講解與安裝

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associate

redis 之 redis簡介及下載安裝

移動持久化文檔 acl inf zxvf osql .cn ted 1. 數據庫的分類：關系型數據庫，非關系型數據庫（Nosql） 2.非關系型數據庫：鍵值型數據庫：redis 等。列式存儲數據庫： hbase 等。文檔型數據庫： mongoDB 等。圖形數

Scrapy簡單入門及實例講解

頁面 scheduler r12 images ide api 系列允許初始原文地址：https://www.cnblogs.com/kongzhagen/p/6549053.html github地址：https://github.com/zhu-xb/scrapy

Scrapy學習(二)、安裝及專案結構

一、安裝 1、安裝pywin32,下載地址：https://sourceforge.net/projects/pywin32/files/pywin32/ 我選擇的是Build 221,點進去，根據自己電腦的python版本下載對應的版本下載下來後，直接執行exe檔案，無腦下一步，直至安裝完成

潭州課堂25班：Ph201805201 爬蟲高階第十二課 Scrapy-redis分佈專案實戰 (課堂筆記)

建代理池， 1，獲取多個網站的免費代理IP， 2，對免費代理進行檢測，》》》》》攜帶IP進行請求， 3，檢測到的可用IP進行儲存， 4，實現api介面，方便呼叫， 5，各個元件的除錯，西剌代理： http://www.xicidaili.com/nn/ 66

python下使用scrapy-redis模組分散式爬蟲的爬蟲專案部署詳細教程————————gerapy

1.使用gerapy進行分散式爬蟲管理準備工作：首先將你使用scrapy-redis寫的分散式爬蟲全部完善模組準備：安裝： pip install pymongo【依賴模組】 pip install gerapy 2.在本地建立部署專案的資料夾

win10下redis安裝及配置及相關坑的講解

首先redis安裝配置網上一搜一堆。這裡建議大家下載3.2的相關版本，不建議下載最新的4.0 考慮的是穩定性的問題。那麼具體下載那些呢？分為兩種情況，取決於你是否需要將redis當成預設服務啟動。我這裡著重於講解當做預設服務啟動。一。下載安裝包，預設為服務啟動的情況。 gitHub下載

ExtJs初探（一）- 下載及配置入專案（eclipse+Springboot+maven）

剛剛開始接觸ExtJs的小白，首先先摸一下“敵人” 的底，然後是下載，最後把其配置入你的專案中，本文使用的是ext-6.6.0-trial，下載地址：https://www.sencha.com/products/extjs/evaluate/ 一、什麼是ExtJs ExtJs是用Jav

高通MSM8974晶片技術分享及專案資料下載

高通MSM8974晶片技術分享及專案資料下載 MSM8974（LTE)是高通2013年推出的Snapdragon 800系列產品。今天分享高通MSM8974的晶片資料，不知道還有沒有在找這個晶片資料的朋友，其資料關於開發資料，資料表、原理圖和晶片專案案例都打包放到闖客網技術論壇了，有興趣的小夥伴自己去下載吧

高通MSM8937晶片技術分享及專案資料下載

高通MSM8937晶片技術分享及專案資料下載這個是個牛逼的的文件資料，因為它關於MSM8937的開發資料都很齊全，在某次開發中需要MSM8937晶片的資料，所以特意去找了一下，現在專案完成了，也把它整理了出來了，希望能幫到更多的人，開發出MSM8937晶片更強大的功能，資料整理放在闖客網技術論壇了，有興趣

【個人專案】基於scrapy-redis的股票分散式爬蟲實現及其股票預測演算法研究

前言都說做計算機的，專案實踐是最能帶給人成長的。之前學習了很多的大資料和AI的知識，但是從來沒有自己做過一個既包含大資料又包含AI的專案。後來就決定做了個大資料+AI的分散式爬蟲系統。下面筆者會講述整個專案的架構，以及所用到技術點的些許介紹。專案介紹這個專

redis問題及常見配置講解

本文使用的是spring-data-redis 首先說下redis最簡單得使用，除去配置。需要在你要使用得快取得地方，例如mybatis在mapper.xml中加入： <cache eviction="LRU" type="cn.jbit.cache.RedisCache"/&g

Redis安裝(CentOs版本),及專案引用

Redis快取技術,無需多說,如果想了解是什麼等基本資訊,自行百度.下面直接開始如何安裝: 第一步: 先在redis中將接下來需要依賴的包進行安裝(主要是為了安裝gcc,其他的主要都是他的一些依賴): 因為redis是C語言編寫的,所以Linux系統中需要安裝gcc進行編譯

git的專案下載及匯入到eclipse中

公司用了git的遠端程式碼倉庫，因為java專案組是新開的，所以大家都是新研究git。今天把從coding中的git專案下載到本地與匯入eclipse的過程記錄起來。第一步：建立一個新建資料夾，名字最好與自己的分支名一樣第二步：克隆檔案 1.進入資料夾裡面，利用

STL原始碼學習總結及專案下載地址

從開始看STL原始碼到今天差不多有一個月的時間了，在這研讀STL原始碼過程中確實學習到了很多，深深被大師們的設計思想所打動。其中使用迭代器的思想是其STL的最大的亮點，通過泛型程式設計，是得所有的容器對外都提供統一的訪問介面，而遮蔽掉了各個容器底層實現的細節

【圖文講解】TomCat伺服器環境配置及專案部署

二、配置JDK環境變數（在步驟檢視如何配置環境變數） 1，新建變數名：JAVA_HOME，變數值：C:\Program Files\Java\jdk1.7.0 2，開啟PATH，新增變數值：%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin 3，新建變數名：CLASSPATH，變

scrapy-redis下載及專案講解

（1）dmoz專案（此處為單機爬蟲）

（2.）mycrawler_redis專案（分散式爬蟲）

相關推薦