Scrapy框架的八個擴展

阿新 • • 發佈：2018-12-24

時有好的 oot ssm modified code RoCE exceptio stats

一、proxies代理

首先需要在環境變量中設置

from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware

方式一：使用默認

os.environ
{
     http_proxy:http://root:[email protected]:9999/
     https_proxy:http://192.168.11.11:9999/
}

缺點：原生代理是把代理放在python環境變量裏面，也就是要依賴於python環境變量，要用的時候然後再去變量裏面搜索，一個個分割字符進行匹配，效率低，low。

方式二：使用自定義下載中間件

def to_bytes(text, encoding=None, errors=‘strict‘):
        if isinstance(text, bytes):
            return text
        if not isinstance(text, six.string_types):
            raise TypeError(‘to_bytes must receive a unicode, str or bytes ‘
                            ‘object, got %s 
‘ % type(text).__name__)
        if encoding is None:
            encoding = ‘utf-8‘
        return text.encode(encoding, errors)

class ProxyMiddleware(object):
        def process_request(self, request, spider):
            PROXIES = [
                {‘ip_port‘: ‘111.11.228.75:80‘, ‘user_pass‘: ‘‘ 
},
                {‘ip_port‘: ‘120.198.243.22:80‘, ‘user_pass‘: ‘‘},
                {‘ip_port‘: ‘111.8.60.9:8123‘, ‘user_pass‘: ‘‘},
                {‘ip_port‘: ‘101.71.27.120:80‘, ‘user_pass‘: ‘‘},
                {‘ip_port‘: ‘122.96.59.104:80‘, ‘user_pass‘: ‘‘},
                {‘ip_port‘: ‘122.224.249.122:8088‘, ‘user_pass‘: ‘‘},
            ]
            proxy = random.choice(PROXIES)
            if proxy[‘user_pass‘] is not None:
                request.meta[‘proxy‘] = to_bytes（"http://%s" % proxy[‘ip_port‘]）
                encoded_user_pass = base64.encodestring(to_bytes(proxy[‘user_pass‘]))
                request.headers[‘Proxy-Authorization‘] = to_bytes(‘Basic ‘ + encoded_user_pass)
                print "**************ProxyMiddleware have pass************" + proxy[‘ip_port‘]
            else:
                print "**************ProxyMiddleware no pass************" + proxy[‘ip_port‘]
                request.meta[‘proxy‘] = to_bytes("http://%s" % proxy[‘ip_port‘])
    
DOWNLOADER_MIDDLEWARES = {
    ‘step8_king.middlewares.ProxyMiddleware‘: 500,
}

自定義proxies

二、Https證書

Https訪問時有兩種情況：
1. 要爬取網站使用的可信任證書(默認支持)

 DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory"
 DOWNLOADER_CLIENTCONTEXTFACTORY = "scrapy.core.downloader.contextfactory.ScrapyClientContextFactory"

2. 要爬取網站使用的自定義證書

DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory"
        DOWNLOADER_CLIENTCONTEXTFACTORY = "step8_king.https.MySSLFactory"
        
        # https.py
        from scrapy.core.downloader.contextfactory import ScrapyClientContextFactory
        from twisted.internet.ssl import (optionsForClientTLS, CertificateOptions, PrivateCertificate)
        
        class MySSLFactory(ScrapyClientContextFactory):
            def getCertificateOptions(self):
                from OpenSSL import crypto
                v1 = crypto.load_privatekey(crypto.FILETYPE_PEM, open(‘/Users/wupeiqi/client.key.unsecure‘, mode=‘r‘).read())
                v2 = crypto.load_certificate(crypto.FILETYPE_PEM, open(‘/Users/wupeiqi/client.pem‘, mode=‘r‘).read())
                return CertificateOptions(
                    privateKey=v1,  # pKey對象
                    certificate=v2,  # X509對象
                    verify=False,
                    method=getattr(self, ‘method‘, getattr(self, ‘_ssl_method‘, None))
                )
    其他：
        相關類
            scrapy.core.downloader.handlers.http.HttpDownloadHandler
            scrapy.core.downloader.webclient.ScrapyHTTPClientFactory
            scrapy.core.downloader.contextfactory.ScrapyClientContextFactory
        相關配置
            DOWNLOADER_HTTPCLIENTFACTORY
            DOWNLOADER_CLIENTCONTEXTFACTORY

自定義Https證書

三、緩存

# 目的用於將已經發送的請求或相應緩存下來，以便以後使用
from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware
from scrapy.extensions.httpcache import DummyPolicy
from scrapy.extensions.httpcache import FilesystemCacheStorage

# 是否啟用緩存策略
# HTTPCACHE_ENABLED = True

# 緩存策略：所有請求均緩存，下次在請求直接訪問原來的緩存即可
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.DummyPolicy"
# 緩存策略：根據Http響應頭：Cache-Control、Last-Modified 等進行緩存的策略
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.RFC2616Policy"

# 緩存超時時間
# HTTPCACHE_EXPIRATION_SECS = 0

# 緩存保存路徑
# HTTPCACHE_DIR = ‘httpcache‘

# 緩存忽略的Http狀態碼
# HTTPCACHE_IGNORE_HTTP_CODES = []

# 緩存存儲的插件
# HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage‘

緩存

四、下載中間件

class DownMiddleware1(object):
        def process_request(self, request, spider):
            ‘‘‘
            請求需要被下載時，經過所有下載器中間件的process_request調用
            :param request:
            :param spider:
            :return:
                None,繼續後續中間件去下載；
                Response對象，停止process_request的執行，開始執行process_response
                Request對象，停止中間件的執行，將Request重新調度器
                raise IgnoreRequest異常，停止process_request的執行，開始執行process_exception
            ‘‘‘
            pass
    
    
    
        def process_response(self, request, response, spider):
            ‘‘‘
            spider處理完成，返回時調用
            :param response:
            :param result:
            :param spider:
            :return:
                Response 對象：轉交給其他中間件process_response
                Request 對象：停止中間件，request會被重新調度下載
                raise IgnoreRequest 異常：調用Request.errback
            ‘‘‘
            print(‘response1‘)
            return response
    
        def process_exception(self, request, exception, spider):
            ‘‘‘
            當下載處理器(download handler)或 process_request() (下載中間件)拋出異常
            :param response:
            :param exception:
            :param spider:
            :return:
                None：繼續交給後續中間件處理異常；
                Response對象：停止後續process_exception方法
                Request對象：停止中間件，request將會被重新調用下載
            ‘‘‘
            return None

    
    默認下載中間件
    {
        ‘scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware‘: 100,
        ‘scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware‘: 300,
        ‘scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware‘: 350,
        ‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware‘: 400,
        ‘scrapy.contrib.downloadermiddleware.retry.RetryMiddleware‘: 500,
        ‘scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware‘: 550,
        ‘scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware‘: 580,
        ‘scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware‘: 590,
        ‘scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware‘: 600,
        ‘scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware‘: 700,
        ‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware‘: 750,
        ‘scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware‘: 830,
        ‘scrapy.contrib.downloadermiddleware.stats.DownloaderStats‘: 850,
        ‘scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware‘: 900,
    }

"""
# from scrapy.contrib.downloadermiddleware.httpauth import HttpAuthMiddleware
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
# DOWNLOADER_MIDDLEWARES = {
#    ‘step8_king.middlewares.DownMiddleware1‘: 100,
#    ‘step8_king.middlewares.DownMiddleware2‘: 500,
# }

下載中間件

五、爬蟲中間件

class SpiderMiddleware(object):

        def process_spider_input(self,response, spider):
            ‘‘‘
            下載完成，執行，然後交給parse處理
            :param response: 
            :param spider: 
            :return: 
            ‘‘‘
            pass
    
        def process_spider_output(self,response, result, spider):
            ‘‘‘
            spider處理完成，返回時調用
            :param response:
            :param result:
            :param spider:
            :return: 必須返回包含 Request 或 Item 對象的可叠代對象(iterable)
            ‘‘‘
            return result
    
        def process_spider_exception(self,response, exception, spider):
            ‘‘‘
            異常調用
            :param response:
            :param exception:
            :param spider:
            :return: None,繼續交給後續中間件處理異常；含 Response 或 Item 的可叠代對象(iterable)，交給調度器或pipeline
            ‘‘‘
            return None
    
    
        def process_start_requests(self,start_requests, spider):
            ‘‘‘
            爬蟲啟動時調用
            :param start_requests:
            :param spider:
            :return: 包含 Request 對象的可叠代對象
            ‘‘‘
            return start_requests
    
    內置爬蟲中間件：
        ‘scrapy.contrib.spidermiddleware.httperror.HttpErrorMiddleware‘: 50,
        ‘scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware‘: 500,
        ‘scrapy.contrib.spidermiddleware.referer.RefererMiddleware‘: 700,
        ‘scrapy.contrib.spidermiddleware.urllength.UrlLengthMiddleware‘: 800,
        ‘scrapy.contrib.spidermiddleware.depth.DepthMiddleware‘: 900,

"""
# from scrapy.contrib.spidermiddleware.referer import RefererMiddleware
# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
   # ‘step8_king.middlewares.SpiderMiddleware‘: 543,
}

爬蟲中間件

六、pipelines擴展

from scrapy.exceptions import DropItem

class CustomPipeline(object):
    def __init__(self,v):
        self.value = v

    def process_item(self, item, spider):
        # 操作並進行持久化

        # return表示會被後續的pipeline繼續處理
        return item

        # 表示將item丟棄，不會被後續pipeline處理
        # raise DropItem()


    @classmethod
    def from_crawler(cls, crawler):
        """
        初始化時候，用於創建pipeline對象
        :param crawler: 
        :return: 
        """
        val = crawler.settings.getint(‘MMMM‘)
        return cls(val)

    def open_spider(self,spider):
        """
        爬蟲開始執行時，調用
        :param spider: 
        :return: 
        """
        print(‘000000‘)

    def close_spider(self,spider):
        """
        爬蟲關閉時，被調用
        :param spider: 
        :return: 
        """
        print(‘111111‘)

自定義pipeline

pipelines擴展

七、exception信號量處理

from scrapy import signals


class MyExtension(object):
    def __init__(self, value):
        self.value = value

    @classmethod
    def from_crawler(cls, crawler):
        val = crawler.settings.getint(‘MMMM‘)
        ext = cls(val)

        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

        return ext

    def spider_opened(self, spider):
        print(‘open‘)

    def spider_closed(self, spider):
        print(‘close‘)

extension信號量處理

八、url的去重

class RepeatUrl:
    def __init__(self):
        self.visited_url = set()

    @classmethod
    def from_settings(cls, settings):
        """
        初始化時，調用
        :param settings: 
        :return: 
        """
        return cls()

    def request_seen(self, request):
        """
        檢測當前請求是否已經被訪問過
        :param request: 
        :return: True表示已經訪問過；False表示未訪問過
        """
        if request.url in self.visited_url:
            return True
        self.visited_url.add(request.url)
        return False

    def open(self):
        """
        開始爬去請求時，調用
        :return: 
        """
        print(‘open replication‘)

    def close(self, reason):
        """
        結束爬蟲爬取時，調用
        :param reason: 
        :return: 
        """
        print(‘close replication‘)

    def log(self, request, spider):
        """
        記錄日誌
        :param request: 
        :param spider: 
        :return: 
        """
        print(‘repeat‘, request.url)

自定義URL去重操作

url去重

小擴展，關於Scrapy默認的URL去重，只是簡單的把URL加到集合set()裏面，此外還有另一種更好的去重方法，是Scrapy_Redis中使用的，具體步驟為：

- 使用sha1加密request得到指紋
- 把指紋存在redis的集合中
- 下一次新來一個request，同樣的方式生成指紋，判斷指紋是否存在reids的集合中

實現的代碼

fp = hashlib.sha1()
fp.update(to_bytes(request.method))  #請求方法
fp.update(to_bytes(canonicalize_url(request.url))) #url
fp.update(request.body or b‘‘)  #請求體
return fp.hexdigest()

added = self.server.sadd(self.key, fp)
return added != 0

Scrapy框架的八個擴展

時有好的 oot ssm modified code RoCE exceptio stats 一、proxies代理首先需要在環境變量中設置 from scrapy.contrib.downloadermiddleware.httpproxy import HttpP

基於輕量級ORM框架Dapper的擴展說明

sca mapper server proxy mage alt .exe () 數據庫這裏簡單的介紹一下本人基於Dapper作的一些簡單的擴展，供大家參考。為何要使用這款框架，相信大家看到下面排名就清楚了其實在各大網站上，我們大概都會看到這樣的一個對比效果圖

CI框架源代碼閱讀筆記6 擴展鉤子 Hook.php

cti enable blog have 子列 rmi 是否 lap tool CI框架同意你在不改動系統核心代碼的基礎上加入或者更改系統的核心功能（如重寫緩存、輸出等）。比如，在系統開啟hook的條件下（config.php中$config[‘enable_hooks

高性能可擴展的python自動化運維框架

互聯網計算機語言遇到瓶頸：1、一直在用Python寫各種腳本，想做自動化運維平臺卻有心無力，沒有見過大的運維平臺怎麽做，2、自己寫的腳本在大的場景下是否靠譜，每當討論說一些基於ssh獲取數據執行操作的方式都會被鄙視。茅塞頓開：迷茫大半年找不到方向，最近在reboot系統學習了下，收獲很多，很多疑惑

Spring MVC擴展和 SSM框架整合

運行步驟請求參數 body 控制 ice 系統工具表示 produces 1.使用@ResponseBody 實現數據輸出 DAO層、Service層改造Controller層改造View層部署運行 2.JSON數據的傳遞處理改造Controller層

python學習筆記（八）面向對象擴展

archive ive 解釋 alt bound take src pri 執行原鏈：http://www.cnblogs.com/vamei/archive/2012/06/02/2532018.html 筆記：今天的內容感覺自己理解不太容易 1 #昨天學習定義m

50個Bootstrap擴展插件

包括 combo jquer picker details ssm china button 我們 Bootstap這個框架本身已經包含了開發網頁的眾多要素，包括了常用的工具以及擴展組件，如果你在開發頁面時覺得在某些方面還不夠的話，不妨看看最新收集的50個Bootstra

Unity插件擴展中組件常用的幾個方法

重新 paths form log public 名字查找實例化 dna mat 最近為美術編寫一個Unity編輯器的擴展，主要為了減輕美術在修改預制對象時的機械化操作的繁瑣和出錯。具體實現的幾個功能： 1、刪除指定組件； 2、復制、粘貼指定的組件； 3、重新關聯新的屬性

第一個谷歌瀏覽器擴展插件操作網頁

擴展 ava 技術分享 alert browser miss 解壓 manifest his 輕松入門一個全局配置文件一個icon圖標一個測試js myscript.js alert(‘測試‘); 　　 { "name": "刷紅包(演示)",

【轉】編寫高質量代碼改善C#程序的157個建議——建議101：使用擴展方法，向現有類型“添加”方法

() sealed 返回 res turn 擴展方法需求 write 字符串建議101：使用擴展方法，向現有類型“添加”方法考慮如何讓一個sealed類型具備新的行為。以往我們會創建一個包裝器類，然後為其添加方法，而這看上去一點兒也不優雅。我們也許會考慮修改設計，

Ext3 Functhion擴展的5個實例方法 p135 4.2.7.6

src blog 技術分享 mage alt 圖片 img com 4.2 Ext3 Functhion擴展的5個實例方法 p135 4.2.7.6

Spring 源碼分析（八）--容器的功能擴展

use abs 提取 ext troy sha 根據 idc owb 經過前面幾篇的分析，相信大家對Spring中容器功能有了簡單的了解，在前面的章節中我們一直以BeanFactory接口以及它的默認實現類XmlBeanFactory為例進行分析。但是，Spring

【轉】nose-parameterized是Python單元測試框架實現參數化的擴展

col ever sel mage 多線程 stc nbsp zed testng 原文地址： http://www.cnblogs.com/fnng/p/6580636.html 　　相對而言，Python下面單元測試框架要弱上少，尤其是Python自帶的unittest

Linux學習總結（三十八）lamp之php擴展模塊安裝

lamp php php擴展模塊 php動態模塊是一個可以看的見的以.so結尾的文件，可以根據需要加載使用。靜態模塊跟隨php一起啟動，看不到文件。php一旦編譯完成，要想再增加一個功能模塊的話，要麽重新編譯php，要麽直接編譯一個擴展模塊，然後在php.ini中配置一下就可以被加載使用。/usr

scrapy的自動限速(AutoThrottle)擴展

rap literal 根據 -s ID 之前實現自動調整十分該擴展能根據Scrapy服務器及您爬取的網站的負載自動限制爬取速度。設計目標更友好的對待網站，而不使用默認的下載延遲0。自動調整scrapy來優化下載速度，使得用戶不用調節下載延遲及並發請求數來

Python框架學習之Flask中的常用擴展包

mongodb command class 結合基本 init sig ring code 　　Flask框架是一個擴展性非常強的框架，所以導致它有非常多的擴展包。這些擴展包的功能都很強大。本節主要匯總一些常用的擴展包。一、 Flask-Script 　　pip i

unittest框架擴展（自動生成用例）自動化-上

sendmail hand 定義 .html 日誌 desktop headers 提示 list 一.思想：基於數據驅動和代碼驅動結合的自動化測試框架。二.自動化測試框架步驟： 1.獲取用例,用例格式：.ymal 2.調用接口 3.校驗結果 4.發送測試報告 5.異

python_cookbook之路：數據結構-解壓可叠代對象賦值給多個變量以及擴展的叠代解壓語法（*）

rec 3.4 open pan spl python res cor coo 1.一一對應： >>> data = [ ‘ACME‘, 50, 91.1, (2012, 12, 21) ] >>> name, shares, pri

【Java】Spring MVC 擴展和SSM框架整合

nco span con odin typealias eal nag key ping 開發web項目通常很多地方需要使用ajax請求來完成相應的功能，比如表單交互或者是復雜的UI設計中數據的傳遞等等。對於返回結果，我們一般使用JSON對象來表示，那麽Spring MVC

Scrapy騰訊分分cai搭建彩中添加定時執行任務的擴展

內部進行 ret float password gin set asi nec 最近騰訊分分cai搭建彩 dsluntan.com VX:17061863513利用scrapy + redis搭建分布式爬蟲系統，有這樣一個要求: 定時性的針對某一url進行抓取。當然

Scrapy框架的八個擴展

一、proxies代理

二、Https證書

三、緩存

四、下載中間件

五、爬蟲中間件

六、pipelines擴展

七、exception信號量處理

八、url的去重

相關推薦