通過downloadmiddleware隨機更換user-agent

阿新 • • 發佈：2019-01-01

首先來看scrapy的架構圖。

middleware是全域性的。

scrapy的預設User-agent是scrapy，如下圖所示

這種使用者代理很容易被服務端識別出來，然後封殺掉。官方文件提供這種方式來取消掉預設user-agent。

接下來就是定義自己的middleware，根據官方文件，需要過載以下三個函式。

Github上有一個fake-useragent專案。

middleware.py

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals
from fake_useragent import UserAgent

class ArticlespiderSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class RandomUserAgentMiddleware(object):
    #隨機更換user-agent
    def __init__(self, crawler):
        super(RandomUserAgentMiddleware, self).__init__()
        self.ua = UserAgent()
        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):

        def get_ua():
            return getattr(self.ua, self.ua_type)
        random_agent = get_ua()
        request.headers.setdefault('User-Agent', get_ua())

到此為止，隨機更換user_agent就完成了。

通過downloadmiddleware隨機更換user-agent

首先來看scrapy的架構圖。middleware是全域性的。scrapy的預設User-agent是scrapy，如下圖所示這種使用者代理很容易被服務端識別出來，然後封殺掉。官方文件提供這種方式來取消掉預設user-agent。接下來就是定義自己的middleware，根據

scrapy隨機更改User-Agent方法

user-agent更改 scrapy python 1 Scrapy設置User-Agent1.1 在settings.py文件中設置USER_AGENT參數即可實現1.1.1 使用固定User-Agent方法在settings.py文件中加入如下代碼即可（USER_AGENT

python爬蟲之Scrapy框架:兩種隨機選擇User-Agent的方法

修改請求時的User-Agent一般有兩種思路:一是修改setting中的User-Agent變數(適用於極少量的agent更換,一般不採用);另一種就是通過Downloader Middleware的process_request()方法來修改,即在middlewares.

Apache2.4使用require指令進行訪問控制–允許或限制IP訪問/通過User-Agent禁止不友好網絡爬蟲

被拒絕 pid apach res 禁止阻止加載 -s case 從Apache2.2升級到Apache2.4後，發現原來用來限制部分IP和垃圾網絡爬蟲的訪問控制規則不起作用，查詢後才發現，Apache2.4中開始使用mod_authz_host這個新的模塊來進行訪問控

Selenium中通過修改User-Agent標識將PhantomJS偽裝成Chrome瀏覽器

python爬蟲文章首發個人博客：http://zmister.com/archives/179.htmlPython爬蟲、GUI開發、滲透測試、機器學習，盡在http://zmister.com/在寫爬蟲的過程中，出於系統環境或是效率的問題，我們經常使用PhantomJS作為Selenium操縱的瀏覽器we

scrapy框架中在middleware中進行配置user-agent，將user-agent進行隨機

在scrapy中進行user-agent配置，將其進行隨機更換。下面所寫為學習筆記使用scrapy進行爬蟲的時候，一些針對爬蟲設定了一些反爬措施，最明顯的是user-agent。一、在setting檔案中ctrl+f找到 DOWNLOADER_MIDDLEWARES，將其註釋的部分

【動圖詳解】通過 User-Agent 識別爬蟲的原理、實踐與對應的繞過方法

開篇隨著 Python 和大資料的火熱，大量的工程師蜂擁而上，爬蟲技術由於易學、效果顯著首當其衝的成為了大家追捧的物件，爬蟲的發展進入了高峰期，因此給伺服器帶來的壓力則是成倍的增加。企業或為了保證服務的正常運轉或為了降低壓力與成本，不得不使出各種各樣的技術手段來阻止爬蟲工程師們毫無節制的

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於付費 status 在使用爬蟲的時候，有時候會看到由於目標計算機積極拒絕，無法連接...，這就是因為我們的爬蟲被識別出來了，而這種反爬蟲主要是通過IP識別的，針對這種反爬蟲，我們可以搭建一個自己的IP代理池，

Java通過瀏覽器請求頭（User-Agent）獲取瀏覽器型別，作業系統型別，手機機型

一：獲得瀏覽器請求頭中的User-Agent ? 1 String ua = request.getHeader("User-Agent") 二：獲得瀏覽器型別，作業系統型別：(注意，UserAgent類在U

Scrapy爬蟲 -- 編寫下載中介軟體，實現隨機User-Agent

Scrapy爬蟲 -- 編寫下載中介軟體，實現隨機User-Agent 實現步驟： 1. 在middlewares.p中，新建一個下載中介軟體； 2. 建立process_request方法（引擎傳送request物件到下載器時的回撥函式），實現隨機User-Agent的功能； 3.

通過user-agent判斷使用者的請求是用QQ、微信還是支付寶

通過user-agent判斷使用者是用QQ、微信還是支付寶開啟連結或二維碼 function is_weixn_qq(){ var ua = navigator.userAgent.toLowerCase(); if(ua.match(/MicroMessenger/i)=="

隨機user-agent程式碼

import random def get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type =

scrapy代理及隨機user-agent使用,及user-agent池

1.middlewares.py 2.在setting中設定一下 3.user-agent池 USER_AGENTS = [ “Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NE

爬蟲新增隨機User—Agent（隨機代理）

胖友那還在為新增隨機使用者代理，找出一大堆代理，然後random一下嗎，哈哈哈今天我發現一個好東西，分享出來，可能別人早就知道了，但是對我來說還是個新鮮玩意，哈哈那就是fake-useragent庫安裝 pip install fake-useragent

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）目錄隨機User-Agent 獲取代理ip 檢測代理ip可用性　　隨機User-Agent fake_useragent庫，偽

一行程式碼搞定 Scrapy 隨機 User-Agent 設定

摘要：爬蟲過程中的反爬措施非常重要，其中設定隨機 User-Agent 是一項重要的反爬措施，Scrapy 中設定隨機 UA 的方式有很多種，有的複雜有的簡單，本文就對這些方法進行彙總，提供一種只需要一行程式碼的設定方式。最近使用 Scrapy 爬一個網站，遇到了網站反爬的情況，於是開始搜尋一

Scrapy middleware 設定隨機User-Agent 和 proxy

1.初始化一些User-Agent建立一個檔案叫useragent.pyagents = [ "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko)

通過user-agent判斷h5頁面是在哪個手機App（QQ、微信、支付寶）下開啟的

function getAppClient(){ 　　var ua = navigator.userAgent.toLowerCase(); 　　if(ua.match(/MicroMessenger/i)=="micromessenger") { 　　return "weixin"; 　　}

通過http user-agent判斷是否為手機瀏覽器

我們做Web開發的時候，常常需要判斷使用者是否是使用手機訪問網站，從而決定如何頁面任何展示給使用者，以提高使用者體驗，這時需要用到判斷瀏覽器型別的程式碼：下面PHP函式可以根據http user-agent判斷是否為手機訪問，如果是則返回true： <?php /

scrapy的中介軟體Downloader Middleware實現User-Agent隨機切換

scrapy的中介軟體Download Middleware實現User-Agent隨機切換總架構理解Middleware 通過scrapy官網最新的架構圖來理解：從圖中我們可以看出，在spiders和ENGINE提及ENG

通過downloadmiddleware隨機更換user-agent

相關推薦