10 UA池和代理池在Scrapy中的應用

阿新 • • 發佈：2019-09-08

下載中介軟體簡介

　　在Scrapy中，引擎和下載器之間有一個元件，叫下載中介軟體（Downloader Middlewares）。因它是介於Scrapy的request/response處理的鉤子，所以有2方面作用：

（1）引擎將請求傳遞給下載器過程中，下載中介軟體可以對Requests進行一系列處理。比如設定請求的 User-Agent，設定代理ip等

（2）在下載器完成將Response傳遞給引擎中，下載中介軟體可以對Responses進行一系列處理。比如進行gzip解壓等。

爬蟲中，主要使用下載中介軟體處理請求，一般會對請求設定隨機的User-Agent ，設定隨機的代理ip。目的在於防止爬取網站的反爬蟲策略。

一、UA池：User-Agent池

- 作用：儘可能多的將scrapy工程中的請求偽裝成不同型別的瀏覽器身份。

- 操作流程：

1.在下載中介軟體中攔截請求

2.將攔截到的請求的請求頭資訊中的UA進行篡改偽裝

3.在配置檔案中開啟下載中介軟體

Middleware.py中部分程式碼展示：

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware        #導包
import random

#UA池程式碼的編寫（單獨給UA池封裝成一個類）
class RandomUserAgent(UserAgentMiddleware):

    def process_request(self, request, spider):
        ua = random.choice(user_agent_list)                
        request.headers.setdefault('User-Agent',ua)            # 當前攔截到請求的ua的寫入操作



user_agent_list = [
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
]

二、代理池

- 作用：儘可能多的將scrapy工程中的請求的IP設定成不同的。

- 操作流程：

1.在下載中介軟體中攔截請求

2.將攔截到的請求的IP修改成某一代理IP

3.在配置檔案中開啟下載中介軟體

Middleware程式碼展示：批量對攔截到的請求進行ip更換, 單獨封裝下載中介軟體類

class Proxy(object):

def process_request(self, request, spider):

        # 對攔截到請求的url進行判斷（協議頭到底是http還是https）, request.url返回值：http://www.xxx.com
        h = request.url.split(':')[0]                              #請求的協議頭
        if h == 'https':
            ip = random.choice(PROXY_https)
            request.meta['proxy'] = 'https://'+ip
        else:
            ip = random.choice(PROXY_http)
            request.meta['proxy'] = 'http://' + ip

#可被選用的代理IP
PROXY_http = [
    '153.180.102.104:80',
    '195.208.131.189:56055',
]
PROXY_https = [
    '120.83.49.90:9000',
    '95.189.112.214:35508',
]

代理ip一般都是在傳送請求不成功的時候進行的，所以，我們以後可以將代理ip寫到process_exception中。

三、UA池和代理池在中介軟體中的使用示例

　　以麥田房產為例，將程式碼展示在下方，詳細展示瞭如何在Scrapy框架中使用UA池和代理池。

爬蟲檔案:maitian.py

import scrapy
from houseinfo.items import HouseinfoItem               # 將item匯入

class MaitianSpider(scrapy.Spider):
    name = 'maitian'
    # start_urls = ['http://bj.maitian.cn/zfall/PG{}'.format(page for page in range(1,101))]
    start_urls = ['http://bj.maitian.cn/zfall/PG100']


    #解析函式
    def parse(self, response):

        li_list = response.xpath('//div[@class="list_wrap"]/ul/li')

        for li in li_list:
            item = HouseinfoItem(
                title =  li.xpath('./div[2]/h1/a/text()').extract_first().strip(),
                price = li.xpath('./div[2]/div/ol/strong/span/text()').extract_first().strip(),
                square = li.xpath('./div[2]/p[1]/span[1]/text()').extract_first().replace('㎡',''),
                area = li.xpath('./div[2]/p[2]/span/text()[2]').extract_first().strip().split('\xa0')[0],
                adress = li.xpath('./div[2]/p[2]/span/text()[2]').extract_first().strip().split('\xa0')[2]
            )

            yield item                      # 提交給管道，然後管道定義儲存方式

items檔案：items.py

import scrapy

class HouseinfoItem(scrapy.Item):
    title = scrapy.Field()          #儲存標題，裡面可以儲存任意型別的資料
    price = scrapy.Field()
    square = scrapy.Field()
    area = scrapy.Field()
    adress = scrapy.Field()

管道檔案：pipelines.py

class HouseinfoPipeline(object):
    def __init__(self):
        self.file = None

    #開始爬蟲時，執行一次
    def open_spider(self,spider):
        self.file = open('maitian.csv','a',encoding='utf-8')                    # 選用了追加模式
        self.file.write(",".join(["標題","月租金","面積","區域","地址","\n"]))
        print("開始爬蟲")

    # 因為該方法會被執行呼叫多次，所以檔案的開啟和關閉操作寫在了另外兩個只會各自執行一次的方法中。
    def process_item(self, item, spider):
        content = [item["title"], item["price"], item["square"], item["area"], item["adress"], "\n"]
        self.file.write(",".join(content))
        return item

    # 結束爬蟲時，執行一次
    def close_spider(self,spider):
        self.file.close()
        print("結束爬蟲")

中介軟體檔案Middlewares.py

from scrapy import signals

class HouseinfoDownloaderMiddleware(object):

    #UA池
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]

    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
]

    def process_request(self, request, spider):
        #使用UA池設定請求的UA
        request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None

    def process_response(self, request, response, spider):
        return response

    #攔截髮生異常的請求物件
    def process_exception(self, request, exception, spider):
        if request.url.split(':')[0] == 'http':
            request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        else:
            request.meta['proxy'] = 'https://' + random.choice(self.PROXY_https)

配置檔案：settings.py

# -*- coding: utf-8 -*-
BOT_NAME = 'houseinfo'

SPIDER_MODULES = ['houseinfo.spiders']
NEWSPIDER_MODULE = 'houseinfo.spiders'


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#開啟管道
ITEM_PIPELINES = {
   'houseinfo.pipelines.HouseinfoPipeline': 300,                    #數值300表示為優先順序，值越小優先順序越高
}


#開啟下載中介軟體
DOWNLOADER_MIDDLEWARES = {
   'houseinfo.middlewares.HouseinfoDownloaderMiddleware': 543,
}

10 UA池和代理池在Scrapy中的應用

下載中介軟體簡介　　在Scrapy中，引擎和下載器之間有一個元件，叫下載中介軟體（Downloader Middlewares）。因它是介於Scrapy的request/response處理的鉤子，所以有2方面作用：（1）引擎將請求傳遞給下載器過程中，下載中介軟體可以對Requests進行一系

UA池和代理池在scrapy中的應用

一.下載中介軟體下載中介軟體（Downloader Middlewares）位於scrapy引擎和下載器之間的一層元件。 - 作用：（1）引擎將請求傳遞給下載器過程中，下載中介軟體可以對請求進行一系列處理。比如設定請求的 User-Agent，設定代理等（2）在下載器完成將Response傳

Python爬蟲之Scrapy框架的UA池和代理池

loader 代理 user 4.5 fill 中間件 5.1 html linu 一下載Scrapy的下載中間件下載中間件（Downloader Middlewares）位於scrapy引擎和下載器之間的一層組件。下載中間件的作用：（1）引擎請求傳遞給下載器的

UA池和代理池

今日概要 scrapy下載中介軟體 UA池代理池今日詳情一.下載中介軟體下載中介軟體（Downloader Middlewares）位於scrapy引擎和下載器之間的一層元件。 - 作用：（1）引擎將請求傳遞給下載器過程中，下載中介軟體可以對請求進行一系列處理。比如

UA池和代理池（IP)

span res load user pro random safari rmi mac os x UA池(每一次請求采用池中的隨機UA) a) 在中間件類中進行導包 from scrapy.contrib.downloadermiddleware.useragent i

爬蟲的UA池和代理池

爬蟲的UA池和代理池一.下載中介軟體先祭出框架圖：下載中介軟體（Downloader Middlewares）位於scrapy引擎和下載器之間的一層元件。 - 作用：（1）

14.UA池和代理池

block middle inux class lang safari meta 20M loader 14.UA池和代理池今日概要 scrapy下載中間件 UA池代理池今日詳情一.下載中間件先祭

爬蟲-User-Agent和代理池

今日概要 scrapy下載中介軟體 UA池代理池今日詳情一.下載中介軟體先祭出框架圖：下載中介軟體（Downloader Middlewares）位於scrapy引擎和下載器之間的一層元件。 - 作用：

多執行緒---java中鎖池和等待池的概念

鎖池和等待池在java中，每個物件都有兩個池，鎖(monitor)池和等待池鎖池:假設執行緒A已經擁有了某個物件(注意:不是類)的鎖，而其它的執行緒想要呼叫這個物件的某個synchronized方法(或者synchronized塊)，由於這些執行緒在進入物件的synchronize

python爬蟲由淺入深15---利用Redis+Flask來維護代理池和Cookie池

Redis主要用來維護池，提供池的佇列儲存關於Redis的安裝與配置，可見點選開啟連結 Flask來實現池的介面，用它來從中拿出內容代理池：作用：用來偽裝IP，更好地利用代理資源來應對站點的反爬蟲策略要求：多站抓取，非同步檢測定時篩選，持續更新

Java中的鎖池和等待池

Java平臺中，因為有內建鎖的機制，每個物件都可以承擔鎖的功能。Java虛擬機器會為每個物件維護兩個“佇列”（姑且稱之為“佇列”，儘管它不一定符合資料結構上佇列的“先進先出”原則）：一個叫Entry Set（入口集），另外一個叫Wait Set（等待集）。對於任意的物件obj

執行緒池和程序池

動態建立子程序（函式執行緒）實現併發伺服器的缺點在前面的文章中我們是通過動態建立子程序（函式執行緒）來實現併發伺服器的，這樣做的缺點如下：動態建立程序（或執行緒）是比較耗費時間的，這樣導致較慢的客戶響應。動態建立的子程序（子執行緒）通常只用來為一個客戶服務，這將導致系統上產

Java常用面試題15 synchronized方法的妙用鎖池和等待池的區別

問: 當一個執行緒進入一個物件的synchronized方法A之後，其它執行緒是否可進入此物件的synchronized方法B？答：不能。其它執行緒只能訪問該物件的非同步方法，同步方法則不能進入。因為非靜態方法上的synchronized修飾符要求執行方法時要獲得

學會使用ip池和cookie池偽裝

在進入正題之前，我們先複習一個關於requests模組的相關知識點： requests中解決編碼的三種方法： ①response.content 型別：bytes 解碼型別：沒有指定如何修改編碼方式：response.content.decode() ②response.content.deco

python 併發之concurrent.futures----用於支援執行緒池和程序池

轉載自： https://blog.csdn.net/dutsoft/article/details/54728706一：使用模組from concurrent.futures import ThreadPoolExecutor from concurrent.future

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於付費 status 在使用爬蟲的時候，有時候會看到由於目標計算機積極拒絕，無法連接...，這就是因為我們的爬蟲被識別出來了，而這種反爬蟲主要是通過IP識別的，針對這種反爬蟲，我們可以搭建一個自己的IP代理池，

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

scrapy中設定IP代理池（自定義IP代理池）

首先主要的就是你應該對scrapy目錄結構，有一個相對清晰的認識，至少有過一個demo 一、手動更新IP池 1.在settings配置檔案中新增IP池: IPPOOL=[ {"ipaddr":"61.129.70.131:8080"}, {"ipaddr":"61.152

scrapy中代理池的使用

首先自己要準備一份代理池進行更新維護。準備：開啟redis-server，並且執行python run.py ，在redis中可以看到爬取到的代理。確保http://127.0.0.1:5555/random 上能取得正確的ip使用：在下載中介軟體middlewares中進行

記錄一次線程池的在項目中的實際應用，講解一下線程池的配置和參數理解。

div pro 繼續 bstr warn fin autowire string ping 前言：最近項目中與融360項目中接口對接，有反饋接口（也就是我們接收到請求，需要立即響應，並且還要有一個接口推送給他們其他計算結果），推送過程耗時、或者說兩個接口不能是同時返回，有先

10 UA池和代理池在Scrapy中的應用

一、UA池：User-Agent池

二、代理池

三、UA池和代理池在中介軟體中的使用示例

相關推薦