scrapy接入IP代理池（程式碼部分）

阿新 • • 發佈：2019-02-11

> 記錄一個比較完整的通過ip池進行爬蟲被禁的處理


class HttpProxymiddleware(object):

    # 一些異常情況彙總
    EXCEPTIONS_TO_CHANGE = (
        defer.TimeoutError, TimeoutError, ConnectionRefusedError, ConnectError, ConnectionLost,
        TCPTimedOutError, ConnectionDone)
    def __init__(self):
        # 連結資料庫 decode_responses設定取出的編碼為str 

        self.redis = redis.from_url('redis://:你的密碼@localhost:6379/0',decode_responses=True)
        pass

    def process_request(self, request, spider):
        #拿出全部key，隨機選取一個鍵值對
        keys = self.rds.hkeys("xila_hash")
        key = random.choice(keys)
        #用eval函式轉換為dict
        proxy = eval(self.rds.hget("xila_hash" 
,key))
        logger.warning("-----------------"+str(proxy)+"試用中------------------------")
        #將代理ip 和 key存入mate
        request.meta["proxy"] = proxy["ip"]
        request.meta["accountText"] = key

    def process_response(self, request, response, spider):
        http_status = response.status
        #根據response的狀態判斷 ，200的話ip的times +1重新寫入資料庫，返回response到下一環節 

        if http_status == 200:
            key = request.meta["accountText"]
            proxy = eval(self.rds.hget("xila_hash",key))
            proxy["times"] = proxy["times"] + 1
            self.rds.hset("xila_hash",key,proxy)
            return response
        #403有可能是因為user-agent不可用引起，和代理ip無關，返回請求即可
        elif http_status == 403:
            logging.warning("#########################403重新請求中############################")
            return request.replace(dont_filter=True)
        #其他情況姑且被判定ip不可用，times小於10的，刪掉，大於等於10的暫時保留
        else:
            ip = request.meta["proxy"]
            key = request.meta["accountText"]
            proxy = eval(self.rds.hget("xila_hash", key))
            if proxy["times"] < 10:
                self.rds.hdel("xila_hash",key)
            logging.warning("#################" + ip + "不可用，已經刪除########################")
            return request.replace(dont_filter=True)

    def process_exception(self, request, exception, spider):
        #其他一些timeout之類異常判斷後的處理，ip不可用刪除即可
        if isinstance(exception, self.EXCEPTIONS_TO_CHANGE) \
                and request.meta.get('proxy', False):
            key = request.meta["accountText"]
            print("+++++++++++++++++++++++++{}不可用+++將被刪除++++++++++++++++++++++++".format(key))
            proxy = eval(self.rds.hget("xila_hash", key))
            if proxy["times"] < 10:
                self.rds.hdel("xila_hash", key)
            logger.debug("Proxy {}連結出錯{}.".format(request.meta['proxy'], exception))
            return request.replace(dont_filter=True)

scrapy接入IP代理池（程式碼部分）

> 記錄一個比較完整的通過ip池進行爬蟲被禁的處理 class HttpProxymiddleware(object): # 一些異常情況彙總 EXCEPTIONS_TO

scrapy中設定IP代理池（自定義IP代理池）

首先主要的就是你應該對scrapy目錄結構，有一個相對清晰的認識，至少有過一個demo 一、手動更新IP池 1.在settings配置檔案中新增IP池: IPPOOL=[ {"ipaddr":"61.129.70.131:8080"}, {"ipaddr":"61.152

centos7生產環境IP代理池（python）

.py openssl href snappy ttext ima sna make per 最近在研究爬蟲，需要在前面部署IP代理池，於是在開源中國找到proxy pool。可以自動抓取國內幾個免費IP代理網站的IP，並實時校驗IP的可用性，數據庫為SSDB。IP代理池網

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於付費 status 在使用爬蟲的時候，有時候會看到由於目標計算機積極拒絕，無法連接...，這就是因為我們的爬蟲被識別出來了，而這種反爬蟲主要是通過IP識別的，針對這種反爬蟲，我們可以搭建一個自己的IP代理池，

scrapy 解決IP代理池的三種方法

一.手動更新ip池 1.1在setting配置檔案中新增ip池 IPPOOL=[ {“ipaddr”:”61.129.70.131:8080”}, {“ipaddr”:”61.152.81.193:9100”}, {“ipaddr”:”120.204.

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

這裡，讓我手把手教你如何用邏輯迴歸分析資料根據學生分數預測是否錄取： #必備3個庫 import numpy as np import pandas as pd import matplotlib.pyplot as plt 讓我們讀入資料： import

機房收費系統之組合查詢（程式碼部分）

最近的事情比較多，本該留出大塊時間整理組合查詢的程式碼部分，結果是分為一段一段的零散時間來整理的，最終整理的這些組合查詢程式碼可能還是有很多冗餘，本來不想拿出來的，但考慮到自己的不足就要展示給大家，這樣自己才能進步嘛，所以還是厚著臉皮把我冗餘的程式碼展示出來了，

Dijkstra演算法以及java實現_02（程式碼部分）

1.資料庫表的設計： dijsname1和dijsname2是有向圖中的兩個點。 qinmid是這兩個點之間的親密度，將親密度的值作為邊的權值大小。 2.對資料庫中資料進行增刪改查操作： //這裡主要實現了insert(插入)操作和查詢操作(通

2014新跟蹤演算法KCF筆記 --續（程式碼部分）

KCF跟蹤在opencv３.1中集成了，在opencv_contrib/tracking中有，opencv_contrib這個需要重新編譯一下opencv３.1才能ｇｅｔ．ｗｉｎｄｏｗｓ下的編譯方法如下網址 http://blog.csdn.net/yomo127/arti

VB.net版機房收費系統——結賬功能實現（程式碼部分）

　　實現結賬功能的時候，被選項卡控制元件整的有點鬱悶，瞬間腦袋就凌亂了，聽上去自己好像很可笑的樣子……於是，便去爬巨人的肩膀了~ 　　看了歡哥的部落格，發現她的結賬部落格是按照“索引”思想寫的，在結賬實體中添加了新的屬性過程（我新增的叫CheckDetail）結賬表中並沒有

用Python實現代理池（Proxy Pool）系統

跨語言高效能IP代理池，Python實現。注意：請執行程式前先更新一下抓取代理的函式。執行環境 Python 3.5 (請務必保證Python的版本在3.5以上，否則非同步

爬蟲ip代理池新建（使用芝麻ip代理）

如果真入職爬蟲工程師職位後，真正做爬蟲爬取資料的過程，將會使用大量的ip做ip替換，否則很容易被封ip，導致資料獲取無法持續下去。而現在市面上的免費代理其實很多都是無效的，或者持續效果很低效的。因此需要找到一個穩定高效且效果不錯的代理商。現在我就把自己目前使用的ip代理和自己獲取代理使用

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

UA池和代理池（IP)

span res load user pro random safari rmi mac os x UA池(每一次請求采用池中的隨機UA) a) 在中間件類中進行導包 from scrapy.contrib.downloadermiddleware.useragent i

Java網路爬蟲（七）--實現定時爬取與IP代理池

定點爬取當我們需要對金融行業的股票資訊進行爬取的時候，由於股票的價格是一直在變化的，我們不可能手動的去每天定時定點的執行程式，這個時候我們就需要實現定點爬取了，我們引入第三方庫quartz的使用： package timeutils; imp

scrapy 設定代理ip和cookies（微博）

pipelines.py程式碼from fake_useragent import UserAgent import requests class UserAgentMiddlewares(object): """ 自定義一個UserAgent的下載中介軟體。

Scrapy加Redis加IP代理池實現音樂爬蟲

音樂爬蟲目的：爬取歌名，歌手，歌詞，歌曲url。一、建立爬蟲專案建立一個資料夾，進入資料夾，開啟cmd視窗，輸入： scrapy startproject songSpider 依次輸入： cd songSpider scrapy

【scrapy ip代理池】如何解決ip被限制的問題

1、首先寫一個指令碼proxies.py 自動獲取代理ip # *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from multiproces

ip代理池-基於mongodb數據庫

url upd tostring mls from path ida request protocol 代碼用的python2.7，抓取xici免費代理，檢測放入數據庫中，為以後爬蟲做準備。下面直接上代碼 1 #-*-encoding=utf-8-*- 2 3 i

python學習 —— 建立IP代理池

圖片端口 position except app rtl 分享圖片 ipp use 　　代碼： from bs4 import BeautifulSoup from requests import Session, get, post from time imp

scrapy接入IP代理池（程式碼部分）

> 記錄一個比較完整的通過ip池進行爬蟲被禁的處理

相關推薦