1. 程式人生 > >scrapy爬蟲新增使用者代理

scrapy爬蟲新增使用者代理

第一步:在middlewares.py中增加一個類,取名:ProxyMiddleWare即代理中介軟體

該代理中介軟體中會從代理列表中隨機選取一個代理。

class ProxyMiddleWare(object):  
    proxy_list=["http://58.87.89.234:31",
    此處省略一堆代理IP
    ]

def process_request(self,request,spider):
    ip = random.choice(self.proxy_list)
    request.meta['proxy'] = ip

第二步:settings中配置這個中介軟體

DOWNLOADER_MIDDLEWARES = {
   'wechat_spider.middlewares.RandomUserAgent': 10,
   'wechat_spider.middlewares.ProxyMiddleWare': 100,
}

這裡的數字是中介軟體的執行順序,可以隨意指定,只要不重複就行。然後同樣在控制檯中啟動爬蟲,沒有問題~

注意事項:如何獲取IP呢?

IP可以從這個幾個網站爬蟲獲取:快代理、代理66、有代理、西刺代理、guobanjia
如果出現像下面這種提示:”由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應,連線嘗試失敗”或者是這種” 由於目標計算機積極拒絕,無法連線。”那就是IP的問題,更換就行了。。。。
免費代理就是不好用沒辦法,哎~

相關推薦

scrapy爬蟲新增使用者代理

第一步:在middlewares.py中增加一個類,取名:ProxyMiddleWare即代理中介軟體 該代理中介軟體中會從代理列表中隨機選取一個代理。 class ProxyMiddleWare(

scrapy 爬蟲,ip代理,useragent,連線mysql的一些配置

爬蟲Scrapy 資料庫的配置mysql(pymysql)#進入pipelines.py檔案#首先匯入pymysql import pymysqlclass SqkPipeline(object):    def __init__(self):        self.cli

Scrapy爬蟲實戰:使用代理訪問

Scapy爬蟲實戰:使用代理訪問 Middleware 中介軟體設定代理 middlewares.py settings.py spider 配置meta使用proxy 快代理 前面我們簡單的設定了h

爬蟲新增隨機User—Agent(隨機代理

胖友那還在為新增隨機使用者代理,找出一大堆代理,然後random一下嗎,哈哈哈 今天我發現一個好東西,分享出來,可能別人早就知道了,但是對我來說還是個新鮮玩意,哈哈 那就是fake-useragent庫 安裝 pip install fake-useragent

Scrapy爬蟲代理IP配置

Scrapy設定代理IP步驟: 1、在Scrapy工程下新建"middlewares.py": ? 1 2 3 4 5 6 7 8 9 10 11 12 13 import base64  # Start your middl

scrapy爬蟲代理——利用crawlera神器,無需再尋找代理IP

一、crawlera平臺註冊     首先申明,註冊是免費的,使用的話除了一些特殊定製外都是free的。     填寫使用者名稱、密碼、郵箱,註冊一個crawlera賬號並激活     2、建立Organizations,然後新增crawlear服務    

Scrapy新增使用者代理的方法

參考:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html#id21、settings.py中新增下

scrapy框架拓展:為download_middleware新增使用者代理

**在與spider同目錄下建立user_agent.py** #coding:utf-8 """避免被ban策略之一:使用useragent池。 使用注意:需在settings.py中進行相應的設定。 """ from scrapy import log

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁,我們將持續在博客園為大家推薦技術精品文章哦~ 作者:崔慶才 Scrapy入門 本篇會通過介紹一

scrapy爬蟲框架

cnblogs logs spi down 方式 ges htm width sched downloader:負責下載html頁面 spider:負責爬取頁面內容,我們需要自己寫爬取規則 srapy提供了selector,獲取的方式有xpath,css,正則,extr

scrapy爬蟲框架實例之一

獲取 名稱 返回 工程 ima 1-57 response lines star   本實例主要通過抓取慕課網的課程信息來展示scrapy框架抓取數據的過程。  1、抓取網站情況介紹   抓取網站:http://www.imooc.com/course/list  

scrapy框架設置代理

ase param his utf-8 httpproxy down json eth head 網易音樂在單ip請求下經常會遇到網頁返回碼503的情況經查詢,503為單個ip請求流量超限,猜測是網易音樂的一種反扒方式因原音樂下載程序采用scrapy框架,所以需要在scra

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接 是把 ror sdn 成功 repl 問題1.使用scrapy框架,使用命令提示符pip命令下載scrapy後,卻無法使用scrapy命令,出現scrapy不是內部或外部命令。也不是可運行的程序 解決:一開始,我是把python安裝在

scrapy抓取免費代理IP

代理 爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件,抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記:早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架,將自己理解的跟大家分享。有表述不當之處,望大神們斧正。 一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy:cmd命令行下:cd到python的scripts目錄,然後運行pip install 命令 然後pycharmIDE下就有了Scrapy:

2017.08.04 Python網絡爬蟲Scrapy爬蟲實戰二 天氣預報

font size 項目 執行 weather html time art show 1.項目準備:網站地址:http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲: scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲Scrapy爬蟲實戰二 天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon:程序閱讀一般都是使用更方便的Json或者cvs等待格式,繼續講解Scrapy爬蟲的保存方式,也就是繼續對pipelines.py文件動手腳 (1)創

scrapy爬蟲流程

scrapy 爬蟲學習 一、scrapy Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 其可以應用在數據挖掘,信息處 理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也 可以應用在獲取API所返回的數據(例如 Amazon Ass