關於scrapy-splash使用以及如何設定代理ip

阿新 • • 發佈：2020-12-22

轉載自：https://www.jianshu.com/p/7ec32ee1e9d4?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

首先我們先介紹下如何使用scrapy-splash:

1、安裝：$ pip install scrapy-splash

2、啟動docker：$ docker run -p 8050:8050 scrapinghub/splash

3、在setting.py檔案中配置：

3.1、SPLASH_URL = 'http://192.168.59.103:8050'

3.2、 DOWNLOADER_MIDDLEWARES = {

                'scrapy_splash.SplashCookiesMiddleware': 723,

                 'scrapy_splash.SplashMiddleware': 725,

                'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

         } 

3.3、SPIDER_MIDDLEWARES = {

            'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,

    }

3.4、DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

3.5、HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

以上就已經配置好scrapy-splash了,接著就是我們如何來使用。

這裡我們以京東某商品為例抓取:

spider.py

from scrapy.spiders import CrawlSpider, Spider
from scrapy_splash import SplashRequest

class TaoBaoSpider(CrawlSpider):
    name = 'taobao_spider'
    start_urls = ['https://item.jd.com/4736647.html?cpdad=1DLSUE']

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url, callback=self.parse, args={'wait': '0.5'})

    def parse(self, response):
        pic = response.xpath('//span[@class="price J-p-4736647"]/text()').extract()[0]
        print pic

抓取到商品價格：

image.png

現在我們需要給我們的scrapy新增代理中介軟體

middlewares.py

  class ProxyMiddleware(object):
      def process_request(self, request, spider):
      request.meta['splash']['args']['proxy'] = proxyServer
      request.headers["Proxy-Authorization"] = proxyAuth

這裡我們需要注意的是設定代理不再是request.meta['proxy'] = proxyServer

而是request.meta['splash'] ['args']['proxy'] = proxyServer

接著我們把ProxyMiddleware新增到setting.py中

  DOWNLOADER_MIDDLEWARES = {
      'scrapy_splash.SplashCookiesMiddleware': 723,
      'scrapy_splash.SplashMiddleware': 725,
      'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
      'Spider.middlewares.ProxyMiddleware': 843,
  }

自定義的中介軟體的權重需要在scrapy-splash的後面才行。

這樣就可以使用代理用scrapy-splash愉快的抓取資料了！

作者：sunoath
連結：https://www.jianshu.com/p/7ec32ee1e9d4
來源：簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

關於scrapy-splash使用以及如何設定代理ip

技術標籤：爬蟲爬蟲轉載自：https://www.jianshu.com/p/7ec32ee1e9d4?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

python 3.7.5 Scrapy 架構中的代理IP和隨機User-Agent 配置

基本上不需要修改原有程式碼，新增如下程式碼即可。注：在settings.py 中需要註釋點原有的 USER_AGENT 配置。

Python搭建代理IP池實現介面設定與整體排程

介面模組需要用 API 來提供對外服務的介面，當然也可以直接連資料庫來取，但是這樣就需要知道資料庫的連線資訊，不太安全，而且需要配置連線，所以一個比較安全和方便的方式就是提供一個 Web API 介面，通過訪問介面

Java 靜態代理、動態代理以及cglib代理

代理模式介紹代理模式是一種設計模式，顧名思義是對某個事物的代理，外界所有對該事物的訪問或操作，都會經過該代理。舉個例子，如果你有法律方面的糾紛，那麼你必然要找律師，此時對於律師而言你就是他的委託人，而

在Django下建立專案以及設定settings.py教程

進入虛擬環境建立目錄（在虛擬環境下不要使用sudo命令） 1.在虛擬環境下安裝需要的安裝包（注意，不要用sudo命令，否則會安裝到真實環境下）

Python搭建代理IP池實現檢測IP的方法

在獲取 IP 時，已經成功將各個網站的代理 IP 獲取下來了，然後就需要一個檢測模組來對所有的代理進行一輪輪的檢測，檢測可用就設定為滿分，不可用分數就減 1，這樣就可以實時改變每個代理的可用情況，在獲取有效 IP

Python爬蟲使用代理IP的實現

使用爬蟲時，如果目標網站對訪問的速度或次數要求較高，那麼你的 IP 就很容易被封掉，也就意味著在一段時間內無法再進行下一步的工作。這時候代理 IP 能夠給我們帶來很大的便利，不管網站怎麼封，只要能找到一個新的

Python搭建代理IP池實現獲取IP的方法

使用爬蟲時，大部分網站都有一定的反爬措施，有些網站會限制每個 IP 的訪問速度或訪問次數，超出了它的限制你的 IP 就會被封掉。對於訪問速度的處理比較簡單，只要間隔一段時間爬取一次就行了，避免頻繁訪問；而對於

Python搭建代理IP池實現儲存IP的方法

上一文寫了如何從代理服務網站提取 IP，本文就講解如何儲存 IP，畢竟代理池還是要有一定量的 IP 數量才行。儲存的方式有很多，直接一點的可以放在一個文字檔案中，但操作起來不太靈活，而我選擇的是 MySQL 資料庫，因

Python代理IP爬蟲的新手使用教程

前言 Python爬蟲要經歷爬蟲、爬蟲被限制、爬蟲反限制的過程。當然後續還要網頁爬蟲限制優化，爬蟲再反限制的一系列道高一尺魔高一丈的過程。爬蟲的初級階段，新增headers和ip代理可以解決很多問題。

scrapy爬取快代理並儲存mongo資料庫

我們先分析下網頁這個網友的頁面規律很簡單 https://www.kuaidaili.com/free/inha/1 https://www.kuaidaili.com/free/inha/2

python設定代理和新增映象源的方法

為什麼要修改映象源？一般使用python安裝庫，會用到pip install xxx 指令或者conda install xxx指令，因為pip和conda預設國外映象源，這時會在Python的官方源pypi.python.org/pypi 下載，速度很慢，有時會因為超時會

Python requests設定代理的方法步驟

指導文件： http://docs.python-requests.org/en/master/user/advanced/ 的Proxies http://docs.python-requests.org/en/latest/user/advanced/ 的SSL Cert Verification