Scrapy中整合selenium

阿新 • • 發佈：2018-12-08

面對眾多動態網站比如說淘寶等，一般情況下用selenium最好

那麼如何整合selenium到scrapy中呢？

因為每一次request的請求都要經過中介軟體，所以寫在中介軟體中最為合適

from selenium import webdriver
from scrapy.http import HtmlResponse
class JSPageMiddleware(object):
    def process_request(self, request, spider):
        if spider.name == "xinlang":  # 這只是一個示例表示爬蟲為新浪，當然可以自定義比如正則表示式對於某一種網址來進行過濾 

            browser = webdriver.Chrome()
            browser.get(request.url)
            import time
            time.sleep(3)
            print("訪問：{0}".format(request.url))  # 如何在這裡傳送完成之後就不傳送給scrapy下載器了呢？
            return HtmlResponse(url=browser.current_url, body=browser.page_source, encoding=" 
utf-8",request=request)
            # 一旦遇到HTMLResponse，scrapy就不會向download傳送了，而是直接返回給spider了,上面所有值都是必須的

注意別忘了將中介軟體寫入到settings中！

是不是可以優化的空間了呢？

每一次請求都要開啟一次Chrome，這個就很煩了，因為速度比較慢

from selenium import webdriver
from scrapy.http import HtmlResponse
class JSPageMiddleware(object):
    def __init__ 
(self):
        self.browser = webdriver.Chrome
        super().__init__()

    def process_request(self, request, spider):
        if spider.name == "xinlang":  # 這只是一個示例表示爬蟲為新浪，當然可以自定義比如正則表示式對於某一種網址來進行過濾
            self.browser.get(request.url)
            import time
            time.sleep(3)
            print("訪問：{0}".format(request.url))  # 如何在這裡傳送完成之後就不傳送給scrapy下載器了呢？
            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf-8", request=request)
            # 一旦遇到HTMLResponse，scrapy就不會向download傳送了，而是直接返回給spider了,上面所有值都是必須的

這樣只需要開啟一次Chrome了，但是，注意下，這樣的話scrapy就不會關閉了，那怎麼辦？

我們把它放到spider中

那這樣的話，中介軟體中改為

from scrapy.http import HtmlResponse
class JSPageMiddleware(object):

    def process_request(self, request, spider):
        if spider.name == "xinlang":
            spider.browser.get(request.url)  # 利用spider來進行呼叫
            import time
            time.sleep(3)
            print("訪問：{0}".format(request.url))  # 如何在這裡傳送完成之後就不傳送給scrapy下載器了呢？
            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)

但是這樣還是有問題，我咋知道什麼時間關閉？

from selenium import webdriver
from scrapy.xlib.pydispatch import dispatcher  # scrapy的分發器
from scrapy import signals
class LagouSpider(CrawlSpider):
    name = 'lagou'
    allowed_domains = ['www.lagou.com']
    start_urls = ['https://www.lagou.com/']

    rules = (
        Rule(LinkExtractor(allow=('www.lagou.com/jobs/',)), callback='parse_job'),
    )

    def __init__(self):
        self.browser = webdriver.Chrome
        super().__init__()
        dispatcher.connect(self.spider_closed, signals.spider_closed)  # 沒有括號的

    def spider_closed(self):
        print("spider closed")
        self.browser.quit()

是不是和django的用法非常一致？

但是非同步處理的時候，則麼辦，現在是一個同步的請求！

那麼重寫download

git 搜尋scrapy download一搜便知

Scrapy中整合selenium

面對眾多動態網站比如說淘寶等，一般情況下用selenium最好那麼如何整合selenium到scrapy中呢？因為每一次request的請求都要經過中介軟體，所以寫在中介軟體中最為合適 from selenium import webdriver from scrapy.http import

selenium與selenium在scrapy中的整合

from selenium import webdriver from scrapy.selector import Selector import time #1、selenium獲取頁面元素 # browser = webdriver.Chrome(executabl

scrapy中selenium的應用

引入在通過scrapy框架進行某些網站資料爬取的時候，往往會碰到頁面動態資料載入的情況發生，如果直接使用scrapy對其url發請求，是絕對獲取不到那部分動態加載出來的資料值。但是通過觀察我們會發現，通過瀏覽器進行url請求傳送則會加載出對應的動態加載出的資料。那麼如果我們想要在scrapy也獲取動

selenium在scrapy中的應用

細談Scrapy框架中運用selenium的經驗

首先我是個技術小白，工作的經驗也不到一年的時間，但是卻在這一年的時間裡讓我深深體會到了面對問題時對解決的問題的感悟。話不多說，總結一句話就是：這是我的第一篇技術部落格，希望大家在閱讀的同時能給予一些建議，共同學習進步。我們平時寫爬蟲的程式碼就是想著構造

在Cruise環境中加入Selenium整合測試

前文中我們成功使用 ANT ＋ Maven2 ＋ Cruise 搭建了持續整合環境，實現了 compile 、 test 、 tag 、 deploy 、 publish 等自動化環境。今天我們再接再厲，為其加入 Selenium 整合測試。關於 Selenium

scrapy中Request中常用參數

wow64 doc ant headers loop 錯誤 win cep accept 　　 url: 就是需要請求，並進行下一步處理的url callback: 指定該請求返回的Response，由那個函數來處理。 method: 一般不需要指定，使用默認GET方法請

Python中使用 Selenium 實現網頁截圖實例

firefox bre ins screens n) odi body 加載 ive Selenium 是一個可以讓瀏覽器自動化地執行一系列任務的工具，常用於自動化測試。不過，也可以用來給網頁截圖。目前，它支持 Java、C#、Ruby 以及 Python 四種客戶端語言。

[轉]scrapy中的request.meta

網址 example main cookies Language 屬性 ... rac 文件作者：知乎用戶鏈接：https://www.zhihu.com/question/54773510/answer/146971644 meta屬性是字典，字典格式即{‘key’:

python中使用selenium的一些註意

() 標題 from link mail 單獨 text attr med #coding:utf-8from selenium import webdriverfrom selenium.webdriver.common.action_chains import Acti

在Jmeter中使用Selenium WebDriver完成測試

小強測試品牌性能測試jmeter selenium webdriver 引子以下內容選自《小強軟件測試瘋狂講義》一書正文首先不得不感嘆Jmeter的日漸強大，尤其是其插件。之前我們講解過，Jmeter可以完成性能測試、接口測試，而這次它居然可以依靠WebDriver來完成GUI的功能自動化測試了

爬蟲（scrapy中調試文件）

port dir crawl 文件 class pre ole cmd app 在項目setting同級目錄下創建py文件，代碼如下： from scrapy.cmdline import execute import sys import os sys.path.ap

python中使用selenium調用Firefox缺少geckodriver解決方法

rom 報錯 sele 技術分享 lan logs 分享 () .exe from selenium import webdriver driver=webdriver.Firefox() 會報錯解決方法：因為缺少geckodriver.exe，先到https://

Scrapy中如何針對不同的Spider/Item分別進行處理

sta 如何 lin process roc proc sel .py pipe pipelines.py中有方法如下 def process_item(self, item, spider): 通過item參數，可以針對不同的Item進行處理，例如： if isinsta

Scrapy中如何獲取下一頁鏈接

htm 取數據 rst .com scrapy com 常見 extra extract Scrapy從開始鏈接抓取數據，然後通過下一頁鏈接不停的抓取更多的數據。那麽如何獲取下一頁鏈接呢，常見有兩種方式： 1、通過當前頁面的“下一頁”鏈接獲取，例如： <div cl

solr(四): centos中, 整合 tomcat

body 拷貝就是 sse strong set log http 部分前言　　雖然windows下, tomcat和solr整合起來灰常的方便, 但是, 一般像這種東西, 都很少部署在windows中, 更多的是部署到linux中去. 其實, 步驟是一樣的, 這裏,

Spring中整合Cage，實現驗證碼功能

ger 類型 body match exce sub pom esp rec 1.pom.xml中添加Cage依賴。 <dependency> <groupId>com.github.cage</groupId

向scrapy中的spider傳參，實現增量

爬蟲 scrapy有時候需要根據項目的實際需求向spider傳遞參數來控制spider的運行方式。比如說，1.根據用戶提交的url來控制spider爬取的網站。2.根據需求增量爬取數據。今天就寫一個增量（augmenter）的方式：1.首先在spider裏添加註：在網上也看了不少的博客，最後發現*args,

eclipse中整合ejb和web工程

script rip 後綴 desc 工作區 clip jee enter ner 用 Eclipse JEE 版本的話，新建一個 Enterprise Application Project 工程（New --> Java EE --> Enterprise

如何Spring Cloud Zuul作為網關的分布式系統中整合Swagger文檔在同一個頁面上

eth 參數獲取 tps rms 方法顯示 ray component 本文不涉及技術，只是單純的一個小技巧。閱讀本文前，你需要對spring-cloud-zuul、spring-cloud-eureka、以及swagger的配置和使用有所了解。如果你的系統也是用z

Scrapy中整合selenium

相關推薦