spalsh安裝及簡單使用

阿新 • • 發佈：2022-03-22

selenium是瀏覽器測試自動化工具，很容易完成滑鼠點選，翻頁等動作，確定是一次只能載入一個頁面，無法非同步渲染頁面，也就限制了selenium爬蟲的抓取效率。
splash可以實現非同步渲染頁面，可以同時渲染幾個頁面。缺點是在頁面點選，，模擬登陸方面沒有selenium靈活。

1、安裝docker

使用官方安裝指令碼自動安裝
安裝命令如下：
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun

也可以使用國內 daocloud 一鍵安裝命令：
curl -sSL https://get.daocloud.io/docker | sh

2、docker安裝splash

docker安裝splash映象

[ywadmin@wzy_woyun ~]$docker pull scrapinghub/splash

#後臺執行

[ywadmin@wzy_woyun ~]$ docker run -d -p 8050:8050 --name=splash scrapinghub/splash

#root使用者開放8050埠

[root@wzy_woyun ~]# firewall-cmd --permanent --add-port=8050/tcp

success

[root@wzy_woyun ~]# firewall-cmd --reload

Success

splash啟動

開啟docker splash 服務

1.先啟動docker

2.拉取splash映象

docker pull scrapinghub/splash

3.啟動splash服務

docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash

4.在瀏覽器上開啟

普通的python 動態lua指令碼

新增請求頭請求url

function main(splash,args)
          local url=args.url
          splash:set_user_agent("Mozilla/5.0Chrome/69.0.3497.100Safari/537.36 
")
          splash:go(url)
          splash:wait(2)
          splash:go(url)
          return{
          html=splash:html(),
          png = splash:png()
          }
end

通過滑動來完成動態載入

function main(splash, args)
      splash:go(args.url)
      local scroll_to = splash:jsfunc("window.scrollTo")
      scroll_to(0, 2800)
      splash:set_viewport_full()
      splash:wait(5)
      return {html=splash:html()}
end

結合scarpy 來使用首先需要在settings中新增

SPLASH_URL = 'http://192.168.2.55:8050/'

DOWNLOADER_MIDDLEWARES = {
    'curreny.middlewares.ProcessAllException': 200,
    'curreny.middlewares.CurrenyDownloaderMiddleware': 543,
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}



DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

# 快取
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

然後在spider中新增lua指令碼

"""

平潭綜合實驗區人民政府

"""
import copy
import re
import time

import scrapy
import scrapy_splash
from curreny.items import CurrenyItem

class PingtancomprehensiveexperimentgovproSpider(scrapy.Spider):
    name = 'PingTanComprehensiveExperimentGovPro'
    # allowed_domains = ['xxx.com']
    start_urls = ['http://www.pingtan.gov.cn/jhtml/cn/8423']

    def start_requests(self):
        lua="""
            function main(splash, args)
              splash.images_enabled = false  
              assert(splash:go(args.url))
              assert(splash:wait(1))
              js = string.format("document.querySelector('body > div.container > div.main.clearfix > div > div.page > span:nth-child(4) > a').click();", args.page)
              splash:runjs(js)
              assert(splash:wait(5))
              return splash:html()
            end
        """
        url="http://www.pingtan.gov.cn/jhtml/cn/8423"
        for page in range(1,105):
            yield scrapy_splash.SplashRequest(
                url=url,
                endpoint="execute",
                args={
                    "url":url,
                    "lua_source":lua,
                    "page":page,
                    "wait":1
                },
                callback=self.parse
            )

    def parse(self, response,**kwargs):
        item = CurrenyItem()

        for li in response.css("body > div.container > div.main.clearfix > div > div.info_list.list > ul > li"):
            item["title_url"] = 'http://www.pingtan.gov.cn' + str(li.css("a::attr(href)").get())
            item["title_name"] = li.css("a::attr(title)").get()
            item["title_date"] = li.css("span::text").get()

            yield scrapy.Request(
                url=item['title_url'],
                callback=self.parse_detail,
                meta={'item': copy.deepcopy(item)}
            )

    # 詳情頁解析
    def parse_detail(self, response):
        item = response.meta['item']
        item['content_html'] = response.css('.detail').get()
        print(item['title_name'], item['title_url'], item['title_date'], )
        yield item

spalsh安裝及簡單使用

selenium是瀏覽器測試自動化工具，很容易完成滑鼠點選，翻頁等動作，確定是一次只能載入一個頁面，無法非同步渲染頁面，也就限制了selenium爬蟲的抓取效率。

vs2019安裝及簡單處理技巧（超詳細）

This is some text! （提醒:沒安裝vs的老鐵先安裝vs） 1.vs2019安裝教程 1.下載官網：點這裡

Cisco Packet Tracer安裝及簡單使用教程（初學者筆記）

Cisco Packet Tracer安裝及簡單使用教程安裝第一步：建立一個cisco賬戶網址：https://www.cisco.com/c-433f-a1d1-bc60f2c7066f&client_id=gni_sp_for_oneid&tab_id=s-zVKuGIKcE._rt_c2&nav

喵星之旅-狂奔的兔子-nginx入門（安裝及簡單配置）

@page { margin-top: 2cm margin-right: 2cm margin-bottom: 2cm margin-left: 2cm } h4.ctl { font-family: \"Lohit Devanagari\" }

C單元測試庫check的安裝及簡單使用

編譯check 1.原始碼路徑https://github.com/libcheck/check.git2.解壓縮unzip check-master.zip3.建立編譯目錄mkdir check-master/src/build4.用cmake命令編譯cd check-master/src/buildcmake ..make

MongoDB學習一：安裝及簡單使用

一、安裝： MongoDB 預編譯二進位制包下載地址：下載 .msi 檔案，下載後雙擊該檔案，按操作提示安裝即可。

Flask-Bootstrap安裝及簡單使用

技術標籤：elsewebbootstrap前端 Bootstrap Bootstrap 是一個用於快速開發 Web 應用程式和網站的前端框架，Bootstrap 是基於 HTML、CSS、JAVASCRIPT 的

Nginx 安裝及簡單使用

技術標籤：nginx Nginx 安裝及簡單使用步驟一、安裝二、配置三、執行命令步驟

Kettle的安裝及簡單使用

Kettle的安裝及簡單使用目錄Kettle的安裝及簡單使用一、kettle概述二、kettle安裝部署和使用Windows下安裝案例1：MySQL to MySQL案例2：使用作業執行上述轉換，並且額外在表stu2中新增一條資料案例3：將hive表的資

git的安裝及簡單使用

安裝 git各個平臺安裝包的下載地址：http://git-scm.com/downloads 國內window安裝包下載地址：https://npm.taobao.org/mirrors/git-for-windows/

django 安裝及簡單案例

一、在 anaconda 中新建執行python的虛擬環境 tuesday，因為今天是星期二，所以起個名字 tuesday，開啟虛擬環境目錄，可以看到：

react安裝及簡單使用

一、腳手架工具create-react-app安裝使用以下命令進行安裝： npm install -g create-react-app

mysql 5.7.20常用下載、安裝和配置方法及簡單操作技巧(解壓版免安裝)

話說凌晨剛折騰完一臺MySQL 5.7.19版本的安裝，未曾料到早上MySQL官方就釋出了最新的5.7.20版本。這個版本看似更新不多，但是加入了一個我們所急需的功能。

ETCD叢集安裝配置及簡單應用老版本

一、環境準備 CentOS Linux release 7.3.1611 (Core) etcd-v3.2.6 二、ETCD下載 https://github.com/coreos/etcd/releases/download/v3.2.6/etcd-v3.2.6-linux-amd64.tar.gz