scrapy-splash 爬取網頁

阿新 • • 發佈：2020-09-23

現在大部分網頁內容都是由js動態載入得到，我們如果要使用scrapy靜態爬取是爬取不到內容的，所以需要引入js渲染引擎去載入js，也就是splash。

然後還要使用一個包scrapy-splash，這個包呼叫了splash例項的介面，用來支援scrapy做爬蟲。

Scrapy-Splash usesSplashHTTP API, so you also need a Splash instance.

1、啟動splash例項

文件：https://splash.readthedocs.io/en/stable/

使用docker啟動 docker run -p 8050:8050 scrapinghub/splash

2、安裝scrapy-splash

pip install scrapy-splash

3、在爬蟲中配置

https://pypi.org/project/scrapy-splash/

https://www.jianshu.com/p/9d0c53c97850

4、常見問題

① 瀏覽器可以直接訪問localhost:8050訪問splash例項，裡面可以實施渲染Lua指令碼，非常方便

② splash可以渲染Lua指令碼語言，支援的操作可參照官網文件，這裡舉例一般爬蟲需要的幾個功能：訪問網址、新增和獲取cookie, 輸入框，點選按鈕，新增代理等

lua = """
    function main(splash, args) 

    barcode = args.barcode
    splash:on_request(  #Register a function to be called before each HTTP request.
        function(request)
        request:set_proxy{'36.112.xxx.xxx', 25030 , username=nil, password=nil, type='HTTP'}
        end)
    splash:add_cookie{"ASP.NET_SessionId", "wptayq45fqbkbu55defy3245", path="/", domain="xxx.xx.com",httpOnly=True,secure=False} 

    assert(splash:go(args.url))
    assert(splash:wait(2))
    
    return {
        html = splash:html(),
        png = splash:png(),
        cookies = splash:get_cookies(),
        har = splash:har(),
        }
    end
"""

因為使用scrapy-splash，所以我們不能用scrapy的方法來操作cookies或者使用代理，這些都需要通過Lua指令碼。

③ scrapy中使用yield SplashRequest

yield SplashRequest(url, endpoint='execute', args={'lua_source': lua,'barcode':barcode,'cookie':cookie},
                    cache_args=['lua_source'], callback=self.parse_data)
args裡帶上需要新增的cookie或者其他引數比如模擬登陸就帶上username和psw

scrapy-splash 爬取網頁

現在大部分網頁內容都是由js動態載入得到，我們如果要使用scrapy靜態爬取是爬取不到內容的，所以需要引入js渲染引擎去載入js，也就是splash。

如何在scrapy中整合selenium爬取網頁的方法

1.背景我們在爬取網頁時一般會使用到三個爬蟲庫：requests，scrapy，selenium。requests一般用於小型爬蟲，scrapy用於構建大的爬蟲專案，而selenium主要用來應付負責的頁面（複雜js渲染的頁面，請求非常難構造，或

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python scrapy增量爬取例項及實現過程解析

這篇文章主要介紹了Python scrapy增量爬取例項及實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python如何使用BeautifulSoup爬取網頁資訊

這篇文章主要介紹了Python如何使用BeautifulSoup爬取網頁資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python利用Scrapy框架爬取豆瓣電影示例

本文例項講述了Python利用Scrapy框架爬取豆瓣電影。分享給大家供大家參考，具體如下：

Python基於pandas爬取網頁表格資料

以網頁表格為例：https://www.kuaidaili.com/free/ 該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

Python Scrapy圖片爬取原理及程式碼例項

1.在爬蟲檔案中只需要解析提取出圖片地址，然後將地址提交給管道在管道檔案對圖片進行下載和持久化儲存

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

Scrapy嘗試爬取微博熱搜

首先自己想要的item： 1 import scrapy 2 3 4 class WeiboItem(scrapy.Item): 5 6rank = scrapy.Field()

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

前言抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

關於使用scrapy框架爬取小說的進一步優化

一、背景：前面使用scrapy框架爬取小說時，需要修改兩個檔案內容才能開展新的爬取，考慮只修改一個檔案，把需要修改的引數都放入爬蟲檔案中。

利用python爬取網頁圖片

\"\"\"利用python爬取網頁圖片\"\"\" import requests import urllib from bs4 import BeautifulSoup import json

python如何爬取網頁中的文字

用Python進行爬取網頁文字的程式碼： #!/usr/bin/python # -*- coding: UTF-8 -*- import requests

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

PHP爬取網頁的主要方法，你掌握了嗎

這篇文章講的是PHP爬取網頁的主要方法，主要流程就是獲取整個網頁，然後正則匹配（關鍵的）。

爬取網頁資料例項

爬取拉勾網招聘的職位拉勾網，網址：https://www.lagou.com/ 比如我們要搜尋python的職位

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

python 爬取網頁天天基金

# encoding=utf-8 import pandas as pd import requests from lxml import etree import re import collections def fund_code_name():

scrapy-splash 爬取網頁

相關推薦