scrapy+selenium+chromedriver解析動態渲染頁面

阿新 • • 發佈：2019-03-01

wait tab rim 增加 encoding war 互動 ogg @class

背景：動態頁面是頁面是通過js代碼渲染出來的，無法直接使用scrapy爬蟲，這是就需要先把js代碼轉為靜態的html，再用scrapy爬蟲就可以解決

解決辦法：增加SeleniumMiddlewares中間件

代碼：　

class SeleniumMiddleware(object):
    def __init__(self,timeout=25):
        chrome_options = Options()
        prefs = {
            ‘profile.default_content_setting_values‘: {
                ‘images‘: 2,  # 禁用圖片的加載
 
                ‘javascript‘: 2  # 禁用js，可能會導致通過js加載的互動數抓取失效
            }
        }
        chrome_options.add_experimental_option("prefs", prefs)
        self.browser = webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver",chrome_options=chrome_options)
        self.timeout = timeout
 
        self.browser.maximize_window()
        # self.browser.implicitly_wait(20)
        # self.browser.set_page_load_timeout(25)
        self.browser.set_page_load_timeout(self.timeout)
        self.wait = WebDriverWait(self.browser, self.timeout)

    def __del__(self):
        self.browser.close()

    def process_request(self, request, spider):
 
        """
           用ChromeDriver抓取頁面
           :param request: Request對象
           :param spider: Spider對象
           :return: HtmlResponse
           """
        logging.info(‘******ChromeDriver is Starting******‘)
        try:
            self.browser.get(request.url)
            self.wait.until(EC.presence_of_element_located((By.XPATH, ‘//div[@class="s-result-list sg-row"]‘)))
            time.sleep(2)
            return HtmlResponse(url=request.url, body=self.browser.page_source, request=request, encoding=‘utf-8‘,
                            status=200)
        except TimeoutException:
            return HtmlResponse(url=request.url, status=500, request=request)

在setting文件中增加如下配置：

DOWNLOADER_MIDDLEWARES = {
    #    ‘amazon.middlewares.AmazonDownloaderMiddleware‘: 543,
    ‘amazon.custom_rewrite.SeleniumMiddlewares.SeleniumMiddleware‘: 541, #自定義selenium中間件
}

scrapy+selenium+chromedriver解析動態渲染頁面

wait tab rim 增加 encoding war 互動 ogg @class 背景：動態頁面是頁面是通過js代碼渲染出來的，無法直接使用scrapy爬蟲，這是就需要先把js代碼轉為靜態的html，再用scrapy爬蟲就可以解決解決辦法：增加SeleniumMid

scrapy 爬取 javscript 動態渲染頁面

load 簡單下午 net xpath 列表 find 一個 data 前言初因是給寶寶制作拼音卡點讀包時，要下載賣家提供給的MP3，大概有2百多個。作為一個會碼代碼的非專業人士，怎麽可能取一個一個下載？所以就決定用python 的 scrapy 框架寫個爬蟲,去下載這

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

利用selenium爬取動態渲染的頁面

說明對於有些網站來說，他的網頁不是純HTML標籤加載出來的，而是用javascript渲染出來的，對於這樣的網頁，如果單純的靠正則表示式、XPath來解析是行不通的。對於這樣的網頁，一是我們可以分析ajax請求，分析ajax引數發現其規律，自行模擬ajax請求

Selenium用法筆記（解決動態渲染頁面）

Selenium庫，主要用來做自動化測試，爬蟲中用來解決JavaScript渲染的問題需要安裝selenium庫，以及瀏覽器的驅動（Chrome瀏覽器安裝ChromeDriver）一、基本使用

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

python動態渲染頁面的爬取--使用Selenium

2018年4月26日 10:05 一、安裝相關包和軟體 1、安裝Selenium包 Pip3 install Selenium 2、安裝chromedriver 訪問chromedriver映象站，下載對應版本的chromedriver，例如我

Python web 動態渲染頁面的抓取

通過直接分析ajax資訊,我們仍然可以利用request或者urllib來獲取資訊,但是,JavaScript動態渲染頁面的方式不僅只有ajax一種,也不是傳統的html頁面資訊,運用模擬瀏覽器的執行方式來獲取資訊,只要瀏覽器能接收到,我們就能獲取出來.在 Python 中提供了許多模擬瀏覽器執行的

瀏覽器如何解析程式碼渲染頁面

最近看到有的朋友在糾結我們程式碼和瀏覽器到底具體發生了什麼。　　我們從開啟瀏覽器一步一步開始。開啟瀏覽器輸入網址並搜尋瀏覽器解析網址併發送到DNS伺服器伺服器收到資訊後將相應的HTML,CSS,JS檔案等外部資源傳送給瀏覽器瀏覽器解析將HTML程式碼稱為DOM樹結構

微信小程式修改資料，並動態渲染頁面；修改陣列；

一、修改資料，並在頁面動態渲染　　this.setData({ 　　　　txt: '12112' 　　}) 二、修改陣列 var rotateClassItem = 'rotateClass['+ index + ']'; t

【程式碼】第7章動態渲染頁面爬取

7.1 selenium from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

Class 17 - 2 動態渲染頁面爬取 — Splash

一、Splash 的使用 Splash 是一個JavaScript 渲染服務，帶有 HTTP API的輕量級瀏覽器，同時對接了 Python 中的 Twisted 和 QT 庫。利用它，同樣可以實現動態渲染頁面的抓取。例項引入通過 Splash 提供的 Web 頁面來測試其渲染過

scrapy+selenium中關於同一個頁面模擬點選後，開啟新的標籤頁，切換到新頁面的方法

windows = spider.browser.current_window_handle # 定位當前頁面控制代碼 time.sleep(5) target = spider.browser.find_element_by_id("toolber-keyword") keyword

Scrapy Selenium實戰：Selenium登入知乎儲存cookies後訪問需要登入頁面

Scrapy Selenium實戰：Selenium登入知乎儲存cookies後訪問需要登入頁面安裝 chromedriver 新建爬蟲 zhihu.py 獲取瀏覽器真實的User-Agent 執行驗證

js動態修改Easyui元素不生效,EasyUI動態渲染解析解決方案

easyui的渲染是在在網頁載入完成後，相當於在$(document).ready()事件中，對整個網頁進行了一次掃描，發現某個input標籤含有easyui的屬性，就在相應的地方進行ui的修改。因此，如果我們用什麼append、appendTo方法動態在頁面中插入一段html程式碼，或者用什麼addClas

Selenium及Headless Chrome抓取動態HTML頁面

一般的的靜態HTML頁面可以使用requests等庫直接抓取，但還有一部分比較複雜的動態頁面，這些頁面的DOM是動態生成的，有些還需要使用者與其點選互動，這些頁面只能使用真實的瀏覽器引擎動態解析，Selenium和Chrome Headless可以很好的達到這種目的。 Headless Chrome He

web頁面載入、解析、渲染過程

對web專案進行優化首先得知道瀏覽器是怎麼工作的這裡推薦中文版；一、瀏覽器瀏覽器的主要功能是將使用者選擇的web資源呈現出來，它需要從伺服器請求資源，並將其顯示在瀏覽器視窗中，資源的格式通常是HTML，也包括PDF、image及其他格式。使用者用URI（Unifo

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

Python使用Selenium和PhantomJS解析動態JS的網頁

有的網頁，不能直接通過wget，curl等命令、或者直接使用Python中的urllib，urllib2等這樣的函式庫來直接獲取其真正展現給使用者的資訊，因為裡面包含有JavaScript指令碼（而該JS和頁面資料的生成相關），需要通過Firefox、Chrome等瀏覽器

scrapy+selenium+chromedriver解析動態渲染頁面

相關推薦