使用Selenium爬取動態網頁

阿新 • • 發佈：2019-01-26

使用selenium優點：所見既所得

通過page_source屬性可以獲得網頁原始碼

selenium可以驅動瀏覽器完成各種操作，如填充表單、模擬點選等。

獲取單個節點的方法：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partical_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

#另外，selenium還提供了通用方法find_element(),它需要傳入兩個引數：查詢方式By和值

獲取多個節點的方法：

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partical_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

節點互動：

比較常用的方法：
輸入文字時使用send_keys()方法，清空文字使用clear（）方法，點選按鈕使用click（）方法

執行javascript

對於某些操作，Selenium API並沒有提供，比如，下拉進度條，可以直接模擬執行JavaScript，此時使用execute_script（）方法即可實現


from selenium import webdriver

browser = webdriver.Chorme()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

有了這個方法，基本上API沒有提供的所有功能都可以執行JavaScript的方式來實現

異常處理（使用try except語句來捕獲各種異常）

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print("Time Out")
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

下面給出一個爬取淘寶網的例子

scrapy startproject Taobao
scrapy genspider taobao www.taobao.com

#taobao.py

import scrapy

class TaobaoSpider(scrapy.Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']

    def start_requests(self):
        urls = ['http://www.taobao.com/']
        for url in urls:
            req = scrapy.Request(url,callback='self.parse，meta={"use_selenium":True}')
            yield req

    def parse(self,response):
        print(response.body)

#setting.py
#啟用
ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
   'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
   'Taobao.pipelines.TaobaoPipeline': 300,
}

#middlewares.py
#在中介軟體中設定selenium訪問動態網頁
#在``def process_request(self,request,spider)``中新增下列程式碼

def process_request(self,request,spider):
    #使用兩種方法判斷是否使用selenium
    #if spider.name == "taobao":    #第一種方法
    if request.meta.get('use_selenium'):
        #設定無介面執行ChromeDriver
        option = Options（）
        option.add_argument('--headless')
        driver = webdriver.Chrome(chrome_options=option)

        #有介面執行ChromeDriver,如使用有介面時，將下面一行程式碼替換上面三行程式碼
        #driver = webdriver.Chorme()

        driver.implicitly_wait(15)
        driver.get(request.url)

        #執行js，獲取動態頁面的整個頁面
        js = 'window.scrollTo(0,document.body.scrollHeight)'
        driver.execute_script(js)
        content = driver.page_source

        resp = HtmlResponse(request.url,request=request,body=content)
        return resp  #被解析函式parse接收
    return None

Python3+Selenium爬取動態網頁資料

背景：有時候想獲取網頁的資訊，然後下載裡面的圖片資料等等遇到的問題：有時一些網頁是動態的，一些內容是通過js非同步拉取，甚至拉取時間是懶載入的，例如滾動到元素位置的時候才載入解決方案：這個時候就需要Selenium神器了 Selenium 是什麼？一句話

Python使用selenium爬取動態網頁時遇到的問題

我們在做京東手機資訊的爬取時，遇到的一些問題，現在就來跟大家分享一下。 1.首先，京東的網頁是動態的，當我們搜尋一個商品時，需要把頁面往下翻，下面的內容才會出來，這也是我們選selenium方法的原因解決方法：讓瀏覽器模擬下拉幾次頁面即可 from selen

使用Selenium爬取動態網頁

使用selenium優點：所見既所得通過page_source屬性可以獲得網頁原始碼 selenium可以驅動瀏覽器完成各種操作，如填充表單、模擬點選等。獲取單個節點的方法： find_element_by_id find_element_by_na

爬取動態網頁：Selenium

如何瀏覽器要去 nbsp ges selenium 安全性接口比較參考：http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬蟲過程中，一般情況下都是直接解析html源碼進行分析解析即可。但是

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

Python世界中Scrapy一直是爬蟲的一個較為成熟的解決方案，目前javascript在網頁中應用越來越廣泛，越來越多的網站選擇使用javascript動態的生成網頁的內容，使得很多純html的爬蟲解決方案失效。針對這種動態網站的爬取，目前也有很多解決方案。

selenium和PhantomJS爬取動態網頁

一、selenium和PhantomJS用法簡介 selenium是web的自動化測試工具，類似按鍵精靈，可以直接執行在瀏覽器上。 pip install selenium PhantomJS是基於

爬取動態網頁中關於構造瀏覽器頭的註意事項

rand 服務器 mage 地址 span gzip 原來動態網頁 ati 在原來爬取動態網頁圖片中，獲取到了圖片的實際地址，但是下載下來的圖片是損壞的，究其原因，是服務器端阻止了訪問，但是觀察發現 headers = {‘User-Agent‘: random.cho

網路爬蟲：爬取動態網頁

import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '

python 爬取動態網頁（百度圖片）

# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字

利用selenium爬取動態渲染的頁面

說明對於有些網站來說，他的網頁不是純HTML標籤加載出來的，而是用javascript渲染出來的，對於這樣的網頁，如果單純的靠正則表示式、XPath來解析是行不通的。對於這樣的網頁，一是我們可以分析ajax請求，分析ajax引數發現其規律，自行模擬ajax請求

R語言爬取動態網頁之環境準備

　　在R實現pm2.5地圖資料展示文章中，使用rvest包實現了靜態頁面的資料抓取，然而rvest只能抓取靜態網頁，而諸如ajax非同步載入的動態網頁結構無能為力。在R語言中，爬取這類網頁可以使用RSelenium包和Rwebdriver包。　　RSelenium包和Rwebdriver包都是

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

Python如何爬取動態網頁資料

1.引言說到爬網頁，我們一般的操作是先檢視原始碼或者審查元素，找到資訊所在節點，然後用 beautifulsoup/xpth/re 來獲取資料，這是我們對付靜態網頁的常用手段。但大家也知

nodejs 爬取動態網頁

前言準備工作建立工程後記前言昨天實現了草榴的爬取 nodejs 做一個簡單的爬蟲爬草榴，今天對程式碼做了一部分修改，增加了可以指定開始頁和結束頁，並且給所有檔案都單獨建立了資料夾。那麼問題來了，說好的爬街拍圖

python爬取動態網頁

還記得在之前一篇python開發電影查詢系統（一）—python實現後臺資料中，對電影的下載地址無法進行爬取，原因是下載地址在網頁原始碼中無法檢視，而是存放在js中，動態載入了。所以在爬取時，我在文章中寫道現在，我們找到了攻破他反爬的方法。下面我來詳細介

爬蟲爬取動態網頁下載美女圖片

scrapy爬取動態網頁下載圖片靜態頁面練習了後，我們開始來爬取動態頁面，為了滿足廣大程式猿的需求，在這裡就選擇360圖片吧，網址是image.so.com。希望大家學會後身體一天不如一天。首先我們來分析這個網頁，開啟開發者工具，滑動頁面等加載出新的圖片

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

python使用selenium爬取js加密的網頁

python使用selenium爬取js加密的網頁我們經常使用Python從網站上爬取我們喜歡的圖片，比如從煎蛋網爬取妹子圖。現在雖然煎蛋網取消了“OOXX”欄目，但是至少把名字換成了隨手拍，我今天想從該網站爬取妹子圖，去發現沒有辦法從爬取的程式碼中找到 ‘.jpg’ 關鍵詞，這就尷尬了

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

使用Selenium爬取動態網頁

相關推薦