python動態渲染頁面的爬取--使用Selenium

阿新 • • 發佈：2019-02-17

2018年4月26日

10:05

一、安裝相關包和軟體

1、安裝Selenium包

Pip3 install Selenium

2、安裝chromedriver

訪問chromedriver映象站，下載對應版本的chromedriver，例如我的瀏覽器版本為

安裝的的chromdriver為v2.38（其支援的瀏覽器版本為v65-67，在其支援範圍內，下載後將其加入系統環境變數）

3、對之前的安裝進行測試

執行以下程式碼，如果能正確彈出chrome瀏覽器視窗，則正常（不正常的情況下重點檢查chromedriver版本）

from selenium import webdriver

browser=webdriver.Chrome()

二、Selenium的相關功能

1、初始化

from selenium import webdriver

browser=webdriver.Chrome()

該程式碼完成了瀏覽器物件的初始化，呼叫了Chrome瀏覽器（Selenium同樣支援其他瀏覽器，如browser=webdriver.Firefox（），browser=webdriver.Safari（））

2、訪問頁面

browser.get('https://www.baidu.com') #執行了開啟百度網頁操作

print（browser.page_source) #輸出了網頁原始碼

Browser.close（）#關閉了瀏覽器

3、查詢節點

這裡以淘寶網為例，檢視淘寶首頁原始碼

發現淘寶首頁搜尋框部分的id和name均為q

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.taobao.com') #開啟淘寶網頁

input_first=browser.find_element_by_id('q') #根據id進行選擇

input_second=browser.find_element_by_css_selector('#q') #根據css選擇器進行選擇

input_third=browser.find_element_by_xpath('//*[@id="q"]') #Xpath進行獲取

print(input_first)

print(input_second)

print(input_third)

browser.close()

執行以上程式碼，輸出結果為

三種方式結果完全相同

4、簡單互動

From selenium import webdriver

Import time

browser=webdriver.Chrome()

browser.get('https://www.taobao.com') #開啟淘寶

input=browser.find_element_by_id('q') #找到id為q的節點，也就是搜尋框

input.send_keys('Ipad') #輸入ipad

time.sleep(1) #暫停1秒

input.clear() #清空之前輸入的內容

input.send_keys('MI6') #輸入MI 6

button=browser.find_element_by_class_name('btn-search') #找到搜尋按鈕

button.click() #點選搜尋

以上程式碼中包含了輸入，清空內容，點選三種常用動作

5、執行JavaScript

使用execute_script()方法可以執行JavaScript，從而實現API沒有實現的功能

例如以下程式碼

From selenium import webdriver

Import time

browser=webdriver.Chrome()

url=('https://www.zhihu.com/explore')

browser.get(url)

time.sleep(3)

browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

browser.execute_script('alert("ToBottom")')

該程式碼打開了知乎的explore頁面，並且呼叫JavaScript語句window.scrollTo(0,document.body.scrollHeight)翻頁到頁面最底部，

然後呼叫alert("ToBottom")輸出To Bottom

6、獲取節點資訊(需要選選中節點)

獲取屬性（get_attribute()）

Test= browser.find_element_by_id('p') #選中了id為P的節點

Print(test.get_attribute('class')) #輸出該節點的class

獲取文字（.text），獲取id（.id），獲取位置（.location），獲取標籤名（.tag_name),獲取大小（.size）

Test= browser.find_element_by_id('p') #選中了id為P的節點

Print(test.text)

7、延時等待（等待網頁加載出想要的內容，免得網速太慢跟不上節奏）

隱式等待（implicitly_wait（））——如果沒有想要找的節點，等待固定長的一段時間，時間完了再查詢

from selenium import webdriver

browser=webdriver.Chrome()

browser.implicitly_wait(5)

browser.get('https://www.zhihu.com/explore')

input=browser.find_element_by_class_name('zu-top-question')

print(input)

隱式等待5秒，五秒後沒找到報錯

顯式等待——指定最長時間，該時間內找到就返回值，到了最長時間仍沒有找到就報錯

程式碼略

8、前進和後退

訪問多個網頁時，使用back（）方法後退，forward（）方法前進

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.zhihu.com')

browser.get('https://www.mi.com')

browser.get('http://www.taobao.com')

browser.back()

browser.forward()

9、對cookie操作

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies()) #獲取cookie值

browser.add_cookie({'name':'test','domain':'www.zhihu.com','value':'germey'}) #新增cookie

print(browser.get_cookies())

browser.delete_all_cookies() #刪除所有cookie

print(browser.get_cookies())

8、對選項卡進行操作

Ps：這篇文章主要是學習筆記，OneNote編寫過程中有自動首字母大寫，可能有大小寫錯誤。

筆記來源於書《Python3網路爬蟲開發實戰》，作者崔慶才，很不錯的一本書，侵刪

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

【程式碼】第7章動態渲染頁面爬取

7.1 selenium from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

Class 17 - 2 動態渲染頁面爬取 — Splash

一、Splash 的使用 Splash 是一個JavaScript 渲染服務，帶有 HTTP API的輕量級瀏覽器，同時對接了 Python 中的 Twisted 和 QT 庫。利用它，同樣可以實現動態渲染頁面的抓取。例項引入通過 Splash 提供的 Web 頁面來測試其渲染過

python動態渲染頁面的爬取--使用Selenium

2018年4月26日 10:05 一、安裝相關包和軟體 1、安裝Selenium包 Pip3 install Selenium 2、安裝chromedriver 訪問chromedriver映象站，下載對應版本的chromedriver，例如我

Python web 動態渲染頁面的抓取

通過直接分析ajax資訊,我們仍然可以利用request或者urllib來獲取資訊,但是,JavaScript動態渲染頁面的方式不僅只有ajax一種,也不是傳統的html頁面資訊,運用模擬瀏覽器的執行方式來獲取資訊,只要瀏覽器能接收到,我們就能獲取出來.在 Python 中提供了許多模擬瀏覽器執行的

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

scrapy 爬取 javscript 動態渲染頁面

load 簡單下午 net xpath 列表 find 一個 data 前言初因是給寶寶制作拼音卡點讀包時，要下載賣家提供給的MP3，大概有2百多個。作為一個會碼代碼的非專業人士，怎麽可能取一個一個下載？所以就決定用python 的 scrapy 框架寫個爬蟲,去下載這

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

CA external 令行 sta 項目程序 str 輸入 tar 前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。一、代碼實現 1、修改Scrapy項目中的ite

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

Python3.X 爬蟲實戰（動態頁面爬取解析）

1 背景不知不覺關於 Python 3.X 爬蟲系列已經介紹瞭如下系列：到此關於 Python3.x 靜態頁面爬蟲的基礎核心基本已經介紹的差不多了，剩下的就是一些自己個性化的需求了，譬如爬取資料分析等，這種我們後面還會專門來說的。然而我們在該

Selenium用法筆記（解決動態渲染頁面）

Selenium庫，主要用來做自動化測試，爬蟲中用來解決JavaScript渲染的問題需要安裝selenium庫，以及瀏覽器的驅動（Chrome瀏覽器安裝ChromeDriver）一、基本使用

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

爬蟲系列5：scrapy動態頁面爬取的另一種思路

前面有篇文章給出了爬取動態頁面的一種思路，即應用Selenium+Firefox（參考《scrapy動態頁面爬取》）。但是selenium需要執行本地瀏覽器，比較耗時，不太適合大規模網頁抓取。事實上，還有一種執行效率更高的方法。就是事先分析js發出的GET或者POST請求

scrapy+selenium+chromedriver解析動態渲染頁面

wait tab rim 增加 encoding war 互動 ogg @class 背景：動態頁面是頁面是通過js代碼渲染出來的，無法直接使用scrapy爬蟲，這是就需要先把js代碼轉為靜態的html，再用scrapy爬蟲就可以解決解決辦法：增加SeleniumMid

python動態渲染頁面的爬取--使用Selenium

相關推薦