小白學 Python 爬蟲（28）：自動化測試框架 Selenium 從入門到放棄（下）

阿新 • • 發佈：2019-12-27

人生苦短，我用 Python

前文傳送門：

小白學 Python 爬蟲（1）：開篇

小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門

小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門

小白學 Python 爬蟲（5）：前置準備（四）資料庫基礎

小白學 Python 爬蟲（6）：前置準備（五）爬蟲框架的安裝

小白學 Python 爬蟲（7）：HTTP 基礎

小白學 Python 爬蟲（8）：網頁基礎

小白學 Python 爬蟲（9）：爬蟲基礎

小白學 Python 爬蟲（10）：Session 和 Cookies

小白學 Python 爬蟲（11）：urllib 基礎使用（一）

小白學 Python 爬蟲（12）：urllib 基礎使用（二）

小白學 Python 爬蟲（13）：urllib 基礎使用（三）

小白學 Python 爬蟲（14）：urllib 基礎使用（四）

小白學 Python 爬蟲（15）：urllib 基礎使用（五）

小白學 Python 爬蟲（16）：urllib 實戰之爬取妹子圖

小白學 Python 爬蟲（17）：Requests 基礎使用

小白學 Python 爬蟲（18）：Requests 進階操作

小白學 Python 爬蟲（19）：Xpath 基操

小白學 Python 爬蟲（20）：Xpath 進階

小白學 Python 爬蟲（21）：解析庫 Beautiful Soup（上）

小白學 Python 爬蟲（22）：解析庫 Beautiful Soup（下）

小白學 Python 爬蟲（23）：解析庫 pyquery 入門

小白學 Python 爬蟲（24）：2019 豆瓣電影排行

小白學 Python 爬蟲（25）：爬取股票資訊

小白學 Python 爬蟲（26）：為啥買不起上海二手房你都買不起

小白學 Python 爬蟲（27）：自動化測試框架 Selenium 從入門到放棄（一）

AJAX

在介紹互動之前，我們先簡單瞭解一下新名詞：AJAX 。

AJAX 全寫為 “Asynchronous Javascript And XML” （非同步 JavaScript 和 XML），是指一種建立互動式網頁應用的網頁開發技術。

AJAX 是一種在無需重新載入整個網頁的情況下，能夠更新部分網頁的技術。

重點來了，我們如果在網站中使用 AJAX ，可以在整個網頁不重新整理的情況下，更夠更新網頁上的顯示資訊（DOM 節點），也就是 DOM 節點，這種技術被廣泛的應用到各個網站之中，最開始的時候，大家都只是使用它更新部分的網頁，也不知道是哪位大佬異想天開：既然 AJAX 可以更新部分網頁，那麼能不能用它來更新全部網頁呢？這就產生了現代的前端框架：React 、 Vue 和 Angular。

這種思想，現在被更加廣泛的應用於各大網站之中，因為這種方式，前端頁面上只有最基礎的 DOM 節點，其餘所有的 DOM 節點都是由 JavaScript 動態渲染出來的，而 JavaScript 都是經過打包處理的，可讀性極差。

那麼為什麼要選用前端框架呢？ HTML + CSS + JQuery 就不行麼？

當然不是，其實之所以現在我們需要選擇框架，本質上是因為我們面臨的需求變了。大家肯定都明白如果我們只寫一個純展示資訊的頁面，沒有任何互動功能的頁面，其實即便是現在，我們也是不需要選擇框架的，我們只需要寫幾行 CSS 和 HTML 就可以完成任務。

所以是因為我們面臨的需求變得複雜了，我們的應用經常需要在執行時做一些互動。

現代的前端開發，我們開發的應用經常需要在執行時來做一些互動，這些互動在早期只是個幻燈片或者 Tab 切換下拉選單等一些簡單的互動，這些互動用 JQuery 實現完全沒什麼問題。但現代的前端我們的目標是用 Web 去 PK 原生應用，去和 Native 進行 PK 。

emmmmmmmmm，聊偏了，下面我們接著聊 Selenium 。

等待

如今，大多數 Web 應用程式都在使用 AJAX 技術。當瀏覽器載入頁面時，該頁面中的元素可能會以不同的時間間隔載入。這使定位元素變得困難：如果 DOM 中尚不存在元素，則定位函式將引發 ElementNotVisibleException 異常。使用等待，我們可以解決此問題。等待在執行的動作之間提供了一定的鬆弛時間-主要是定位元素或對該元素進行的任何其他操作。

Selenium Webdriver 提供兩種型別的等待-隱式和顯式。顯式等待使 WebDriver 等待特定條件發生，然後再繼續執行。隱式等待使 WebDriver 在嘗試查詢元素時輪詢DOM一定時間。

顯式等待

我們可以使用 time.sleep() 來設定等待時間，完全沒有問題，但是它需要將條件設定為要等待的確切時間段。如果我們不知道準確的渲染時間，我們就無法設定一個比較合適的值。

Selenium 為我們提供了 WebDriverWait 與 ExpectedCondition 來完成這件事情，看程式碼：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

driver.get("https://www.jd.com/")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "key"))
    )
finally:
    driver.quit()

結果如下：

<selenium.webdriver.remote.webelement.WebElement (session="b1baacca997d18d7d54447127c844d15", element="a472369e-3196-4456-b43e-4e1b280bf5b9")>

上面我們使用了 WebDriverWait 來設定最長等待時間，這裡我們選擇獲取 JD 首頁的輸入框，我們限定的等待時間為 10s ，如果它在 10s 內都無法返回結果，將會丟擲 TimeoutException 。預設情況下， WebDriverWait 每 500 毫秒呼叫 ExpectedCondition ，直到成功返回。

隱式等待

隱式等待告訴 WebDriver 在嘗試查詢不立即可用的一個或多個元素時在一定時間內輪詢 DOM 。預設設定為 0 。設定後，將在 WebDriver 物件的生存期內設定隱式等待。

from selenium import webdriver

driver = webdriver.Chrome()

driver.implicitly_wait(10) # seconds
driver.get("https://www.jd.com/")
key = driver.find_element_by_id("key")

print(key)

節點互動

Selenium 為我們提供了一些節點的互動動作，如輸入文字時可以用 send_keys() 方法，清空文字時可以用 clear() 方法，點選按鈕時可以用 click() 方法。

from selenium import webdriver
import time

driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.taobao.com/')
input = driver.find_element_by_id('q')
input.send_keys('IPad')
time.sleep(1)
input.clear()
input.send_keys('Surface Pro')
button = driver.find_element_by_class_name('btn-search')
button.click()

在上面這個示例中，我們先開啟淘寶網，並且開啟了隱式等待，先在搜尋框中輸入了 IPad ，在等待 1s 後刪除，再輸入了 Surface Pro ，然後點選了搜尋按鈕，先在淘寶搜尋需要使用者登入才能搜尋，所以我們直接跳轉到了登入頁。

執行 JavaScript

對於某些 Selenium API 沒有提供的操作，我們可以通過模擬執行 JavaScript 的方式來完成，用到的方法是 execute_script() ，比如我們在淘寶首頁將滾動條滑到底部：

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.taobao.com/')
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')

獲取資訊

前面我們介紹瞭如何拿到 DOM 節點，那麼最重要的是我們要從 DOM 節點上來獲取我們需要的資訊。

因為我們獲取的是 WebElement 型別，而 WebElement 也提供了相關的方法來提取節點資訊。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 例項化一個啟動引數物件
chrome_options = Options()
# 設定瀏覽器視窗大小
chrome_options.add_argument('--window-size=1366, 768')
# 啟動瀏覽器
driver = webdriver.Chrome(chrome_options=chrome_options)
url = 'https://www.geekdigging.com/'
driver.get(url)
title = driver.find_element_by_xpath('//*[@id="text-4"]/div/div/div[1]/div[2]/a')
print(title)
# 獲取屬性資訊
print(title.get_attribute('href'))
# 獲取文字資訊
print(title.text)
# 獲取位置
print(title.location)
# 獲取大小
print(title.size)

上面因為 Chrome 預設開啟大小有點小，開啟小編部落格的時候小編選擇的這個 DOM 節點正好看到，所以小編設定了一下 Chrome 瀏覽器開啟時的大小。

具體資訊的提取小編列出了一部分，都加好註釋了，還有一部分比較有意思的屬性小編列在下面，供大家參考：

parent：查詢到此元素的WebDriver例項的內部引用。
rect：具有元素大小和位置的字典。
screenshot_as_base64：以 base64 編碼字串的形式獲取當前元素的螢幕快照。
screenshot_as_png：以二進位制資料獲取當前元素的螢幕截圖。

最後這兩個獲取元素螢幕快照，在獲取驗證碼的時候將驗證碼截取出來會很好用的。

前進和後退

我們使用瀏覽器最上面的地方有一個前進和後退按鈕，Selenium 完成這兩個動作使用了 back() 和 forward() 這兩個方法。

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.jd.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.geekdigging.com/')
browser.back()
time.sleep(1)
browser.forward()

這個各位同學應該都看的懂，小編就不多囉嗦了。

Cookies

又到了一個重點內容， Cookies ，它是和服務端保持會話的一個重要元素。 Selenium 為我們提供了一些方法，讓我們可以方便的對 Cookies 進行增刪改查等操作。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.geekdigging.com/')
# 獲取 cookies
print(browser.get_cookies())
# 新增一個 cookie
browser.add_cookie({'name': 'name', 'domain': 'www.geekdigging.com', 'value': 'geekdigging'})
print(browser.get_cookies())
# 刪除所有 cookie
browser.delete_all_cookies()
print(browser.get_cookies())

Selenium 的簡單介紹就到這裡了，希望各位同學看完後能自己動手試一試，畢竟並不難。

示例程式碼

本系列的所有程式碼小編都會放在程式碼管理倉庫 Github 和 Gitee 上，方便大家取用。

示例程式碼-Github

示例程式碼-Gitee

參考

https://blog.csdn.net/caoxuecheng001/article/details/81290643

https://www.jianshu.com/p/02af89375b54

https://cuiqingcai.com/5630.h