Selenium常用方法

阿新 • • 發佈：2019-02-17

超過 ast sent cit 搜索結果 row 打開網頁 php 內部

Selenium是一個自動化測試工具，利用它可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作，同時還可以獲取瀏覽器當前呈現的頁面的源代碼，做到可見即可爬。對於一些JavaScript動態渲染的頁面來說，此種抓取方式非常有效。本節中，就讓我們來感受一下它的強大之處吧。

1. 準備工作

本節以Chrome為例來講解Selenium的用法。在開始之前，請確保已經正確安裝好了Chrome瀏覽器並配置好了ChromeDriver。另外，還需要正確安裝好Python的Selenium庫，詳細的安裝和配置過程可以參考第1章。

2. 基本使用

準備工作做好之後，首先來大體看一下Selenium有一些怎樣的功能。示例如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
 
browser = webdriver.Chrome()
try:
    browser.get( 
‘https://www.baidu.com‘)
    input = browser.find_element_by_id(‘kw‘)
    input.send_keys(‘Python‘)
    input.send_keys(Keys.ENTER)
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_element_located((By.ID, ‘content_left‘)))
    print(browser.current_url)
    print(browser.get_cookies())
     
print(browser.page_source)
finally:
    browser.close()

運行代碼後發現，會自動彈出一個Chrome瀏覽器。瀏覽器首先會跳轉到百度，然後在搜索框中輸入Python，接著跳轉到搜索結果頁，如圖7-1所示。

技術分享圖片圖7-1 運行結果

搜索結果加載出來後，控制臺分別會輸出當前的URL、當前的Cookies和網頁源代碼：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=Python&rsv_pq=c94d0df9000a72d0&rsv_t=07099xvun1ZmC0bf6eQvygJ43IUTTUOl5FCJVPgwG2YREs70GplJjH2F%2BCQ&rqlang=cn&rsv_enter=1&rsv_sug3=6&rsv_sug2=0&inputT=87&rsv_sug4=87
[{‘secure‘: False, ‘value‘: ‘B490B5EBF6F3CD402E515D22BCDA1598‘, ‘domain‘: ‘.baidu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘BDORZ‘, ‘expiry‘: 1491688071.707553}, {‘secure‘: False, ‘value‘: ‘22473_1441_21084_17001‘, ‘domain‘: ‘.baidu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘H_PS_PSSID‘}, {‘secure‘: False, ‘value‘: ‘12883875381399993259_00_0_I_R_2_0303_C02F_N_I_I_0‘, ‘domain‘: ‘.www.baidu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘__bsi‘, ‘expiry‘: 1491601676.69722}]
<!DOCTYPE html><!--STATUS OK-->...</html>

源代碼過長，在此省略。可以看到，我們得到的當前URL、Cookies和源代碼都是瀏覽器中的真實內容。

所以說，如果用Selenium來驅動瀏覽器加載網頁的話，就可以直接拿到JavaScript渲染的結果了，不用擔心使用的是什麽加密系統。

下面來詳細了解一下Selenium的用法。

3. 聲明瀏覽器對象

Selenium支持非常多的瀏覽器，如Chrome、Firefox、Edge等，還有Android、BlackBerry等手機端的瀏覽器。另外，也支持無界面瀏覽器PhantomJS。

此外，我們可以用如下方式初始化：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

這樣就完成了瀏覽器對象的初始化並將其賦值為browser對象。接下來，我們要做的就是調用browser對象，讓其執行各個動作以模擬瀏覽器操作。

4. 訪問頁面

我們可以用get()方法來請求網頁，參數傳入鏈接URL即可。比如，這裏用get()方法訪問淘寶，然後打印出源代碼，代碼如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com‘)
print(browser.page_source)
browser.close()

運行後發現，彈出了Chrome瀏覽器並且自動訪問了淘寶，然後控制臺輸出了淘寶頁面的源代碼，隨後瀏覽器關閉。

通過這幾行簡單的代碼，我們可以實現瀏覽器的驅動並獲取網頁源碼，非常便捷。

5. 查找節點

Selenium可以驅動瀏覽器完成各種操作，比如填充表單、模擬點擊等。比如，我們想要完成向某個輸入框輸入文字的操作，總需要知道這個輸入框在哪裏吧？而Selenium提供了一系列查找節點的方法，我們可以用這些方法來獲取想要的節點，以便下一步執行一些動作或者提取信息。

單個節點

比如，想要從淘寶頁面中提取搜索框這個節點，首先要觀察它的源代碼，如圖7-2所示。

技術分享圖片圖7-2 源代碼

可以發現，它的id是q，name也是q。此外，還有許多其他屬性，此時我們就可以用多種方式獲取它了。比如，find_element_by_name()是根據name值獲取，find_element_by_id()是根據id獲取。另外，還有根據XPath、CSS選擇器等獲取的方式。

我們用代碼實現一下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com‘)
input_first = browser.find_element_by_id(‘q‘)
input_second = browser.find_element_by_css_selector(‘#q‘)
input_third = browser.find_element_by_xpath(‘//*[@id="q"]‘)
print(input_first, input_second, input_third)
browser.close()

這裏我們使用3種方式獲取輸入框，分別是根據ID、CSS選擇器和XPath獲取，它們返回的結果完全一致。運行結果如下：

<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")>
<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")>
<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")>

可以看到，這3個節點都是WebElement類型，是完全一致的。

這裏列出所有獲取單個節點的方法：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

另外，Selenium還提供了通用方法find_element()，它需要傳入兩個參數：查找方式By和值。實際上，它就是find_element_by_id()這種方法的通用函數版本，比如find_element_by_id(id)就等價於find_element(By.ID, id)，二者得到的結果完全一致。我們用代碼實現一下：

from selenium import webdriver
from selenium.webdriver.common.by import By
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com‘)
input_first = browser.find_element(By.ID, ‘q‘)
print(input_first)
browser.close()

實際上，這種查找方式的功能和上面列舉的查找函數完全一致，不過參數更加靈活。

多個節點

如果查找的目標在網頁中只有一個，那麽完全可以用find_element()方法。但如果有多個節點，再用find_element()方法查找，就只能得到第一個節點了。如果要查找所有滿足條件的節點，需要用find_elements()這樣的方法。註意，在這個方法的名稱中，element多了一個s，註意區分。

比如，要查找淘寶左側導航條的所有條目，如圖7-3所示。

技術分享圖片

圖7-3 導航欄

就可以這樣來實現：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com‘)
lis = browser.find_elements_by_css_selector(‘.service-bd li‘)
print(lis)
browser.close()

運行結果如下：

[<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-1")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-2")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-3")>...<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-16")>]

這裏簡化了輸出結果，中間部分省略。

可以看到，得到的內容變成了列表類型，列表中的每個節點都是WebElement類型。

也就是說，如果我們用find_element()方法，只能獲取匹配的第一個節點，結果是WebElement類型。如果用find_elements()方法，則結果是列表類型，列表中的每個節點是WebElement類型。

這裏列出所有獲取多個節點的方法：

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

當然，我們也可以直接用find_elements()方法來選擇，這時可以這樣寫：

lis = browser.find_elements(By.CSS_SELECTOR, ‘.service-bd li‘)

結果是完全一致的。

6. 節點交互

Selenium可以驅動瀏覽器來執行一些操作，也就是說可以讓瀏覽器模擬執行一些動作。比較常見的用法有：輸入文字時用send_keys()方法，清空文字時用clear()方法，點擊按鈕時用click()方法。示例如下：

from selenium import webdriver
import time
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com‘)
input = browser.find_element_by_id(‘q‘)
input.send_keys(‘iPhone‘)
time.sleep(1)
input.clear()
input.send_keys(‘iPad‘)
button = browser.find_element_by_class_name(‘btn-search‘)
button.click()

這裏首先驅動瀏覽器打開淘寶，然後用find_element_by_id()方法獲取輸入框，然後用send_keys()方法輸入iPhone文字，等待一秒後用clear()方法清空輸入框，再次調用send_keys()方法輸入iPad文字，之後再用find_element_by_class_name()方法獲取搜索按鈕，最後調用click()方法完成搜索動作。

通過上面的方法，我們就完成了一些常見節點的動作操作，更多的操作可以參見官方文檔的交互動作介紹：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement。

7. 動作鏈

在上面的實例中，一些交互動作都是針對某個節點執行的。比如，對於輸入框，我們就調用它的輸入文字和清空文字方法；對於按鈕，就調用它的點擊方法。其實，還有另外一些操作，它們沒有特定的執行對象，比如鼠標拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

比如，現在實現一個節點的拖曳操作，將某個節點從一處拖曳到另外一處，可以這樣實現：

from selenium import webdriver
from selenium.webdriver import ActionChains
 
browser = webdriver.Chrome()
url = ‘http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable‘
browser.get(url)
browser.switch_to.frame(‘iframeResult‘)
source = browser.find_element_by_css_selector(‘#draggable‘)
target = browser.find_element_by_css_selector(‘#droppable‘)
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()

首先，打開網頁中的一個拖曳實例，然後依次選中要拖曳的節點和拖曳到的目標節點，接著聲明ActionChains對象並將其賦值為actions變量，然後通過調用actions變量的drag_and_drop()方法，再調用perform()方法執行動作，此時就完成了拖曳操作，如圖7-4和圖7-5所示。

技術分享圖片

圖7-4 拖曳前的頁面

技術分享圖片

圖7-5 拖曳後的頁面

更多的動作鏈操作可以參考官方文檔：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains。

8. 執行JavaScript

對於某些操作，Selenium API並沒有提供。比如，下拉進度條，它可以直接模擬運行JavaScript，此時使用execute_script()方法即可實現，代碼如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.zhihu.com/explore‘)
browser.execute_script(‘window.scrollTo(0, document.body.scrollHeight)‘)
browser.execute_script(‘alert("To Bottom")‘)

這裏就利用execute_script()方法將進度條下拉到最底部，然後彈出alert提示框。

所以說有了這個方法，基本上API沒有提供的所有功能都可以用執行JavaScript的方式來實現了。

9. 獲取節點信息

前面說過，通過page_source屬性可以獲取網頁的源代碼，接著就可以使用解析庫（如正則表達式、Beautiful Soup、pyquery等）來提取信息了。

不過，既然Selenium已經提供了選擇節點的方法，返回的是WebElement類型，那麽它也有相關的方法和屬性來直接提取節點信息，如屬性、文本等。這樣的話，我們就可以不用通過解析源代碼來提取信息了，非常方便。

接下來，就看看通過怎樣的方式來獲取節點信息吧。

獲取屬性

我們可以使用get_attribute()方法來獲取節點的屬性，但是其前提是先選中這個節點，示例如下：

from selenium import webdriver
from selenium.webdriver import ActionChains
 
browser = webdriver.Chrome()
url = ‘https://www.zhihu.com/explore‘
browser.get(url)
logo = browser.find_element_by_id(‘zh-top-link-logo‘)
print(logo)
print(logo.get_attribute(‘class‘))

運行之後，程序便會驅動瀏覽器打開知乎頁面，然後獲取知乎的logo節點，最後打印出它的class。

控制臺的輸出結果如下：

<selenium.webdriver.remote.webelement.WebElement (session="e08c0f28d7f44d75ccd50df6bb676104", element="0.7236390660048155-1")>
zu-top-link-logo

通過get_attribute()方法，然後傳入想要獲取的屬性名，就可以得到它的值了。

獲取文本值

每個WebElement節點都有text屬性，直接調用這個屬性就可以得到節點內部的文本信息，這相當於Beautiful Soup的get_text()方法、pyquery的text()方法，示例如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
url = ‘https://www.zhihu.com/explore‘
browser.get(url)
input = browser.find_element_by_class_name(‘zu-top-add-question‘)
print(input.text)

這裏依然先打開知乎頁面，然後獲取“提問”按鈕這個節點，再將其文本值打印出來。

獲取id、位置、標簽名和大小

另外，WebElement節點還有一些其他屬性，比如id屬性可以獲取節點id，location屬性可以獲取該節點在頁面中的相對位置，tag_name屬性可以獲取標簽名稱，size屬性可以獲取節點的大小，也就是寬高，這些屬性有時候還是很有用的。示例如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
url = ‘https://www.zhihu.com/explore‘
browser.get(url)
input = browser.find_element_by_class_name(‘zu-top-add-question‘)
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)

這裏首先獲得“提問”按鈕這個節點，然後調用其id、location、tag_name、size屬性來獲取對應的屬性值。

10. 切換Frame

我們知道網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部網頁的結構完全一致。Selenium打開頁面後，它默認是在父級Frame裏面操作，而此時如果頁面中還有子Frame，它是不能獲取到子Frame裏面的節點的。這時就需要使用switch_to.frame()方法來切換Frame。示例如下：

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
 
browser = webdriver.Chrome()
url = ‘http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable‘
browser.get(url)
browser.switch_to.frame(‘iframeResult‘)
try:
    logo = browser.find_element_by_class_name(‘logo‘)
except NoSuchElementException:
    print(‘NO LOGO‘)
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name(‘logo‘)
print(logo)
print(logo.text)

這裏還是以前面演示動作鏈操作的網頁為實例，首先通過switch_to.frame()方法切換到子Frame裏面，然後嘗試獲取父級Frame裏的logo節點（這是不能找到的），如果找不到的話，就會拋出NoSuchElementException異常，異常被捕捉之後，就會輸出NO LOGO。接下來，重新切換回父級Frame，然後再次重新獲取節點，發現此時可以成功獲取了。

所以，當頁面中包含子Frame時，如果想獲取子Frame中的節點，需要先調用switch_to.frame()方法切換到對應的Frame，然後再進行操作。

11. 延時等待

在Selenium中，get()方法會在網頁框架加載結束後結束執行，此時如果獲取page_source，可能並不是瀏覽器完全加載完成的頁面，如果某些頁面有額外的Ajax請求，我們在網頁源代碼中也不一定能成功獲取到。所以，這裏需要延時等待一定時間，確保節點已經加載出來。

這裏等待的方式有兩種：一種是隱式等待，一種是顯式等待。

隱式等待

當使用隱式等待執行測試的時候，如果Selenium沒有在DOM中找到節點，將繼續等待，超出設定時間後，則拋出找不到節點的異常。換句話說，當查找節點而節點並沒有立即出現的時候，隱式等待將等待一段時間再查找DOM，默認的時間是0。示例如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get(‘https://www.zhihu.com/explore‘)
input = browser.find_element_by_class_name(‘zu-top-add-question‘)
print(input)

這裏我們用implicitly_wait()方法實現了隱式等待。

顯式等待

隱式等待的效果其實並沒有那麽好，因為我們只規定了一個固定時間，而頁面的加載時間會受到網絡條件的影響。

這裏還有一種更合適的顯式等待方法，它指定要查找的節點，然後指定一個最長等待時間。如果在規定時間內加載出來了這個節點，就返回查找的節點；如果到了規定時間依然沒有加載出該節點，則拋出超時異常。示例如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
 
browser = webdriver.Chrome()
browser.get(‘https://www.taobao.com/‘)
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, ‘q‘)))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, ‘.btn-search‘)))
print(input, button)

這裏首先引入WebDriverWait這個對象，指定最長等待時間，然後調用它的until()方法，傳入要等待條件expected_conditions。比如，這裏傳入了presence_of_element_located這個條件，代表節點出現的意思，其參數是節點的定位元組，也就是ID為q的節點搜索框。

這樣可以做到的效果就是，在10秒內如果ID為q的節點（即搜索框）成功加載出來，就返回該節點；如果超過10秒還沒有加載出來，就拋出異常。

對於按鈕，可以更改一下等待條件，比如改為element_to_be_clickable，也就是可點擊，所以查找按鈕時查找CSS選擇器為.btn-search的按鈕，如果10秒內它是可點擊的，也就是成功加載出來了，就返回這個按鈕節點；如果超過10秒還不可點擊，也就是沒有加載出來，就拋出異常。

運行代碼，在網速較佳的情況下是可以成功加載出來的。

可以看到，控制臺成功輸出了兩個節點，它們都是WebElement類型。

如果網絡有問題，10秒內沒有成功加載，那就拋出TimeoutException異常，此時控制臺的輸出如下：

TimeoutException Traceback (most recent call last)
<ipython-input-4-f3d73973b223> in <module>()
      7 browser.get(‘https://www.taobao.com/‘)
      8 wait = WebDriverWait(browser, 10)
----> 9 input = wait.until(EC.presence_of_element_located((By.ID, ‘q‘)))

關於等待條件，其實還有很多，比如判斷標題內容，判斷某個節點內是否出現了某文字等。表7-1列出了所有的等待條件。

表7-1 等待條件及其含義

等待條件	含義
`title_is`	標題是某內容
`title_contains`	標題包含某內容
`presence_of_element_located`	節點加載出來，傳入定位元組，如`(By.ID, ‘p‘)`
`visibility_of_element_located`	節點可見，傳入定位元組
`visibility_of`	可見，傳入節點對象
`presence_of_all_elements_located`	所有節點加載出來
`text_to_be_present_in_element`	某個節點文本包含某文字
`text_to_be_present_in_element_value`	某個節點值包含某文字
`frame_to_be_available_and_switch_to_it`	加載並切換
`invisibility_of_element_located`	節點不可見
`element_to_be_clickable`	節點可點擊
`staleness_of`	判斷一個節點是否仍在DOM，可判斷頁面是否已經刷新
`element_to_be_selected`	節點可選擇，傳節點對象
`element_located_to_be_selected`	節點可選擇，傳入定位元組
`element_selection_state_to_be`	傳入節點對象以及狀態，相等返回`True`，否則返回`False`
`element_located_selection_state_to_be`	傳入定位元組以及狀態，相等返回`True`，否則返回`False`
`alert_is_present`	是否出現警告

關於更多等待條件的參數及用法，可以參考官方文檔：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions。

12. 前進和後退

平常使用瀏覽器時都有前進和後退功能，Selenium也可以完成這個操作，它使用back()方法後退，使用forward()方法前進。示例如下：

import time
from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.baidu.com/‘)
browser.get(‘https://www.taobao.com/‘)
browser.get(‘https://www.python.org/‘)
browser.back()
time.sleep(1)
browser.forward()
browser.close()

這裏我們連續訪問3個頁面，然後調用back()方法回到第二個頁面，接下來再調用forward()方法又可以前進到第三個頁面。

13. Cookies

使用Selenium，還可以方便地對Cookies進行操作，例如獲取、添加、刪除Cookies等。示例如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.zhihu.com/explore‘)
print(browser.get_cookies())
browser.add_cookie({‘name‘: ‘name‘, ‘domain‘: ‘www.zhihu.com‘, ‘value‘: ‘germey‘})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

首先，我們訪問了知乎。加載完成後，瀏覽器實際上已經生成Cookies了。接著，調用get_cookies()方法獲取所有的Cookies。然後，我們添加一個Cookie，這裏傳入一個字典，有name、domain和value等內容。接下來，再次獲取所有的Cookies。可以發現，結果就多了這一項新加的Cookie。最後，調用delete_all_cookies()方法刪除所有的Cookies。再重新獲取，發現結果就為空了。

控制臺的輸出如下：

[{‘secure‘: False, ‘value‘: ‘"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"‘, ‘domain‘: ‘.zhihu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘l_cap_id‘, ‘expiry‘: 1494196091.403418}]
[{‘secure‘: False, ‘value‘: ‘germey‘, ‘domain‘: ‘.www.zhihu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘name‘}, {‘secure‘: False, ‘value‘: ‘"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"‘, ‘domain‘: ‘.zhihu.com‘, ‘path‘: ‘/‘, ‘httpOnly‘: False, ‘name‘: ‘l_cap_id‘, ‘expiry‘: 1494196091.403418}]
[]

14. 選項卡管理

在訪問網頁的時候，會開啟一個個選項卡。在Selenium中，我們也可以對選項卡進行操作。示例如下：

import time
from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.baidu.com‘)
browser.execute_script(‘window.open()‘)
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get(‘https://www.taobao.com‘)
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get(‘https://python.org‘)

首先訪問了百度，然後調用了execute_script()方法，這裏傳入window.open()這個JavaScript語句新開啟一個選項卡。接下來，我們想切換到該選項卡。這裏調用window_handles屬性獲取當前開啟的所有選項卡，返回的是選項卡的代號列表。要想切換選項卡，只需要調用switch_to_window()方法即可，其中參數是選項卡的代號。這裏我們將第二個選項卡代號傳入，即跳轉到第二個選項卡，接下來在第二個選項卡下打開一個新頁面，然後切換回第一個選項卡重新調用switch_to_window()方法，再執行其他操作即可。

15. 異常處理

在使用Selenium的過程中，難免會遇到一些異常，例如超時、節點未找到等錯誤，一旦出現此類錯誤，程序便不會繼續運行了。這裏我們可以使用try except語句來捕獲各種異常。

首先，演示一下節點未找到的異常，示例如下：

from selenium import webdriver
 
browser = webdriver.Chrome()
browser.get(‘https://www.baidu.com‘)
browser.find_element_by_id(‘hello‘)

這裏首先打開百度頁面，然後嘗試選擇一個並不存在的節點，此時就會遇到異常。

運行之後控制臺的輸出如下：

NoSuchElementException Traceback (most recent call last)
<ipython-input-23-978945848a1b> in <module>()
      3 browser = webdriver.Chrome()
      4 browser.get(‘https://www.baidu.com‘)
----> 5 browser.find_element_by_id(‘hello‘)

可以看到，這裏拋出了NoSuchElementException異常，這通常是節點未找到的異常。為了防止程序遇到異常而中斷，我們需要捕獲這些異常，示例如下：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException
 
browser = webdriver.Chrome()
try:
    browser.get(‘https://www.baidu.com‘)
except TimeoutException:
    print(‘Time Out‘)
try:
    browser.find_element_by_id(‘hello‘)
except NoSuchElementException:
    print(‘No Element‘)
finally:
    browser.close()

這裏我們使用try except來捕獲各類異常。比如，我們對find_element_by_id()查找節點的方法捕獲NoSuchElementException異常，這樣一旦出現這樣的錯誤，就進行異常處理，程序也不會中斷了。

關於更多的異常類，可以參考官方文檔：http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions。

現在，我們基本對Selenium的常規用法有了大體的了解。使用Selenium，處理JavaScript不再是難事。

轉載請註明：靜覓 ? [Python3網絡爬蟲開發實戰] 7.1-Selenium的使用

Selenium常用方法

Selenium常用方法

1. 準備工作

2. 基本使用

3. 聲明瀏覽器對象

4. 訪問頁面

5. 查找節點

單個節點

多個節點

6. 節點交互

7. 動作鏈

8. 執行JavaScript

9. 獲取節點信息

獲取屬性

獲取文本值

獲取id、位置、標簽名和大小

10. 切換Frame

11. 延時等待

隱式等待

顯式等待

12. 前進和後退

13. Cookies

14. 選項卡管理

15. 異常處理

相關推薦