Python 爬蟲基礎Selenium庫的使用（二十二01）

阿新 • • 發佈：2019-02-09

（一）Selenium基礎

1.Selenium簡介

Selenium是一個用於測試網站的自動化測試工具，支援各種瀏覽器包括Chrome、Firefox、Safari等主流介面瀏覽器，同時也支援phantomJS無介面瀏覽器。

2.支援多種作業系統

如Windows、Linux、IOS、Android等。

3.安裝Selenium

pip install Selenium

4.安裝瀏覽器驅動

Selenium3.x呼叫瀏覽器必須有一個webdriver驅動檔案

5.配置環境變數

設定瀏覽器的地址非常簡單。我們可以手動建立一個存放瀏覽器驅動的目錄，如： F:\GeckoDriver , 將下載的瀏覽器驅動檔案（例如：chromedriver、geckodriver）丟到該目錄下。

我的電腦–>屬性–>系統設定–>高階–>環境變數–>系統變數–>Path，將“F:\GeckoDriver”目錄新增到Path的值中。比如：Path欄位;F:\GeckoDriver

(二)Selenium 快速入門

1.Selenium提供了8種定位方式:

id
name
class name
tag name
link text
partial link text
xpath
css selector

2.定位元素的8種方式

定位一個元素	定位多個元素	含義
find_element_by_id	find_elements_by_id	通過元素id定位
find_element_by_name	find_elements_by_name	通過元素name定位
find_element_by_xpath	find_elements_by_xpath	通過xpath表示式定位
find_element_by_link_text	find_elements_by_link_tex	通過完整超連結定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	通過部分連結定位
find_element_by_tag_name	find_elements_by_tag_name	通過標籤定位
find_element_by_class_name	find_elements_by_class_name	通過類名進行定位
find_elements_by_css_selector	find_elements_by_css_selector	通過css選擇器進行定位

3.例項演示

假如我們有一個Web頁面，通過前端工具（如，Firebug）檢視到一個元素的屬性是這樣的。

<html>
  <head>
  <body link="#0000cc">
    <a id="result_logo" href="/" onmousedown="return c({'fm':'tab','tab':'logo'})">
    <form id="form" class="fm" name="f" action="/s">
      <span class="soutu-btn"></span>
        <input id="kw" class="s_ipt" name="wd" value="" maxlength="255" autocomplete="off">

通過id定位:

dr.find_element_by_id("kw")

通過name定位:

dr.find_element_by_name("wd")

通過class name定位:

dr.find_element_by_class_name("s_ipt")

通過tag name定位:

dr.find_element_by_tag_name("input")

通過xpath定位，xpath定位有N種寫法，這裡列幾個常用寫法:

dr.find_element_by_xpath("//*[@id='kw']")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@class='soutu-btn']/input")
dr.find_element_by_xpath("//form[@id='form']/span/input")
dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")

通過css定位，css定位有N種寫法，這裡列幾個常用寫法:

dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

接下來，我們的頁面上有一組文字連結。

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新聞</a>
<a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a>

通過link text定位:

dr.find_element_by_link_text("新聞")
dr.find_element_by_link_text("hao123")

通過partial link text定位:

dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

4.Selenium庫下webdriver模組常用方法的使用

1.控制瀏覽器操作的一些方法

方法	說明
set_window_size()	設定瀏覽器的大小
back()	控制瀏覽器後退
forward()	控制瀏覽器前進
refresh()	重新整理當前頁面
clear()	清除文字
send_keys (value)	模擬按鍵輸入
click()	單擊元素
submit()	用於提交表單
get_attribute(name)	獲取元素屬性值
is_displayed()	設定該元素是否使用者可見
size	返回元素的尺寸
text	獲取元素的文字

例項演示

from selenium import webdriver

from time import sleep
#1.建立Chrome瀏覽器物件，這會在電腦上在開啟一個瀏覽器視窗
browser = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")

#2.通過瀏覽器向伺服器傳送URL請求
browser.get("https://www.baidu.com/")

sleep(3)

#3.重新整理瀏覽器
browser.refresh()

#4.設定瀏覽器的大小
browser.set_window_size(1400,800)

#5.設定連結內容
element=browser.find_element_by_link_text("新聞")
element.click()

element=browser.find_element_by_link_text("習近平的“下團組”時間")
element.click()

2.滑鼠事件

在 WebDriver 中，將這些關於滑鼠操作的方法封裝在 ActionChains 類提供。

方法	說明
ActionChains(driver)	構造ActionChains物件
context_click()	執行滑鼠懸停操作
move_to_element(above)	右擊
double_click()	雙擊
drag_and_drop()	拖動
move_to_element(above)	執行滑鼠懸停操作
context_click()	用於模擬滑鼠右鍵操作，在呼叫時需要指定元素定位
perform()	執行所有 ActionChains 中儲存的行為，可以理解成是對整個操作的提交動作

例項演示

這裡寫圖片描述


from selenium import webdriver
#1.引入 ActionChains 類
from selenium.webdriver.common.action_chains import ActionChains

driver= webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")

driver.get("https://www.baidu.cn")

#2.定位到要懸停的元素
element= driver.find_element_by_link_text("設定")

#3.對定位到的元素執行滑鼠懸停操作
ActionChains(driver).move_to_element(element).perform()

3.鍵盤事件

Selenium中的Key模組為我們提供了模擬鍵盤按鍵的方法，那就是send_keys()方法。它不僅可以模擬鍵盤輸入，也可以模擬鍵盤的操作。

常用的鍵盤操作如下：

模擬鍵盤按鍵	說明
send_keys(Keys.BACK_SPACE)	刪除鍵（BackSpace）
send_keys(Keys.SPACE)	空格鍵(Space)
send_keys(Keys.TAB)	製表鍵(Tab)
send_keys(Keys.ESCAPE)	回退鍵（Esc）
send_keys(Keys.ENTER)	回車鍵（Enter）

組合鍵的使用

模擬鍵盤按鍵	說明
send_keys(Keys.CONTROL,‘a’)	全選（Ctrl+A）
send_keys(Keys.CONTROL,‘c’)	複製（Ctrl+C）
send_keys(Keys.CONTROL,‘x’)	剪下（Ctrl+X）
send_keys(Keys.CONTROL,‘v’)	貼上（Ctrl+V）
send_keys(Keys.F1…Fn)	鍵盤 F1…Fn

4.獲取斷言資訊

不管是在做功能測試還是自動化測試，最後一步需要拿實際結果與預期進行比較。這個比較的稱之為斷言。通過我們獲取title 、URL和text等資訊進行斷言。

屬性	說明
title	用於獲得當前頁面的標題
current_url	使用者獲得當前頁面的URL
text	獲取搜尋條目的文字資訊

例項演示

from selenium import webdriver
from time import sleep

driver = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

print('Before search================')

# 列印當前頁面title
title = driver.title
print(title)

# 列印當前頁面URL
now_url = driver.current_url
print(now_url)

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

print('After search================')

# 再次列印當前頁面title
title = driver.title
print(title)

# 列印當前頁面URL
now_url = driver.current_url
print(now_url)

# 獲取結果數目
user = driver.find_element_by_class_name('nums').text
print(user)

#關閉所有視窗
driver.quit()

列印輸出結果

Before search================
百度一下，你就知道
https://www.baidu.com/
After search================
selenium_百度搜索
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=selenium&rsv_pq=a1d51b980000e36e&rsv_t=a715IZaMpLd1w92I4LNUi7gKuOdlAz5McsHe%2FSLQeBZD44OUIPnjY%2B7pODM&rqlang=cn&rsv_enter=0&rsv_sug3=8&inputT=758&rsv_sug4=759
搜尋工具
百度為您找到相關結果約7,170,000個

5.設定元素等待:參考文獻

6.定位一組元素

定位一組元素的方法與定位單個元素的方法類似，唯一的區別是在單詞element後面多了一個s表示複數。

例項演示

from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

#1.定位一組元素
elements = driver.find_elements_by_xpath('//div/h3/a')
print(type(elements))

#2.迴圈遍歷出每一條搜尋結果的標題
for t in elements:
    print(t.text)
    element=driver.find_element_by_link_text(t.text)
    element.click()
    sleep(3)

driver.quit()

7.多表單切換

在Web應用中經常會遇到frame/iframe表單巢狀頁面的應用，WebDriver只能在一個頁面上對元素識別與定位，對於frame/iframe表單內嵌頁面上的元素無法直接定位。這時就需要通過switch_to.frame()方法將當前定位的主體切換為frame/iframe表單的內嵌頁面中。

方法	說明
switch_to.frame()	將當前定位的主體切換為frame/iframe表單的內嵌頁面中
switch_to.default_content()	跳回最外層的頁面

<html>
  <body>
    ...
    <iframe id="x-URS-iframe" ...>
      <html>
         <body>
           ...
           <input name="email" >

126郵箱登入框的結構大概是這樣子的，想要操作登入框必須要先切換到iframe表單。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.126.com")

driver.switch_to.frame('x-URS-iframe')
driver.find_element_by_name("email").clear()
driver.find_element_by_name("email").send_keys("username")
driver.find_element_by_name("password").clear()
driver.find_element_by_name("password").send_keys("password")
driver.find_element_by_id("dologin").click()
driver.switch_to.default_content()

driver.quit()

switch_to.frame() 預設可以直接取表單的id 或name屬性。如果iframe沒有可用的id和name屬性，則可以通過下面的方式進行定位。

……
#先通過xpth定位到iframe
xf = driver.find_element_by_xpath('//*[@id="x-URS-iframe"]')

#再將定位物件傳給switch_to.frame()方法
driver.switch_to.frame(xf)
……
driver.switch_to.parent_frame()

8.多視窗切換

在頁面操作過程中有時候點選某個連結會彈出新的視窗，這時就需要主機切換到新開啟的視窗上進行操作。WebDriver提供了switch_to.window()方法，可以實現在不同的視窗之間切換。

方法	說明
current_window_handle	獲得當前視窗控制代碼
window_handles	返回所有視窗的控制代碼到當前會話
switch_to.window()	用於切換到相應的視窗，與上一節的switch_to.frame()類似，前者用於不同視窗的切換，後者用於不同表單之間的切換。

例項演示

from selenium import webdriver
import time
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get("http://www.baidu.com")

#1.獲得百度搜索視窗控制代碼
sreach_windows = driver.current_window_handle

driver.find_element_by_link_text('登入').click()
driver.find_element_by_link_text("立即註冊").click()

#1.獲得當前所有開啟的視窗的控制代碼
all_handles = driver.window_handles

#3.進入註冊視窗
for handle in all_handles:
    if handle != sreach_windows:
        driver.switch_to.window(handle)
        print('跳轉到註冊視窗')
        driver.find_element_by_name("account").send_keys('123456789')
        driver.find_element_by_name('password').send_keys('123456789')
        time.sleep(2)
    
driver.quit()

9.警告框處理

在WebDriver中處理JavaScript所生成的alert、confirm以及prompt十分簡單，具體做法是使用 switch_to.alert 方法定位到 alert/confirm/prompt，然後使用text/accept/dismiss/ send_keys等方法進行操作。

方法	說明
text	返回 alert/confirm/prompt 中的文字資訊
accept()	接受現有警告框
dismiss()	解散現有警告框
send_keys(keysToSend)	傳送文字至警告框。keysToSend：將文字傳送至警告框。

例項演示



from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

# 滑鼠懸停至“設定”連結
link = driver.find_element_by_link_text('設定')
ActionChains(driver).move_to_element(link).perform()

# 開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()

#在此處設定等待2s否則可能報錯
time.sleep(2)
# 儲存設定
driver.find_element_by_class_name("prefpanelgo").click()
time.sleep(2)

# 接受警告框
driver.switch_to.alert.accept()

driver.quit()

10.下拉框選擇操作

匯入選擇下拉框Select類，使用該類處理下拉框操作。

from selenium.webdriver.support.select import Select

Select類的方法

方法	說明
select_by_value(“選擇值”)	相當於我們使用滑鼠選擇下拉框的值

有時我們會碰到下拉框，WebDriver提供了Select類來處理下拉框。如百度搜索設定的下拉框，如下圖：
這裡寫圖片描述

from selenium import webdriver
from selenium.webdriver.support.select import Select
from time import sleep

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

#1.滑鼠懸停至“設定”連結
driver.find_element_by_link_text('設定').click()
sleep(1)
#2.開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()
sleep(2)

#3.搜尋結果顯示條數
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50')  # 顯示50條

sleep(3)
driver.quit()

11.檔案上傳

對於通過input標籤實現的上傳功能，可以將其看作是一個輸入框，即通過send_keys()指定本地檔案路徑的方式實現檔案上傳。

通過send_keys()方法來實現檔案上傳:

from selenium import webdriver
import os

driver = webdriver.Firefox()
file_path = 'file:///' + os.path.abspath('upfile.html')
driver.get(file_path)

# 定位上傳按鈕，新增本地檔案
driver.find_element_by_name("file").send_keys('D:\\upload_file.txt')

driver.quit()

12.cookie操作

有時候我們需要驗證瀏覽器中cookie是否正確，因為基於真實cookie的測試是無法通過白盒和整合測試進行的。WebDriver提供了操作Cookie的相關方法，可以讀取、新增和刪除cookie資訊。

WebDriver操作cookie的方法:

方法	說明
get_cookies()	獲得所有cookie資訊
get_cookie(name)	返回字典的key為“name”的cookie資訊
add_cookie(cookie_dict)	新增cookie。“cookie_dict”指字典物件，必須有name 和value 值
delete_cookie(name,optionsString)	刪除cookie資訊。“name”是要刪除的cookie的名稱，“optionsString”是該cookie的選項，目前支援的選項包括“路徑”，“域”
delete_all_cookies()	刪除所有cookie資訊

例項演示


from selenium import webdriver
import time
browser = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
browser.get("http://www.youdao.com")

#1.列印cookie資訊
print('=====================================')
print("列印cookie資訊為：")
print(browser.get_cookies)

#2.新增cookie資訊
dict={'name':"name",'value':'Kaina'}
browser.add_cookie(dict)

print('=====================================')
print('新增cookie資訊為：')
#3.遍歷列印cookie資訊
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))
    
#4.刪除一個cookie
browser.delete_cookie('name')
print('=====================================')
print('刪除一個cookie')
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

print('=====================================')
print('刪除所有cookie後：')
#5.刪除所有cookie,無需傳遞引數
browser.delete_all_cookies()
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

time.sleep(3)
browser.close()

13.呼叫JavaScript程式碼

雖然WebDriver提供了操作瀏覽器的前進和後退方法，但對於瀏覽器滾動條並沒有提供相應的操作方法。在這種情況下，就可以藉助JavaScript來控制瀏覽器的滾動條。WebDriver提供了execute_script()方法來執行JavaScript程式碼。

用於調整瀏覽器滾動條位置的JavaScript程式碼如下：

<!-- window.scrollTo(左邊距,上邊距); -->
window.scrollTo(0,450);

window.scrollTo()方法用於設定瀏覽器視窗滾動條的水平和垂直位置。方法的第一個引數表示水平的左間距，第二個引數表示垂直的上邊距。其程式碼如下：

from selenium import webdriver
from time import sleep

#1.訪問百度
driver=webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("http://www.baidu.com")

#2.搜尋
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()

#3.休眠2s目的是獲得伺服器的響應內容，如果不使用休眠可能報錯
sleep(2)

#4.通過javascript設定瀏覽器視窗的滾動條位置
js="window.scrollTo(100,450);"
driver.execute_script(js)
sleep(3)

driver.close()

通過瀏覽器開啟百度進行搜尋，並且提前通過set_window_size()方法將瀏覽器視窗設定為固定寬高顯示，目的是讓窗口出現水平和垂直滾動條。然後通過execute_script()方法執行JavaScripts程式碼來移動滾動條的位置。

14.視窗截圖

自動化用例是由程式去執行的，因此有時候列印的錯誤資訊並不十分明確。如果在指令碼執行出錯的時候能對當前視窗截圖儲存，那麼通過圖片就可以非常直觀地看出出錯的原因。WebDriver提供了截圖函式get_screenshot_as_file()來擷取當前視窗。

截圖方法：

方法	說明
get_screenshot_as_file(self, filename)	用於擷取當前視窗，並把圖片儲存到本地

from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get('http://www.baidu.com')

driver.find_element_by_id('kw').send_keys('selenium')
driver.find_element_by_id('su').click()
sleep(2)

#1.擷取當前視窗，並指定截圖圖片的儲存位置
driver.get_screenshot_as_file("D:\\baidu_img.jpg")

driver.quit()

15.關閉瀏覽器

在前面的例子中我們一直使用quit()方法，其含義為退出相關的驅動程式和關閉所有視窗。除此之外，WebDriver還提供了close()方法，用來關閉當前視窗。例多視窗的處理，在用例執行的過程中打開了多個視窗，我們想要關閉其中的某個視窗，這時就要用到close()方法進行關閉了。

方法	說明
close()	關閉單個視窗
quit()	關閉所有視窗

Python 爬蟲基礎Selenium庫的使用（二十二01）

（一）Selenium基礎

1.Selenium簡介

2.支援多種作業系統

3.安裝Selenium

4.安裝瀏覽器驅動

5.配置環境變數

(二)Selenium 快速入門

1.Selenium提供了8種定位方式:

2.定位元素的8種方式

3.例項演示

4.Selenium庫下webdriver模組常用方法的使用

1.控制瀏覽器操作的一些方法

2.滑鼠事件

3.鍵盤事件

4.獲取斷言資訊

5.設定元素等待:參考文獻

6.定位一組元素

7.多表單切換

8.多視窗切換

9.警告框處理

10.下拉框選擇操作

11.檔案上傳

12.cookie操作

13.呼叫JavaScript程式碼

14.視窗截圖

15.關閉瀏覽器

相關推薦