Python 爬蟲基礎Selenium庫的使用
(一)Selenium基礎
入門教程:Selenium官網教程
1.Selenium簡介
Selenium是一個用於測試網站的自動化測試工具,支援各種瀏覽器包括Chrome、Firefox、Safari等主流介面瀏覽器,同時也支援phantomJS無介面瀏覽器。
2.支援多種作業系統
如Windows、Linux、IOS、Android等。
3.安裝Selenium
pip install Selenium
1
4.安裝瀏覽器驅動
Selenium3.x呼叫瀏覽器必須有一個webdriver驅動檔案
Chrome驅動檔案下載:點選下載chromedrive
Firefox驅動檔案下載:點解下載geckodriver
5.配置環境變數
設定瀏覽器的地址非常簡單。 我們可以手動建立一個存放瀏覽器驅動的目錄,如: F:\GeckoDriver , 將下載的瀏覽器驅動檔案(例如:chromedriver、geckodriver)丟到該目錄下。
我的電腦–>屬性–>系統設定–>高階–>環境變數–>系統變數–>Path,將“F:\GeckoDriver”目錄新增到Path的值中。比如:Path欄位;F:\GeckoDriver
參考瀏覽器驅動環境配置
(二)Selenium 快速入門
入門參考文獻:Selenium入門
1.Selenium提供了8種定位方式:
id
name
class name
tag name
link text
partial link text
xpath
css selector
2.定位元素的8種方式
參考:selenium元素定位
定位一個元素 定位多個元素 含義
find_element_by_id find_elements_by_id 通過元素id定位
find_element_by_name find_elements_by_name 通過元素name定位
find_element_by_xpath find_elements_by_xpath 通過xpath表示式定位
find_element_by_link_text find_elements_by_link_tex 通過完整超連結定位
find_element_by_partial_link_text find_elements_by_partial_link_text 通過部分連結定位
find_element_by_tag_name find_elements_by_tag_name 通過標籤定位
find_element_by_class_name find_elements_by_class_name 通過類名進行定位
find_elements_by_css_selector find_elements_by_css_selector 通過css選擇器進行定位
3.例項演示
假如我們有一個Web頁面,通過前端工具(如,Firebug)檢視到一個元素的屬性是這樣的。
<html>
<head>
<body link="#0000cc">
<a id="result_logo" href="/" onmousedown="return c({'fm':'tab','tab':'logo'})">
<form id="form" class="fm" name="f" action="/s">
<span class="soutu-btn"></span>
<input id="kw" class="s_ipt" name="wd" value="" maxlength="255" autocomplete="off">
通過id定位:
dr.find_element_by_id("kw")
1
通過name定位:
dr.find_element_by_name("wd")
1
通過class name定位:
dr.find_element_by_class_name("s_ipt")
1
通過tag name定位:
dr.find_element_by_tag_name("input")
1
通過xpath定位,xpath定位有N種寫法,這裡列幾個常用寫法:
dr.find_element_by_xpath("//*[@id='kw']")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@class='soutu-btn']/input")
dr.find_element_by_xpath("//form[@id='form']/span/input")
dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")
通過css定位,css定位有N種寫法,這裡列幾個常用寫法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")
接下來,我們的頁面上有一組文字連結。
<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新聞</a>
<a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a>
1
2
通過link text定位:
dr.find_element_by_link_text("新聞")
dr.find_element_by_link_text("hao123")
通過partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")
4.Selenium庫下webdriver模組常用方法的使用
1.控制瀏覽器操作的一些方法
方法 說明
set_window_size() 設定瀏覽器的大小
back() 控制瀏覽器後退
forward() 控制瀏覽器前進
refresh() 重新整理當前頁面
clear() 清除文字
send_keys (value) 模擬按鍵輸入
click() 單擊元素
submit() 用於提交表單
get_attribute(name) 獲取元素屬性值
is_displayed() 設定該元素是否使用者可見
size 返回元素的尺寸
text 獲取元素的文字
例項演示
from selenium import webdriver
from time import sleep
#1.建立Chrome瀏覽器物件,這會在電腦上在開啟一個瀏覽器視窗
browser = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
#2.通過瀏覽器向伺服器傳送URL請求
browser.get("https://www.baidu.com/")
sleep(3)
#3.重新整理瀏覽器
browser.refresh()
#4.設定瀏覽器的大小
browser.set_window_size(1400,800)
#5.設定連結內容
element=browser.find_element_by_link_text("新聞")
element.click()
element=browser.find_element_by_link_text("習近平的“下團組”時間")
element.click()
2.滑鼠事件
在 WebDriver 中, 將這些關於滑鼠操作的方法封裝在 ActionChains 類提供。
方法 說明
ActionChains(driver) 構造ActionChains物件
context_click() 執行滑鼠懸停操作
move_to_element(above) 右擊
double_click() 雙擊
drag_and_drop() 拖動
move_to_element(above) 執行滑鼠懸停操作
context_click() 用於模擬滑鼠右鍵操作, 在呼叫時需要指定元素定位
perform() 執行所有 ActionChains 中儲存的行為,可以理解成是對整個操作的提交動作
例項演示
from selenium import webdriver
#1.引入 ActionChains 類
from selenium.webdriver.common.action_chains import ActionChains
driver= webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.get("https://www.baidu.cn")
#2.定位到要懸停的元素
element= driver.find_element_by_link_text("設定")
#3.對定位到的元素執行滑鼠懸停操作
ActionChains(driver).move_to_element(element).perform()
3.鍵盤事件
Selenium中的Key模組為我們提供了模擬鍵盤按鍵的方法,那就是send_keys()方法。它不僅可以模擬鍵盤輸入,也可以模擬鍵盤的操作。
常用的鍵盤操作如下:
模擬鍵盤按鍵 說明
send_keys(Keys.BACK_SPACE) 刪除鍵(BackSpace)
send_keys(Keys.SPACE) 空格鍵(Space)
send_keys(Keys.TAB) 製表鍵(Tab)
send_keys(Keys.ESCAPE) 回退鍵(Esc)
send_keys(Keys.ENTER) 回車鍵(Enter)
組合鍵的使用
模擬鍵盤按鍵 說明
send_keys(Keys.CONTROL,‘a’) 全選(Ctrl+A)
send_keys(Keys.CONTROL,‘c’) 複製(Ctrl+C)
send_keys(Keys.CONTROL,‘x’) 剪下(Ctrl+X)
send_keys(Keys.CONTROL,‘v’) 貼上(Ctrl+V)
send_keys(Keys.F1…Fn) 鍵盤 F1…Fn
4.獲取斷言資訊
不管是在做功能測試還是自動化測試,最後一步需要拿實際結果與預期進行比較。這個比較的稱之為斷言。通過我們獲取title 、URL和text等資訊進行斷言。
屬性 說明
title 用於獲得當前頁面的標題
current_url 使用者獲得當前頁面的URL
text 獲取搜尋條目的文字資訊
例項演示
from selenium import webdriver
from time import sleep
driver = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")
print('Before search================')
# 列印當前頁面title
title = driver.title
print(title)
# 列印當前頁面URL
now_url = driver.current_url
print(now_url)
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)
print('After search================')
# 再次列印當前頁面title
title = driver.title
print(title)
# 列印當前頁面URL
now_url = driver.current_url
print(now_url)
# 獲取結果數目
user = driver.find_element_by_class_name('nums').text
print(user)
#關閉所有視窗
driver.quit()
列印輸出結果
Before search================
百度一下,你就知道
https://www.baidu.com/
After search================
selenium_百度搜索
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=selenium&rsv_pq=a1d51b980000e36e&rsv_t=a715IZaMpLd1w92I4LNUi7gKuOdlAz5McsHe%2FSLQeBZD44OUIPnjY%2B7pODM&rqlang=cn&rsv_enter=0&rsv_sug3=8&inputT=758&rsv_sug4=759
搜尋工具
百度為您找到相關結果約7,170,000個
5.設定元素等待:參考文獻
6.定位一組元素
定位一組元素的方法與定位單個元素的方法類似,唯一的區別是在單詞element後面多了一個s表示複數。
例項演示
from selenium import webdriver
from time import sleep
driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)
#1.定位一組元素
elements = driver.find_elements_by_xpath('//div/h3/a')
print(type(elements))
#2.迴圈遍歷出每一條搜尋結果的標題
for t in elements:
print(t.text)
element=driver.find_element_by_link_text(t.text)
element.click()
sleep(3)
driver.quit()
7.多表單切換
在Web應用中經常會遇到frame/iframe表單巢狀頁面的應用,WebDriver只能在一個頁面上對元素識別與定位,對於frame/iframe表單內嵌頁面上的元素無法直接定位。這時就需要通過switch_to.frame()方法將當前定位的主體切換為frame/iframe表單的內嵌頁面中。
方法 說明
switch_to.frame() 將當前定位的主體切換為frame/iframe表單的內嵌頁面中
switch_to.default_content() 跳回最外層的頁面
<html>
<body>
...
<iframe id="x-URS-iframe" ...>
<html>
<body>
...
<input name="email" >
126郵箱登入框的結構大概是這樣子的,想要操作登入框必須要先切換到iframe表單。
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://www.126.com")
driver.switch_to.frame('x-URS-iframe')
driver.find_element_by_name("email").clear()
driver.find_element_by_name("email").send_keys("username")
driver.find_element_by_name("password").clear()
driver.find_element_by_name("password").send_keys("password")
driver.find_element_by_id("dologin").click()
driver.switch_to.default_content()
driver.quit()
switch_to.frame() 預設可以直接取表單的id 或name屬性。如果iframe沒有可用的id和name屬性,則可以通過下面的方式進行定位。
……
#先通過xpth定位到iframe
xf = driver.find_element_by_xpath('//*[@id="x-URS-iframe"]')
#再將定位物件傳給switch_to.frame()方法
driver.switch_to.frame(xf)
……
driver.switch_to.parent_frame()
8.多視窗切換
在頁面操作過程中有時候點選某個連結會彈出新的視窗,這時就需要主機切換到新開啟的視窗上進行操作。WebDriver提供了switch_to.window()方法,可以實現在不同的視窗之間切換。
方法 說明
current_window_handle 獲得當前視窗控制代碼
window_handles 返回所有視窗的控制代碼到當前會話
switch_to.window() 用於切換到相應的視窗,與上一節的switch_to.frame()類似,前者用於不同視窗的切換,後者用於不同表單之間的切換。
例項演示
from selenium import webdriver
import time
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get("http://www.baidu.com")
#1.獲得百度搜索視窗控制代碼
sreach_windows = driver.current_window_handle
driver.find_element_by_link_text('登入').click()
driver.find_element_by_link_text("立即註冊").click()
#1.獲得當前所有開啟的視窗的控制代碼
all_handles = driver.window_handles
#3.進入註冊視窗
for handle in all_handles:
if handle != sreach_windows:
driver.switch_to.window(handle)
print('跳轉到註冊視窗')
driver.find_element_by_name("account").send_keys('123456789')
driver.find_element_by_name('password').send_keys('123456789')
time.sleep(2)
driver.quit()
9.警告框處理
在WebDriver中處理JavaScript所生成的alert、confirm以及prompt十分簡單,具體做法是使用 switch_to.alert 方法定位到 alert/confirm/prompt,然後使用text/accept/dismiss/ send_keys等方法進行操作。
方法 說明
text 返回 alert/confirm/prompt 中的文字資訊
accept() 接受現有警告框
dismiss() 解散現有警告框
send_keys(keysToSend) 傳送文字至警告框。keysToSend:將文字傳送至警告框。
例項演示
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')
# 滑鼠懸停至“設定”連結
link = driver.find_element_by_link_text('設定')
ActionChains(driver).move_to_element(link).perform()
# 開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()
#在此處設定等待2s否則可能報錯
time.sleep(2)
# 儲存設定
driver.find_element_by_class_name("prefpanelgo").click()
time.sleep(2)
# 接受警告框
driver.switch_to.alert.accept()
driver.quit()
10.下拉框選擇操作
匯入選擇下拉框Select類,使用該類處理下拉框操作。
from selenium.webdriver.support.select import Select
1
Select類的方法
方法 說明
select_by_value(“選擇值”) 相當於我們使用滑鼠選擇下拉框的值
有時我們會碰到下拉框,WebDriver提供了Select類來處理下拉框。 如百度搜索設定的下拉框,如下圖:
from selenium import webdriver
from selenium.webdriver.support.select import Select
from time import sleep
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')
#1.滑鼠懸停至“設定”連結
driver.find_element_by_link_text('設定').click()
sleep(1)
#2.開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()
sleep(2)
#3.搜尋結果顯示條數
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50') # 顯示50條
sleep(3)
driver.quit()
11.檔案上傳
對於通過input標籤實現的上傳功能,可以將其看作是一個輸入框,即通過send_keys()指定本地檔案路徑的方式實現檔案上傳。
通過send_keys()方法來實現檔案上傳:
from selenium import webdriver
import os
driver = webdriver.Firefox()
file_path = 'file:///' + os.path.abspath('upfile.html')
driver.get(file_path)
# 定位上傳按鈕,新增本地檔案
driver.find_element_by_name("file").send_keys('D:\\upload_file.txt')
driver.quit()
12.cookie操作
有時候我們需要驗證瀏覽器中cookie是否正確,因為基於真實cookie的測試是無法通過白盒和整合測試進行的。WebDriver提供了操作Cookie的相關方法,可以讀取、新增和刪除cookie資訊。
WebDriver操作cookie的方法:
方法 說明
get_cookies() 獲得所有cookie資訊
get_cookie(name) 返回字典的key為“name”的cookie資訊
add_cookie(cookie_dict) 新增cookie。“cookie_dict”指字典物件,必須有name 和value 值
delete_cookie(name,optionsString) 刪除cookie資訊。“name”是要刪除的cookie的名稱,“optionsString”是該cookie的選項,目前支援的選項包括“路徑”,“域”
delete_all_cookies() 刪除所有cookie資訊
例項演示
from selenium import webdriver
import time
browser = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
browser.get("http://www.youdao.com")
#1.列印cookie資訊
print('=====================================')
print("列印cookie資訊為:")
print(browser.get_cookies)
#2.新增cookie資訊
dict={'name':"name",'value':'Kaina'}
browser.add_cookie(dict)
print('=====================================')
print('新增cookie資訊為:')
#3.遍歷列印cookie資訊
for cookie in browser.get_cookies():
print('%s----%s\n' %(cookie['name'],cookie['value']))
#4.刪除一個cookie
browser.delete_cookie('name')
print('=====================================')
print('刪除一個cookie')
for cookie in browser.get_cookies():
print('%s----%s\n' %(cookie['name'],cookie['value']))
print('=====================================')
print('刪除所有cookie後:')
#5.刪除所有cookie,無需傳遞引數
browser.delete_all_cookies()
for cookie in browser.get_cookies():
print('%s----%s\n' %(cookie['name'],cookie['value']))
time.sleep(3)
browser.close()
13.呼叫JavaScript程式碼
雖然WebDriver提供了操作瀏覽器的前進和後退方法,但對於瀏覽器滾動條並沒有提供相應的操作方法。在這種情況下,就可以藉助JavaScript來控制瀏覽器的滾動條。WebDriver提供了execute_script()方法來執行JavaScript程式碼。
用於調整瀏覽器滾動條位置的JavaScript程式碼如下:
<!-- window.scrollTo(左邊距,上邊距); -->
window.scrollTo(0,450);
1
2
window.scrollTo()方法用於設定瀏覽器視窗滾動條的水平和垂直位置。方法的第一個引數表示水平的左間距,第二個引數表示垂直的上邊距。其程式碼如下:
from selenium import webdriver
from time import sleep
#1.訪問百度
driver=webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("http://www.baidu.com")
#2.搜尋
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
#3.休眠2s目的是獲得伺服器的響應內容,如果不使用休眠可能報錯
sleep(2)
#4.通過javascript設定瀏覽器視窗的滾動條位置
js="window.scrollTo(100,450);"
driver.execute_script(js)
sleep(3)
driver.close()
通過瀏覽器開啟百度進行搜尋,並且提前通過set_window_size()方法將瀏覽器視窗設定為固定寬高顯示,目的是讓窗口出現水平和垂直滾動條。然後通過execute_script()方法執行JavaScripts程式碼來移動滾動條的位置。
14.視窗截圖
自動化用例是由程式去執行的,因此有時候列印的錯誤資訊並不十分明確。如果在指令碼執行出錯的時候能對當前視窗截圖儲存,那麼通過圖片就可以非常直觀地看出出錯的原因。WebDriver提供了截圖函式get_screenshot_as_file()來擷取當前視窗。
截圖方法:
方法 說明
get_screenshot_as_file(self, filename) 用於擷取當前視窗,並把圖片儲存到本地
from selenium import webdriver
from time import sleep
driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get('http://www.baidu.com')
driver.find_element_by_id('kw').send_keys('selenium')
driver.find_element_by_id('su').click()
sleep(2)
#1.擷取當前視窗,並指定截圖圖片的儲存位置
driver.get_screenshot_as_file("D:\\baidu_img.jpg")
driver.quit()
.關閉瀏覽器
在前面的例子中我們一直使用quit()方法,其含義為退出相關的驅動程式和關閉所有視窗。除此之外,WebDriver還提供了close()方法,用來關閉當前視窗。例多視窗的處理,在用例執行的過程中打開了多個視窗,我們想要關閉其中的某個視窗,這時就要用到close()方法進行關閉了。
方法 說明
close() 關閉單個視窗
quit() 關閉所有視窗
---------------------
作者:凱耐
來源:CSDN
原文:https://blog.csdn.net/weixin_36279318/article/details/79475388
版權宣告:本文為博主原創文章,轉載請附上博文連結!