python學習筆記——selenium / phantomjs
基本操作
from selenium import webdriver #————————開啟網頁 b = webdriver.Chrome()#開啟瀏覽器 b.get('https://www.baidu.com') title = b.title #獲得網頁title print(title) www = b.current_url #返回開啟的網址 print(www) #————————定位元素 ele = b.find_element_by_id('kw') #根據id定位元素 ele = b.find_element_by_name('wd') #根據name定位元素 ele1 = b.find_element_by_class_name('')#根據class屬性定位元素 ele2 = b.find_element_by_tag_name('input') #根據標籤名定位元素 ele3 = b.find_element_by_link_text('帳號密碼登入') #根據text定位元素 ele4 = b.find_element_by_partial_link_text('賬號')#模糊text定位元素 ele5 = b.find_element_by_css_selector('')#根據css定位元素 #———————常用操作 ele.clear() #清空 ele.send_keys('李小龍') #模擬鍵盤輸入 ele.back()#返回上一級 ele1.send_keys('劉德華')#模擬鍵盤輸入 b.maximize_window()#最大化視窗 b.close() # 關閉當前視窗 b.quit() #關閉瀏覽器 #———————如果需要定位的元素在frame內,需要先進入frame b.switch_to_frame('ptlogin_iframe')#先定位到frame裡面 #———————遇到新標籤視窗 now_handle = b.current_window_handle #先拿到原來視窗的控制代碼 print(now_handle) all_handles = b.window_handles #拿到全部視窗的控制代碼 for handle in all_handles: #比對控制代碼 print(handle) if handle != now_handle: b.switch_to_window(handle) #跳轉到新視窗 b.close() #關閉當前視窗 b.quit()#關閉瀏覽器
測試過程中,遇到原頁面打開了新的頁面的問題,用獲取視窗控制代碼的方法來解決:
now_handle = driver.current_window_handle #得到當前視窗控制代碼 driver.find_element_by_id("baidu").click() all_handles = driver.window_handles #獲取所有視窗控制代碼 for handle in all_handles: if handle != now_handle: driver.switch_to_window(handle) driver.find_element_by_id("kw").send_keys('python') driver.find_element_by_id("su").click() self.driver.implicitly_wait(30) driver.switch_to_window(now_handle) #返回window.html
1 / 強制等待
用time.sleep()來強制等待多長時間
2 / 隱性等待
implicitly_wait(xx)
格式:
driver.implicitly_wait(
30
)
#
隱性等待,最長等30秒
隱形等待是設定了一個最長等待時間,如果在規定時間內網頁載入完成,則執行下一步,否則一直等到時間截止,然後執行下一步。注意這裡有一個弊端,那就是程式會一直等待整個頁面載入完成,也就是一般情況下你看到瀏覽器標籤欄那個小圈不再轉,才會執行下一步,但有時候頁面想要的元素早就在載入完成了,但是因為個別js之類的東西特別慢,我仍得等到頁面全部完成才能執行下一步,我想等我要的元素出來之後就下一步怎麼辦?有辦法,這就要看selenium提供的另一種等待方式——顯性等待wait了。
3 / 顯性等待
WebDriverWait,配合該類的until()和until_not()方法,就能夠根據判斷條件而進行靈活地等待了。
它主要的意思就是:程式每隔xx秒看一眼,如果條件成立了,則執行下一步,否則繼續等待,直到超過設定的最長時間,然後丟擲TimeoutException。
格式:
先匯入模組:
from selenium.webdriver.support.ui import WebDriverWait
WebDriverWait(driver,
超時時長, 呼叫頻率, 忽略異常).until(可執行方法, 超時時返回的資訊)
某論壇自動簽到小練習:
#某論壇的自動簽到小練習
from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('http://www.sketchupbar.com/forum.php')
assert 'SketchUp'in driver.title
ele = driver.find_element_by_class_name('vm')
print(ele)
ele.click()
#由於發現正常的賬號登陸,需要用滑條解鎖認證,轉而考慮用qq關聯賬號登陸。避過滑條。
driver.implicitly_wait(2) #隱性等待,最長2秒
driver.switch_to_frame('ptlogin_iframe')#先定位到frame裡面
ele = driver.find_element_by_id('switcher_plogin') #定位到frame裡面之後再定位具體元素
print(ele)
ele.click()
username = driver.find_element_by_id('u') #定位賬號
username.send_keys('xxxxxxxxx') #輸入賬號
password = driver.find_element_by_id('p') #定位密碼
password.send_keys('xxxxxxxxx') #輸入密碼
password.click()
enter = driver.find_element_by_id('login_button') #定位點選授權登陸
enter.click()
driver.implicitly_wait(10)#隱性等待,最長10秒
font = driver.find_element_by_class_name('font') #定位簽到關鍵字
now_handle = driver.current_window_handle #獲取當前視窗控制代碼
print(now_handle)
font.click()
all_handles = driver.window_handles #獲取全部視窗控制代碼
for handle in all_handles:
print(handle)
if handle != now_handle:
driver.switch_to_window(handle) #跳轉到新標籤視窗
try:
jd = driver.find_element_by_id('JD_sign') #在新標籤視窗進行簽到操作
jd.click()
print('簽到成功!!!')
driver.quit() # 關閉瀏覽器
except:
print('已經簽到過啦!!!!')
driver.quit() # 關閉瀏覽器
xpath
模擬滑鼠和輸入事件
ActionChains 類,用於生成模擬使用者行為
1 / 匯入
from selenium.webdriver.common.action_chains import ActionChains
2 / 生成模擬使用者行為物件
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
driver = webdriver.Chrome()
driver.get('http://www.maiziedu.com/')
ActionChains(driver) #生成模擬使用者行為物件。driver就是生成的瀏覽器控制代碼
3 / perform() 執行儲存的行為
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
driver = webdriver.Chrome()
driver.get('http://www.maiziedu.com/')
ele = driver.find_element_by_link_text('企業直通車')
ActionChains(driver).move_to_element(ele).perform() #生成模擬使用者行為物件並移動到元素上。driver就是生成的瀏覽器控制代碼
sub_ele = driver.find_element_by_link_text('軟體測試') #再在這個彈出頁面中定位元素
處理Alter物件
比較詳細用法的一篇文章:
__________________________________________________________________________________________________
PhantomJs
講解PhantomJs配置比較詳細的一個部落格點選開啟連結
PhantomJs文件說明點選開啟連結
配置headers 和proxy 點選開啟連結
selenium支援的各種driver 點選開啟連結
phantomjs設定請求頭 點選開啟連結
phantomjs設定請求頭的小程式碼:
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import ProxyType
from headers import get_headers
dcap = dict(DesiredCapabilities.PHANTOMJS)
# #設定請求頭
#dcap["phantomjs.page.settings.userAgent"]=("Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3")
dcap["phantomjs.page.settings.userAgent"] = (get_headers().get('User_Agent')) #隨機獲取請求頭
#不載入圖片
dcap["phantomjs.page.settings.loadImages"] = False
#設定代理
#開啟帶配置的瀏覽器
driver = webdriver.PhantomJS(desired_capabilities=dcap)
#driver.get('http://1212.ip138.com/ic.asp')
#driver.get('https://httpbin.org/get?show_env=1')
driver.get('http://www.myip.cn/judge.php')
# driver.get_screenshot_as_file('01.png')
print(driver.page_source)
driver.quit()
phantomjs超時設定:
- # 設定10秒頁面超時返回,類似於requests.get()的timeout選項,driver.get()沒有timeout選項
- # 以前遇到過driver.get(url)一直不返回,但也不報錯的問題,這時程式會卡住,設定超時選項能解決這個問題。
- driver.set_page_load_timeout(20)
- # 設定10秒指令碼超時時間
- driver.set_script_timeout(20)
phantomjs設定代理
知乎上的這篇文章比較細,記錄下來
作者:客從何處來連結:https://www.zhihu.com/question/29207713/answer/124956873
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
# 不使用代理代開啟ip138
browser=webdriver.PhantomJS(PATH_PHANTOMJS)
browser.get('http://1212.ip138.com/ic.asp')
print('1: ',browser.session_id)
print('2: ',browser.page_source)
print('3: ',browser.get_cookies())
# 利用DesiredCapabilities(代理設定)引數值,重新開啟一個sessionId,我看意思就相當於瀏覽器清空快取後,加上代理重新訪問一次url
proxy=webdriver.Proxy()
proxy.proxy_type=ProxyType.MANUAL
proxy.http_proxy='1.9.171.51:800'
# 將代理設定新增到webdriver.DesiredCapabilities.PHANTOMJS中
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
browser.get('http://1212.ip138.com/ic.asp')
print('1: ',browser.session_id)
print('2: ',browser.page_source)
print('3: ',browser.get_cookies())
# 還原為系統代理
proxy=webdriver.Proxy()
proxy.proxy_type=ProxyType.DIRECT
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
browser.get('http://1212.ip138.com/ic.asp')
通過輸出sessionid、cookies,可以發現,這兩者都改變了。如果你要保留第一次訪問的cookies,需要自己獲取第一次cookies,然後在第二次訪問前先delete_all_cookies, 然後add_cookie ,不要直接add_cookie,不然會產生兩個name一樣的cookie。
add_cookie時,phantomjs需要name/value/domain/path 寫全(firefox只需要name和value),不然在2.11phantomjs中會發生異常"selenium.common.exceptions.WebDriverException: Message: You may only set cookies for the current domain"設定phantomjs代理Ip
#這個小程式用來示例設定phantomjs的proxy
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import Proxy
from selenium.webdriver.common.proxy import ProxyType
#未使用代理開啟ip138
browser = webdriver.PhantomJS()
browser.get('http://1212.ip138.com/ic.asp')
print('1:',browser.session_id)
print('2:',browser.page_source)
print('3:',browser.get_cookies())
#使用代理
proxy = webdriver.Proxy()
proxy.proxy_type =ProxyType.MANUAL
proxy.http_proxy = '61.191.173.31:808'
#將代理設定新增到webdriver.DesiredCapabilities.PHANTOMJS中
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
browser.get('http://1212.ip138.com/ic.asp')
print('1:',browser.session_id)
print('2:',browser.page_source)
print('3:',browser.get_cookies())