爬蟲——Selenium與PhantomJS

阿新 • • 發佈：2017-07-24

分享繼續移動 alert tor tar orm pass wrap

Selenium

Selenium是一個Web的自動化測試工具，最初是為網站自動化測試而開發的，類型像我們玩遊戲用的按鍵精靈，可以按指定的命令自動操作，不同的是Selenium可以直接運行在瀏覽器上，它支持所有主流的瀏覽器（包括PhantomJS這些無界面的瀏覽器）。

Selenium可以根據我們的指令，讓瀏覽器自動加載頁面，獲取需要的數據，甚至頁面截屏，或者判斷網站上某些動作是否發生。

Selenium自己不帶瀏覽器，不支持瀏覽器的功能，它需要與第三方瀏覽器結合在一起才能使用。但是我們大多數時候需要讓它內嵌在代碼中運行，所以我們可以用一個叫PhantomJS的工具代替真實的瀏覽器。

可以從 PyPI 網站下載 Selenium庫https://pypi.python.org/simple/selenium ，也可以用第三方管理器 pip用命令安裝：pip install selenium

Selenium 官方參考文檔：http://selenium-python.readthedocs.io/index.html

PhantomJS

PhantomJS是一個基於Webkit的“無界面”（headless）瀏覽器，它會把網站加載到內存並執行頁面上的JavaScript，因為不會展示圖形界面，所以運行起來比完整的瀏覽器要高效。

如果我們把Selenium和PhantomJS結合在一起，就可以運行一個非常強大的網絡爬蟲了，這個爬蟲可以處理JavaScript、Cookie、headers，以及任何我們真實用戶需要做的事情。

註意：PhantomJS 只能從它的官方網站http://phantomjs.org/download.html 下載。因為 PhantomJS 是一個功能完善(雖然無界面)的瀏覽器而非一個 Python 庫，所以它不需要像 Python 的其他庫一樣安裝，但我們可以通過Selenium調用PhantomJS來直接使用。

PhantomJS 官方參考文檔：http://phantomjs.org/documentation

快速入門

Selenium庫裏有個叫WebDriver的API。WebDriver有點兒像可以加載網站的瀏覽器，但是它可以像BeautifulSoup或者其他Selector對象一樣用來查找頁面元素，與頁面上的元素進行交互（發送文本、點擊等），以及執行其他動作來運行網絡爬蟲。

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = ‘mayi‘

# 導入webdriver
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 調用環境變量指定的PhantomJS瀏覽器創建瀏覽器對象，executable_path：指定PhantomJS位置
driver = webdriver.PhantomJS(executable_path = r"D:\Program Files\phantomjs\bin\phantomjs")

# get()方法會一直等到頁面被完全加載，然後才會繼續程序
driver.get("http://www.baidu.com/")

# 獲取頁面名為wrapper的id標簽的文本內容
data = driver.find_element_by_id("wrapper").text

# 打印獲取的文本內容
print(data)

# 打印頁面標題：百度一下，你就知道
print(driver.title)

# 生成當前頁面快照並保存
driver.save_screenshot("baidu.jpg")

# 在百度搜索輸入框中輸入“螞蟻”
driver.find_element_by_id("kw").send_keys("螞蟻")

# 模擬點擊“百度一下”按鈕
driver.find_element_by_id("su").click()
# 等待2秒，讓頁面加載
time.sleep(2)

# 獲取搜索後的頁面快照
driver.save_screenshot("螞蟻.jpg")

# 打印網頁渲染後的源代碼
# print(driver.page_source)

# 獲取當前頁面Cookie
print(driver.get_cookies())

# Ctrl + a 全選輸入框內容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL, "a")

# Ctrl + x 剪切輸入框內容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL, "x")

# 輸入框重新輸入內容
driver.find_element_by_id("kw").send_keys("python")

# 模擬Enter回車鍵
driver.find_element_by_id("su").send_keys(Keys.ENTER)

# 等待2秒，讓頁面加載
time.sleep(2)

# 清除輸入框內容
driver.find_element_by_id("kw").clear()

# 獲取新的快照
driver.save_screenshot("python.jpg")

# 獲取當前url
print(driver.current_url)

# 關閉當前頁面，如果只有一個頁面，會關閉瀏覽器
driver.close()

# 關閉瀏覽器
driver.quit()

頁面操作

Selenium的WebDriver提供了各種方法來尋找元素，假設下面有一個表單輸入框：

<input type="text" name="user-name" id="passwd-id" />

那麽

# 獲取id標簽值
element = driver.find_element_by_id("passwd-id")

# 獲取name標簽值
element = driver.find_element_by_name("user-name")

# 獲取標簽名值
element = driver.find_element_by_tag_name("input")

# 通過xpath來匹配
element = driver.find_element_by_xpath("//input[@id=‘passwd-id‘]")

定位UI元素（webElements）

關於元素的選取：

find_element_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

1.by id

# 頁面內容
<div id="coolestWidgetEvah">...</div>

# 實現
element = driver.find_element_by_id(coolestWidgetEvah")

2.by name

# 頁面內容
<input name="cheese" type="text"/>

# 實現
element = driver.find_element_by_name("cheese")

3.by xpath

# 頁面內容
<input type="text" name="example" />
<input type="text" name="other" />

# 實現
element = driver.find_elements_by_xpath("//input")

4.by link text

# 頁面內容
<a href="http://www.google.com/search?q=cheese">cheese</a>

# 實現
element = driver.find_element_by_link_text("cheese")

5.by partial link text

# 頁面內容
<a href="http://www.google.com/search?q=cheese">search for cheese</a>>

# 實現
element = driver.find_element_by_partial_link_text("cheese")

6.by tag name

# 頁面內容
<iframe src="..."></iframe>

# 實現
element = driver.find_element_by_tag_name("iframe")

7.by class name

# 頁面內容
<div id="food"><span class="dairy">milk</span><span class="dairy aged">cheese</span></div>

# 實現
element = driver.find_elements_by_class_name("div")

8.by css selector

# 頁面內容
<div id="food"><span class="dairy">milk</span><span class="dairy aged">cheese</span></div>

# 實現
element = driver.find_elements_by_css_selector("#food span.dairy.aged")

鼠標動作鏈

有些時候，我們需要在頁面上模擬一些鼠標操作，比如雙擊、右擊、拖拽甚至按住不動等，我們可以通過導入ActionChains類來做到：

#導入 ActionChains 類
from selenium.webdriver import ActionChains

# 鼠標移動到 ac 位置
ac = driver.find_element_by_xpath(‘element‘)
ActionChains(driver).move_to_element(ac).perform()


# 在 ac 位置單擊
ac = driver.find_element_by_xpath("elementA")
ActionChains(driver).move_to_element(ac).click(ac).perform()

# 在 ac 位置雙擊
ac = driver.find_element_by_xpath("elementB")
ActionChains(driver).move_to_element(ac).double_click(ac).perform()

# 在 ac 位置右擊
ac = driver.find_element_by_xpath("elementC")
ActionChains(driver).move_to_element(ac).context_click(ac).perform()

# 在 ac 位置左鍵單擊hold住
ac = driver.find_element_by_xpath(‘elementF‘)
ActionChains(driver).move_to_element(ac).click_and_hold(ac).perform()

# 將 ac1 拖拽到 ac2 位置
ac1 = driver.find_element_by_xpath(‘elementD‘)
ac2 = driver.find_element_by_xpath(‘elementE‘)
ActionChains(driver).drag_and_drop(ac1, ac2).perform()

填充表單

我們已經知道了怎樣向文本框中輸入文字，但是有時候我們會遇到select 標簽的下拉框。直接點擊下拉框中的選項不一定可行。

<select id="status" class="form-control valid" onchange="" name="status">
    <option value=""></option>
    <option value="0">未審核</option>
    <option value="1">初審通過</option>
    <option value="2">復審通過</option>
    <option value="3">審核不通過</option>
</select>

　　技術分享

Selenium專門提供了select類來處理下拉框。其實WebDriver中提供了一個叫Select的方法，可以幫助我們完成這些事情：

# 導入 Select 類
from selenium.webdriver.support.ui import Select

# 找到 name 的選項卡
select = Select(driver.find_element_by_name(‘status‘))

# 
select.select_by_index(1)
select.select_by_value("0")
select.select_by_visible_text("未審核")

以上是三種選擇下拉框的方法，可以根據索引來選擇、根據值來選擇、根據文字內容來選擇。註意：

index 索引從0開始
value 是option標簽的一個屬性值，並不是顯示在下拉框中的值
visible_text 是option標簽文本的值，是顯示在下拉框的值

全部取消選擇：select.deselect_all()

彈窗處理

當你觸發了某個事件之後，頁面出現了彈窗提示，處理這個提示或者獲取提示信息方法：

alert = driver.switch_to_alert()

頁面切換

一個瀏覽器肯定會有很多窗口，所以我們肯定要有方法來實現窗口的切換。切換窗口的方法如下：

driver.switch_to.window("this is window name")

也可以使用window_handles 方法來獲取每個窗口的操作對象。

for handle in driver.window_handles:
    driver.switch_to_window(handle)

頁面前進和後退

操作頁面的前進和後退功能：

driver.forward()     #前進
driver.back()        # 後退

Cookie

獲取頁面每個Cookie值：

for cookie in driver.get_cookies():
    print("%s -> %s" % (cookie[‘name‘], cookie[‘value‘]))

刪除Cookie：

# 通過Cookie名
driver.delete_cookie("CookieName")

# 刪除所有
driver.delete_all_cookies()

頁面等待

現在的網頁越來越多的采用了Ajax技術，這樣程序便不能確定何時頁面完全加載完成。如果實際頁面等待時間過長導致某個dom元素還沒出來，但是你的代碼直接使用了這個WebElement，那麽就會拋出NullPointer的異常。

為了避免這種元素定位困難而且可能會導致拋異常，所以Selenium提供了兩種等待方式，一種是隱式等待，一種是顯式等待。

隱式等待是等待特定的時間，等待是指定某一個條件成立時繼續執行。

隱式等待

隱式等待比較簡單，就是簡單地設置一個等待時間，單位為秒。

from selenium import webdriver

driver = webdriver.Chrome()
# 等待10秒
driver.implicitly_wait(10) # seconds
driver.get("http://www.baidu.com/")
myDynamicElement = driver.find_element_by_id("myDynamicElement")

顯式等待

顯式等待為指定某個條件，然後設置最長等待時間。如果在這個時間內，指定條件成立，則繼續往下執行；如果在這個時間，指定條件還未成立，那麽便會拋出異常。

from selenium import webdriver
from selenium.webdriver.common.by import By
# WebDriverWait 庫，負責循環等待
from selenium.webdriver.support.ui import WebDriverWait
# expected_conditions 類，負責條件出發
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("http://www.baidu.com/")
try:
    # 頁面一直循環，直到 id="myDynamicElement" 出現
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

如果不寫參數，程序默認會0.5s調用一次來查看元素是否已經加載完成，如果本來元素就是存在的，那麽會立即返回。

下面是一些內置的等待條件，可以直接調用這些條件，而不用自己寫某些等待條件了。

title_is
title_contains
presence_of_element_located
visibility_of_element_located
visibility_of
presence_of_all_elements_located
text_to_be_present_in_element
text_to_be_present_in_element_value
frame_to_be_available_and_switch_to_it
invisibility_of_element_located
element_to_be_clickable – it is Displayed and Enabled.
staleness_of
element_to_be_selected
element_located_to_be_selected
element_selection_state_to_be
element_located_selection_state_to_be
alert_is_present

當然如果不設置，默認等待時間為0。

爬蟲——Selenium與PhantomJS

分享繼續移動 alert tor tar orm pass wrap Selenium Selenium是一個Web的自動化測試工具，最初是為網站自動化測試而開發的，類型像我們玩遊戲用的按鍵精靈，可以按指定的命令自動操作，不同的是Selenium可以直接運行在瀏覽器上，

爬蟲——Selenium與PhantomJS

Selenium

PhantomJS

快速入門

頁面操作

定位UI元素（webElements）

1.by id

2.by name

3.by xpath

4.by link text

5.by partial link text

6.by tag name

7.by class name

8.by css selector

鼠標動作鏈

填充表單

彈窗處理

頁面切換

頁面前進和後退

Cookie

頁面等待

隱式等待

顯式等待

相關推薦