Python使用Selenium和PhantomJS解析動態JS的網頁

阿新 • • 發佈：2019-01-14

有的網頁，不能直接通過wget，curl等命令、或者直接使用Python中的urllib，urllib2等這樣的函式庫來直接獲取其真正展現給使用者的資訊，因為裡面包含有JavaScript指令碼（而該JS和頁面資料的生成相關），需要通過Firefox、Chrome等瀏覽器渲染後才能得到想要看的結果。

例如，想查詢的一個根據IP查詢到地理位置的網頁：http://www.ip.cn/125.95.26.81

為了寫程式來自動獲取我想要的資料，比如 http://www.ip.cn/125.95.26.81 中網頁中的“廣東省佛山市電信”這幾個字。一般來說，有如下兩種方案：

1. 寫Web UI自動化指令碼，用Selenium啟動真正的瀏覽器

（如：IE、Firefox）來開啟該網頁，然後呼叫webdriver獲取想要的頁面元素。

2. 找一種瀏覽器渲染引擎，能夠讓其解析網頁並執行網頁中需要初始化JS，然後將JS、CSS等執行後的HTML程式碼輸出出來。

啟動真正的瀏覽器，可能帶來兩個問題：一個是需要的時間較長，另一個是UI自動化易受干擾、不夠穩定。

而第2個方法，一時沒有找到特別好的庫（暫用Python語言）。

Selenium

Selenium是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。這個工具的主要功能包括：測試與瀏覽器的相容性，測試你的應用程式看是否能夠很好得工作在不同瀏覽器和作業系統之上。

Selenium 測試直接在瀏覽器中執行，就像真實使用者所做的一樣。Selenium 測試可以在 Windows、Linux 、Macintosh上的 Internet Explorer、Mozilla 、Firefox 中執行。其他測試工具都不能覆蓋如此多的平臺。使用 Selenium 和在瀏覽器中執行測試還有很多其他好處。下面是主要的兩大好處：

1）通過編寫模仿使用者操作的 Selenium 測試指令碼，可以從終端使用者的角度來測試應用程式。

2）通過在不同瀏覽器中執行測試，更容易發現瀏覽器的不相容性。

Selenium 的核心，也稱browser bot，是用 JavaScript 編寫的，這使得測試指令碼可以在受支援的瀏覽器中執行。browser bot 負責執行從測試指令碼接收到的命令，測試指令碼要麼是用 HTML 的表佈局編寫的，要麼是使用一種受支援的程式語言編寫的。

Selenium 下載安裝

Selenium 例項（自己寫的，測試成功）

通過FireFox開啟網頁並渲染完畢後，獲取正文內容（Ubuntu 12.04 + Firefox）

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#
# author: sunboy_2050
# blog: http://blog.mimvp.com
 
fromseleniumimportwebdriver
 
importsys
reload(sys)
sys.setdefaultencoding('utf8')
 
defspider_url_content(url):
    try:
        browser=webdriver.Firefox()      # 開啟 FireFox 瀏覽器
     
#         chromeDriverDir = '/usr/bin/google-chrome'
#         browser = webdriver.Chrome(executable_path=chromeDriverDir)        # 開啟 Chrome 瀏覽器
     
        browser.get(url)               
        content=browser.find_element_by_id('container')      # 通過標記id 獲取網頁的內容
        content=content.text
         
        browser.quit()                     # 關閉瀏覽器
         
        print("content: " + content)
         
    exceptException as ex:
        print("error msg: " + str(ex))
 
if__name__=='__main__':
    url='http://blog.mimvp.com'
    spider_url_content(url)

或者可以：browser.page_source得到html原始碼，通過正則表示式提取感興趣的內容

抓取示例

根據網上的一些方案和請教同事，最後在Selenium webdriver中找到了不啟動瀏覽器，但是帶基於Webkit引擎的名為“PhantomJS”的driver。後來找資料發現，LinkedIn、Twitter等知名網際網路公司也在使用PhantomJS用於測試。

對於PhantomJS的好處，可閱讀：http://phantomjs.org/ (Headless Website Testing， Screen Capture，Page Automation， Network Monitoring)

對於哪些情況下不適合用PhantomJS而應該用真正的Browser，可閱讀：http://www.chrisle.me/2013/08/5-reasons-i-chose-selenium-over-phantomjs/

這裡就不專門說PhantomJS的優劣勢了，不過，它能解決我當前的問題。

先通過官方網站下載PhantomJS的可執行檔案即可；然後像正常寫Selenium自動化指令碼一樣來做即可。

一個示例程式如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
  
'''
Created on Dec 6, 2013
  
@author: Jay <[email protected]>
@description: use PhantomJS to parse a web page to get the geo info of an IP
'''
  
fromseleniumimportwebdriver
  
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
  
driver=webdriver.PhantomJS(executable_path='./phantomjs') #這要可能需要制定phatomjs可執行檔案的位置
driver.get("http://www.ip.cn/125.95.26.81")
#print driver.current_url
#print driver.page_source
printdriver.find_element_by_id('result').text.split('\n')[0].split('來自：')[1]
driver.quit

執行結果：

jay@jay-linux:~/workspace/python_test$ python try_phantomjs.py
廣東省佛山市 電信

參考資料：

很好的入門指引：http://www.realpython.com/blog/python/headless-selenium-testing-with-python-and-phantomjs/

官方說明：

https://github.com/detro/ghostdriver

http://phantomjs.org/

http://phantomjs.org/users.html

一個和PhantomJS類似的東東，不過它基於Gecko而不是Webkit：http://slimerjs.org/

這裡有位兄臺也使用PhantomJS抓取資料，可以看一下：http://blog.chinaunix.net/uid-22414998-id-3692113.html

另外參考：

#參考文獻：http://blog.mimvp.com/2014/08/python-with-selenium-and-phantomjs-analysis-of-dynamic-js-pages/
#參考文獻：http://m.2cto.com/Article/201603/492868.html
#參考文獻：http://www.jianshu.com/p/3d84afc43d42

Python使用Selenium和PhantomJS解析動態JS的網頁

Python使用Selenium和PhantomJS解析動態JS的網頁

scrapy_splash模塊解析動態js

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

selenium和PhantomJS爬取動態網頁

js事件捕獲和冒泡解析

Selenium 獲取動態js的網頁

利用js自動檢測pc端和移動端，js程式碼，需要寫兩個網頁，一個pc，一個移動端

深入解析Vue.js中v-bind v-model的使用和區別

JS函式宣告和預解析的理解

為網頁新增蒙板效果和彈出層js

（python解析js）selenium結合phantomjs抓取js生成的頁面

使用selenium和phantomJS瀏覽器獲取網頁內容的小演示

java基礎71 XML解析中的【DOM和SAX解析工具】相關知識點（網頁知識）

使用phantomjs抓取JS動態生成的頁面

phantomjs html2Image.js 網頁轉換圖片

使用者對動態PHP網頁訪問過程，以及nginx解析php步驟

Java爬蟲——phantomjs抓取ajax動態載入網頁

python爬取網頁包含動態js資訊（3.7 +，2.7+）

XML 解析---dom解析和sax解析

DNS配置詳解 bind實現正向解析和反向解析

Python使用Selenium和PhantomJS解析動態JS的網頁

相關推薦