（python解析js）selenium結合phantomjs抓取js生成的頁面

阿新 • • 發佈：2019-01-09

，有些網頁是在載入時動態建立HTML內容，只要在js程式碼完全執行完後才會顯示最終結果。如果用傳統的方法抓取頁面，就只能獲得js程式碼執行之前頁面上的內容。

要解決這個問題有兩種方法：

  1.直接從js程式碼中抓取資料（執行js程式碼，解析js變數）。
  2.用第三方庫執行js，抓取執行後的最終html頁面。

在python中使用selenium執行js

selenium是一個強大的網路資料採集工具，其最初是為網站自動化測試而開發的。selenium可以讓瀏覽器自動載入頁面，獲取需要的資料，甚至頁面截圖，或判斷網站上某些動作是否發生。

selenium自己不帶瀏覽器，它需要與第三方瀏覽器結合一起使用。這裡使用phantomjs的工具代替真實的瀏覽器。

PhantomJS 是一個基於 WebKit 的伺服器端 JavaScript API。它全面支援web而不需瀏覽器支援，其快速，原生支援各種Web標準： DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG。 PhantomJS 可以用於頁面自動化，網路監測，網頁截圖，以及無介面測試等。

把selenium和phantomjs結合在一起，就可以執行一個非常強大的爬蟲了，可以處理cookie，js，header，以及任何需要你做的事。

安裝：

selenium有python庫，可以用pip等安裝；phantomjs是一個功能完善的“無頭“瀏覽器，並非一個python庫，所以它不需要想python的其他庫一樣安裝，也不能用pip安裝。

sudo pip install selenium
http://npm.taobao.org/dist/phantomjs/ 
#下載安裝包(sudo apt-get install phantomjs安裝的不是最新的，發現不能用)
phantomjs-2.1.1-linux-i686.tar.bz2
tar -jxvf phantomjs-2.1.1-linux-i686.tar.bz2

使用：

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path='/opt/phantomjs-2.1.1-linux-i686/bin/phantomjs' 
)
#executable_path為你的phantomjs可執行檔案路徑
driver.get("http://news.sohu.com/scroll/")

#或得js變數的值
r = driver.execute_script("return newsJason")
print r

#selenium在webdriver的DOM中使用選擇器來查詢元素，名字直接了當，by物件可使用的選擇策略有：id,class_name,css_selector,link_text,name,tag_name,tag_name,xpath等等
print driver.find_element_by_tag_name("div").text
print driver.find_element_by_csss_selector("#content").text
print driver.find_element_by_id("content").text

（python解析js）selenium結合phantomjs抓取js生成的頁面

，有些網頁是在載入時動態建立HTML內容，只要在js程式碼完全執行完後才會顯示最終結果。如果用傳統的方法抓取頁面，就只能獲得js程式碼執行之前頁面上的內容。要解決這個問題有兩種方法： 1.直接從js程式碼中抓取資料（執行js程式碼，解析js變數）。

（python解析js）scrapy結合ghost抓取js生成的頁面，以及js變數的解析

現在頁面用ajax的越來越多, 好多程式碼是通過js執行結果顯示在頁面的（比如：http://news.sohu.com/scroll/，搜狐滾動新聞的列表是在頁面請求時由後臺一次性將資料渲染到前臺js變數newsJason和arrNews裡面的，然後再由js生

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

Python世界中Scrapy一直是爬蟲的一個較為成熟的解決方案，目前javascript在網頁中應用越來越廣泛，越來越多的網站選擇使用javascript動態的生成網頁的內容，使得很多純html的爬蟲解決方案失效。針對這種動態網站的爬取，目前也有很多解決方案。

綜合使用python爬蟲技術，selenium模組動態抓取“視覺中國”網站上的圖片的url

一、匯入模組 import time from selenium import webdriver from lxml import etree 本文章純粹用來練手，於是我使用了etree,其實光使用find_elements…的方法也可以二、開始幹活 1.

使用phantomjs抓取JS動態生成的頁面

關於phantomjs phantomjs實現了一個無介面的webkit瀏覽器。雖然沒有介面，但dom渲染、js執行、網路訪問等API都很完整。可以利用phantomjs來下載js生成的頁面。下載phantomjs（http://phantomjs.org

C#利用phantomJS抓取AjAX動態頁面

tin 文件 stringbu == 導致 style 間隔 edi zip壓縮在C#中，一般常用的請求方式，就是利用HttpWebRequest創建請求，返回報文。但是有時候遇到到動態加載的頁面，卻只能抓取部分內容，無法抓取到動態加載的內容。如果遇到這種的話，推薦

python爬蟲(17)爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（上）

抓取微信公眾號的文章一.思路分析目前所知曉的能夠抓取的方法有： 1、微信APP中微信公眾號文章連結的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&am

js---js時間線（瀏覽器解析過程）

1、建立Document物件，開始解析web介面。document.readyState='loading'。 2、遇到link外部css，建立執行緒載入，並繼續原執行緒的解析。 3、遇到外部js檔案，並沒設有async/defer的屬性，瀏覽器正常載入js（阻塞），等js載入完成再執行下面的內

重修課程day1（python基礎1）

width 學java 復雜符號硬件組成常見高級 clas c語言：一什麽是計算機　　1 計算機就是由一堆硬件組成的一個機器。　　2 硬件的分類：　　　　CPU：猶如人類的大腦，運行著需要運行的程序。　　　　內存：將 CPU要運行的內容從硬盤中讀取出來，然

重修課程day2（python基礎2）

類型 a* 代碼 false utf-8 意思 bytes 使用 byte 一字符串格式化　　占位符 %s和%d %s是屬於字符串的占位符，而%d是屬於數字類型的占位符 #占位符 %s %d # a="我叫%s，年齡%d，就是一個%s"%("alex",84,"sb

urlparse模塊（python模塊）

urlparse python一、urlparse模塊簡介 urlparse模塊主要是把url拆分為6部分，並返回元組。並且可以把拆分後的部分再組成一個url。主要有函數有urljoin、urlsplit、urlunsplit、urlparse等。二、urljoin函數使用 urljoin主要是拼

yum無法安裝軟件（python版本問題）

imp led pos yourself there round org share req 遇到如下問題：[root@sa yum.repos.d]# yum repolistThere was a problem importing one of the Python

Python-turtle庫知識小結（python繪圖工具）

thead color 運行入庫 logs erl pen 顏色 word 　　turtle：海龜（海龜庫） Turtle庫是Python語言中一個很流行的繪制圖像的函數庫使用之前需要導入庫：import turtle ? turtle.setup(wid

模塊、類和對象（python學習筆記）

python 類模塊對象模塊、類和對象 1.字典，記住鍵值對的概念，記住從鍵值對 mystuff = {‘apple‘:"I am apples"} print mystuff[‘apple‘] 2.模塊 ‘‘‘ 模塊 1.模塊是包含函數和變量的文件 2.模塊這個

數據預處理（Python scikit-learn）

距離度量 sklearn 神經網絡效果 binary load roc maxscale 可能在機器學習任務中，經常會對數據進行預處理．如尺度變換，標準化，二值化，正規化．至於采用哪種方法更有效，則與數據分布和采用算法有關．不同算法對數據的假設不同，可能需要不同的變換，

在8位微控制器上實現JSON資料的簡單解析（微控制器解析JSON）

https://blog.csdn.net/PZ0605/article/details/56017141 由於在一些低配的微控制器上面不能直接使用C提供的系統庫，專案中又需要解析伺服器返回的JSON資料，以下程式碼可以簡單的解析出JSON資料中的key: // // main.

2.1 The Python Interpreter（python解釋器）

技術分享 python 告訴使用方法代碼 code 項目 pri src 2.1 The Python Interpreter（Python解釋器） Python是一門解釋性語言。Python的解釋器一次只能運行一個命令。標準的Python解釋器環境可以用通過輸入pyt

（python爬蟲時）如何知道是否代理ip偽裝成功

通過請求 http://httpbin.org/get 獲得類似以下資訊： { "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,applicat

[後端開發]支付寶支付介面除錯（Python v3.6）

寫在前面：講真，一開始接到這個任務我是拒絕的。因為支付寶官方沒有提供Python的SDK環境，只有JAVA/PHP/.NET三種語言的SDK，這意味著簽名&驗籤、HTTP介面請求等操作全都要自己手動實現，就算支付寶提供了簽名、驗籤的演算法說明，但僅靠它的

（python解析js）selenium結合phantomjs抓取js生成的頁面

在python中使用selenium執行js

安裝：

使用：

相關推薦