python + selenium + PhantomJS 獲取騰訊應用寶APP評論

阿新 • • 發佈：2022-05-04

PhantomJS

PhantomJS 是一個基於WebKit的伺服器端JavaScript API，它無需瀏覽器的支援即可實現對Web的支援，且原生支援各種Web標準，如DOM 處理、JavaScript、CSS選擇器、JSON、Canvas和可縮放向量圖形SVG。PhantomJS主要是通過JavaScript和 CoffeeScript控制WebKit的CSS選擇器、可縮放向量圖形SVG和HTTP網路等各個模組。PhantomJS主要支援Windows、 Mac OS、Linux三個平臺，並且提供了對應的二進位制安裝包。

PhantomJS 的使用場景如下：

無需瀏覽器的Web測試：無需瀏覽器的情況下進行快速的Web測試，且支援很多測試框架，如YUI Test、Jasmine、WebDriver、Capybara、QUnit、Mocha等。

頁面自動化操作：使用標準的DOM API或一些JavaScript框架（如jQuery）訪問和操作Web頁面。
螢幕捕獲：以程式設計方式抓起CSS、SVG和Canvas等頁面內容，即可實現網路爬蟲應用。構建服務端Web圖形應用，如截圖服務、向量光柵圖應用。
網路監控：自動進行網路效能監控、跟蹤頁面載入情況以及將相關監控的資訊以標準的HAR格式匯出。

PhantomJS 已形成了一個功能非常強大的生態圈內容,相關專案如下：

CasperJS：一個開源的導航指令碼處理和高階測試工具
Poltergeist ：測試工具Capybara的測試驅動
Guard::Jasmine：能夠基於Rails實現自動化測試Jasmine的Specs

GhostDriver：遠端 WebDriver 有線協議的開源實現
PhantomRobot：PhantomJS機器人測試框架
Mocha-PhantomJS：JavaScript測試框架Mocha的客戶端

此外，生態圈還包括基於PhantomJS實現了眾多截圖工具，如capturejs、pageres、phantomjs-screenshots、 manet、screenshot-app等；以及Node.js、Django、PHP、Sinatra等語言的截圖API和Confess、 GhostStory、Grover等眾多工具。

下載地址：

http://phantomjs.org/download.html

程式碼樣例:

 1 #/usr/bin/env python
 2 # -*- coding: utf-8 -*-
 3 
 4 from selenium import webdriver
 5 import time
 6 import xlsxwriter
 7 import json
 8 
 9 def main(url):
10 
11     driver = webdriver.PhantomJS()
12     driver.get(url)
13     time.sleep(5)
14 
15     with open("./tencent_yyb.json", "wb") as write_obj:
16         try:
17             # numstr = driver.find_elements_by_xpath('//*[@id="J_CommentCount"]')[0].text
18             # num = int(numstr[1:4])
19             flag = True
20             while flag:  # 迴圈，無法點選“檢視更多評論”報錯，重置標誌位flag完成獲取所有內容
21                 try:
22                     driver.find_element_by_id("J_DetCommentShowMoreBtn").click()  # 點選“檢視更多評論”
23                     #driver.implicitly_wait(10)
24                     time.sleep(1)
25                 except Exception as err:
26                     print err
27                     flag = False
28 
29             data = driver.find_elements_by_xpath('//*[@id="J_DetDataContainer"]/div/div[8]/ul/li')
30 
31             repeat = {}  # 快取資料
32             for item in data:
33                 val_list = item.text.split('n')
34                 if len(val_list) == 3:
35                     ptime = val_list[1].encode("utf-8")
36                     pcontent = val_list[2].encode("utf-8")
37                     if ptime not in repeat.keys():  # 去重
38                         repeat[ptime] = pcontent
39                         write_obj.write("{"釋出時間":"" + ptime + "", "釋出內容":"" + pcontent + ""}n" )
40                 else:
41                     ptime = val_list[1].encode("utf-8")
42                     pcontent = ' '
43                     if ptime not in repeat.keys():
44                         repeat[ptime] = pcontent
45                         write_obj.write("{"釋出時間":"" + ptime + "", "釋出內容":"" + pcontent + ""}n" )
46         except Exception as err:
47             print err
48         finally:
49             driver.quit()
50 
51 def get_num(name):
52     jfilename = "./" + name + ".json"
53     count = len(open(jfilename, "rU").readlines()) - 1
54     return count
55 
56 # xls轉換寫入
57 def w_xls(url, name):
58     perfix = time.strftime('%Y%m%d')
59     xfilename = "./" + name + '_' + perfix + ".xlsx"
60     jfilename = "./" + name + ".json"
61     workbook = xlsxwriter.Workbook(xfilename)
62     worksheet1 = workbook.add_worksheet()
63     lines = int(get_num(name))
64     worksheet1.set_column = ('A:C', lines+1)
65     worksheet1.write('A1', 'URL')
66     worksheet1.write('B1', u'釋出時間')
67     worksheet1.write('C1', u'釋出內容')
68 
69     row = 1
70     with open(jfilename, "r") as obj_read:
71         for line in obj_read.readlines():
72             data = json.loads(line)
73             worksheet1.write(row, 0, url)
74             worksheet1.write(row, 1, data[u'釋出時間'])
75             worksheet1.write(row, 2, data[u'釋出內容'])
76             row += 1
77 
78 
79 if __name__ == '__main__':
80 
81     url = ''
82 
83     main(url)
84     time.sleep(3)
85     w_xls(url, "tencent_yyb")

python + selenium + PhantomJS 獲取騰訊應用寶APP評論

下載地址：

python + selenium + PhantomJS 獲取騰訊應用寶APP評論

工信部通報侵害使用者權益行為 App，騰訊應用寶、小米應用商店等平臺被點名

工信部通報：騰訊應用寶 / 小米 / OPPO / 華為 /vivo 應用商店存誤導使用者下載等問題

米哈遊《原神》安裝包首次出現在騰訊應用寶，並允許雲遊戲試玩

Python+Selenium+phantomjs實現網頁模擬登入和截圖功能(windows環境)

python+selenium+PhantomJS抓取網頁動態載入內容

Python基於Twilio及騰訊雲實現國際國內簡訊介面

Python Selenium自動化獲取頁面資訊的方法

究極犯罪帶你Python爬蟲| 爬取騰訊視訊評論

使用java + selenium + OpenCV破解騰訊防水牆滑動驗證碼功能

python爬蟲爬取騰訊視訊

Windows下 Python Selenium PhantomJS 抓取網頁並截圖

騰訊《寶可夢大集結》釋出首支預告片：海外版 7 月上線 NS，9 月登陸移動端

騰訊《寶可夢大集結》今日下午 3 點 Switch 平臺開服

騰訊《寶可夢：大集結》將於 9 月 22 日登陸 iOS/Android 平臺

無廣告免費看劇還能賺錢：騰訊全新視訊 App 片多多體驗

騰訊旗下 App 暫停更新後，iOS 版 QQ 釋出 8.8.55.294 內測版：添加個人資訊收集清單和第三方個人資訊共享清單

騰訊測試社交 App“doX”：主打年輕人短視訊社交

解除限速！騰訊微雲 App 更新，提供無差別速率服務

騰訊音樂“重新”推出騰訊音兔 App ，再戰短視訊和 K 歌

python + selenium + PhantomJS 獲取騰訊應用寶APP評論

下載地址：

相關推薦