python3+selenium獲取頁面載入的所有靜態資原始檔連結操作

阿新 • • 發佈：2020-05-07

軟體版本：

python 3.7.2

selenium 3.141.0

pycharm 2018.3.5

具體實現流程如下，廢話不多說，直接上程式碼：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

d = DesiredCapabilities.CHROME
chrome_options = Options()
#使用無頭瀏覽器
chrome_options.add_argument('--headless')
chrome_options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/71.0.3578.98 Safari/537.36')
#瀏覽器啟動預設最大化
chrome_options.add_argument("--start-maximized");
#該處替換自己的chrome驅動地址
browser = webdriver.Chrome("D://googleDever//chromedriver.exe",chrome_options=chrome_options,desired_capabilities=d)
browser.set_page_load_timeout(150)
browser.get("https://www.xxx.com")
#靜態資源連結儲存集合
urls = []
#獲取靜態資源有效連結
for log in browser.get_log('performance'):
	 if 'message' not in log:
			continue
	 log_entry = json.loads(log['message'])
	 try:
		#該處過濾了data:開頭的base64編碼引用和document頁面連結
			if "data:" not in log_entry['message']['params']['request']['url'] and 'Document' not in log_entry['message']['params']['type']:
				urls.append(log_entry['message']['params']['request']['url'])
	 except Exception as e:
			pass
 print(urls)

列印結果為頁面渲染時載入的靜態資原始檔連結：

[http://www.xxx.com/aaa.js,http://www.xxx.com/css.css]

以上程式碼為selenium獲取頁面載入過程中預載入的各類靜態資原始檔連結，使用該功能獲取到連結後，使用其他外掛進行可對資源進行下載！

補充知識：在idea 中python import sys，import requests 報錯

File->Project Structure

project -> sdk -> new -> ok

設定編譯引數（主要是設定和檢查Python JDK是否正確）

python3+selenium獲取頁面載入的所有靜態資原始檔連結操作

以上這篇python3+selenium獲取頁面載入的所有靜態資原始檔連結操作就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python3+selenium獲取頁面載入的所有靜態資原始檔連結操作

軟體版本： python 3.7.2 selenium 3.141.0 pycharm 2018.3.5 具體實現流程如下，廢話不多說，直接上程式碼：

springboot專案打成jar包後無法獲取static下的靜態資原始檔的問題分析

springboot 後端專案做某個功能時需要讀取根目錄下的.doc檔案，具體專案中路徑如下：

解決vue單頁面應用進入頁面載入所有 js 的問題

一般在index.js中都是這麼引入的元件 import from \'@/pages/my\' import Cart from \'@/pages/cart\'

python3+selenium3獲取頁面表格中的文字

需要獲取表格行裡的文字做斷言首先可以使用AirtestIDE的assert獲取xpath定位；視窗——>Selenium Windows——>【地球】瀏覽器——>手動跳轉到元素所在頁面——>assert

SpringBoot如何通過webjars管理靜態資原始檔夾

WebMvcAutoConfiguration 新增資源對映： public void addResourceHandlers(ResourceHandlerRegistry registry) {

springBoot專案打成war包後部署tomcat無法訪問resources目錄下靜態資原始檔

技術標籤：springBoot運維釋出管理tomcatmaven 一、pom檔案build內新增配置 <resources>

SpringBoot專案中修改靜態資原始檔卻未更新的問題

技術標籤：javapythontomcatjavascriptlinux 一、問題修改了其中的某一個js檔案後，通過瀏覽器檢查發現並未修改。

servlet之獲取類路徑下的資原始檔及web檔案在電腦中的位置分佈

使用ClassLoader獲取的檔案位置1（包外）：程式碼： package demo1; import java.io.IOException;

Python selenium頁面載入慢超時的解決方案

開發環境： win10-64 python2.7.16 chrome77 from selenium import webdriver driver = webdriver.Chrome(executable_path=\'chromedriver.exe\')

Python爬蟲獲取頁面所有URL連結過程詳解

如何獲取一個頁面內所有URL連結？在Python中可以使用urllib對網頁進行爬取，然後利用Beautiful Soup對爬取的頁面進行解析，提取出所有的URL。

Python3+Selenium Web自動化測試案例分享⑷——頁面基礎類方法

本章節主要是封裝selenium庫的一些基礎操作方法，如：開啟網頁、定位元素、截圖等，這裡是最基本最底層操作瀏覽器的方法，詳情如下：

Python3+Selenium Web自動化測試案例分享⑷——登入頁面類方法

本章節以網易企業郵箱登入頁面為案例，封裝的方法主要有：定位元素、輸入賬號、輸入密碼、登入成功、登入失敗等登入相關的步驟，loginPage是繼承了basePage類，相當於中間層，後期頁面元素變動，主要也是修改loginPa

Python Selenium自動化獲取頁面資訊的方法

1.獲取頁面title title：獲取當前頁面的標題顯示的欄位 from selenium import webdriver import time

selenium 頁面載入以及4種等待

1、頁面載入 1.1、頁面載入超時設定通過driver.set_page_load_timeout()來設定頁面載入超時時間

ClassPathResource載入資原始檔用法 - 獲取配置檔案路徑

ClassPathResource解析先看Demo: @Test public void test() throws IOException { Resource res = new ClassPathResource(\"applicationContext.xml\");

selenium獲取當前頁面控制代碼的順序

selenium4呼叫webdriver，可以通過browser.window_handles 獲取到當前頁面的控制代碼，其結果是一個列表。

Java中獲取資原始檔三種方式

獲取資原始檔有三種方式採用 ServletContext物件獲取採用ResourceBundle類來獲取採用類載入器獲取

Spring實戰之FileSystemResource載入資原始檔示例

本文例項講述了Spring實戰之FileSystemResource載入資原始檔。分享給大家供大家參考，具體如下：

vue頁面載入時的進度條功能(例項程式碼)

先看一張圖如果我們的程式每次頁面切換時，頂部也有一個進度條，那會讓使用者體驗提升很大的。

js頁面載入後執行的幾種方式小結

在實際應用中往往需要在頁面載入完畢之後再去執行相關的js程式碼，之所以這麼操作是有道理的，如果是操作dom元素，如果相關元素沒有載入完成，而去執行js程式碼，可能會導致錯誤，下面就介紹一下如何實現頁面載入完成