Python使用selenium + headless chrome獲取網頁內容的方法示例

阿新 • • 發佈：2020-01-09

使用python寫爬蟲時，優選selenium，由於PhantomJS因內部原因已經停止更新，最新版的selenium已經使用headless chrome替換掉了PhantomJS，所以建議將selenium更新到最新版，使用selenium + headless chrome

準備工作：

安裝chrome、chrome driver、selenium

一、安裝chrome

配置yum下載源，在目錄/etc/yum.repos.d/下新建檔案google-chrome.repo

> cd /ect/yum.repos.d/
> vim google-chrome.repo

編輯google-chrome.repo

，內容如下，儲存退出

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

安裝google chrome瀏覽器：

> yum -y install google-chrome-stable

PS: Google官方源可能在中國無法使用，導致安裝失敗或者在國內無法更新，可以新增以下引數來安裝：

> yum -y install google-chrome-stable --nogpgcheck

這樣，google chrome即可安裝成功。

二、安裝chrome driver

檢視上述安裝的chrome版本，根據版本選擇對應的chrome driver下載，下載之後放到/usr/local/bin目錄

三、安裝selenium

> pip install selenium

上述準備工作完成後，就可以開始寫程式碼了

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options


options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('lang=zh_CN.UTF-8')

# 在linux上需要新增一下兩個引數
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

browser = Chrome(chrome_options=options)
browser.set_page_load_timeout(30)
browser.set_script_timeout(30)
browser.get(url)

# 獲取返回內容
print browser.page_source

# 查詢元素
print browser.find_element_by_tag_name('pre').text

備註：如果訪問一些詳情頁有cookie驗證，可以先訪問主頁，然後再訪問詳情頁，webdriver會自動攜帶cookie

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python使用selenium + headless chrome獲取網頁內容的方法示例

PHP獲取網頁內容的7種方法

方法1: 用file_get_contents以get方式獲取內容 PHP <?php $url=\'http://www.domain.com/?para=123\';

Scrapy-Redis結合POST請求獲取資料的方法示例

前言通常我們在一個站站點進行採集的時候，如果是小站的話我們使用scrapy本身就可以滿足。

Python requests獲取網頁常用方法解析

這篇文章主要介紹了Python requests獲取網頁常用方法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

WebBrowser、獲取網頁內容、模擬點選、控制元件操作、常用屬性、事件

WebBrowser、獲取網頁內容、模擬點選、控制元件操作、常用屬性、事件獲取值 //獲取普通標籤的值

Jsoup獲取網頁內容（並且解決中文亂碼問題）

1. 根據連線地址獲取網頁內容，解決中文亂碼頁面內容，請求失敗後嘗試3次 private static Document getPageContent(String urlStr) {

Vue獲取頁面元素的相對位置的方法示例

今天在開發原始碼一處發現有一處需要獲取元素的相對位置高度，發現getBoundingClientRect有一個問題，它是用於獲取某個元素相對於視窗的位置集合，達不到我想要的要求，如是看到阮老師寫的一篇文章，關於用Javascrip

c/c++獲取系統時間函式的方法示例

概念在C/C++中，對字串的操作有很多值得注意的問題，同樣，C/C++對時間的操作也有許多值得大家注意的地方。最近，在技術群中有很多網友也多次問到過C++語言中對時間的操作、獲取和顯示等等的問題。

Golang通過小程式獲取微信openid的方法示例

為什麼要獲取小程式的 openid 在開發微信小程式的過程中，小程式可以通過微信官方提供的登入能力方便地獲取微信提供的使用者身份標識，快速建立小程式內的使用者體系。那麼這個使用者身份標識就是 openid。

Java獲取網頁資料步驟方法詳解

在很多行業當中，我們需要對行業進行分析，就需要對這個行業的資料進行分類，彙總，及時分析行業的資料，對於公司未來的發展，有很好的參照和橫向對比。面前通過網路進行資料獲取是一個很有效而且快捷的方式。

ASP.NET Core MVC獲取請求的引數方法示例

前言一次HTTP請求，就是一次標準IO操作。請求是I，是輸入；響應式O，是輸出。任何web開發框架，其實都是在幹這兩件事：

Docker部署Scrapy-redis分散式爬蟲框架（整合Selenium+Headless Chrome網頁渲染）

前言我的京東價格監控網站需要不間斷爬取京東商品頁面，爬蟲模組我採用了Scrapy+selenium+Headless Chrome的方式進行商品資訊的採集。

python3中編碼獲取網頁的例項方法

學了python後，之前一些我們常用的方法，也可以換一種思路用python中的知識來解決。相信操作出來後，能收穫一大批小粉絲們。就像我們沒學習程式設計之前，看到那種大神都是可望而不可即。今天我們就之前簡單獲取網頁

selenium+headless chrome爬蟲的實現示例

python爬蟲寫起來非常快，雖然也可以用java，但是沒有python來的簡潔迅速 selenium在前面總結過，是一個自動化測試庫。headless chrome是無介面的瀏覽器模式，和PHANTOMJS類似。但是PHANTOMJS往往會出現莫名的錯誤

python獲取圖片大小_Python實現獲取本地及遠端圖片大小的方法示例_python_指令碼中心...

技術標籤：python獲取圖片大小這篇文章主要介紹了Python實現獲取本地及遠端圖片大小的方法,結合例項形式分析了Python使用PIL、urllib2及cStringIO模組獲取本機或遠端圖片大小資訊的相關操作技巧,需要的朋友可

【筆記】9-第1課：POST的基礎知識 1 獲取網頁所有內容 2 點選讀取驗證碼 3取中間文字 4取中間批量

視訊教程學習地址https://www.bilibili.com/video/BV1hT4y1Z7ry/ 用的模組：精易模組 V2.52.ec

Spring boot使用spring retry重試機制的方法示例

當我們呼叫介面的時候由於網路原因可能失敗，再嘗試就成功了，這就是重試機制。非冪等的情況下要小心使用重試。

使用EasyPoi輕鬆匯入匯出Excel文件的方法示例

提到Excel的匯入匯出，大家肯定都知道alibaba開源的EasyExcel，該專案的github地址為：https://github.com/alibaba/easyexcel。

java開放地址法和鏈地址法解決hash衝突的方法示例

hashMap對各位小夥們來說，沒有不知道的了，使用過的人想必或多或少的都瞭解一點hashMap的底層實現原理，總結來說就是，陣列+連結串列，至於原始碼的實現，大家可參看原始碼，今天想說的是hashMap是怎麼解決hash衝突

SpringBoot中通過實現WebMvcConfigurer引數校驗的方法示例

在Spring5.0和SpringBoot2.0中廢棄了WebMvcConfigurerAdapter類。現有兩種解決方案 1 直接實現WebMvcConfigurer （官方推薦）

Python使用selenium + headless chrome獲取網頁內容的方法示例

相關推薦