win10 爬蟲：解決爬取的html與原始檔顯示不一致問題

阿新 • • 發佈：2020-12-28

技術標籤：selenium 爬蟲 python

在進行爬蟲時，有時我們爬取的html和原始檔所顯示的不一樣，此時我們需要使用selenium庫來進行爬取。本文將詳細介紹如何解決這個問題。

準備工作

1. 安裝ChromeDriver

step1：首先需要保證谷歌瀏覽器已經安裝好並可以上網。在幫助->關於谷歌中檢視版本。
step2：然後需要點選下載ChromeDriver，找到對應谷歌版本進行下載。
step3：然後將下載好的檔案中的 chromedriver.exe 檔案直接放到Adaconda3/Scripts中（注意：該路徑需要在環境變數中設定好的）
step4：驗證。在命令列中輸入chromedriver，得到下圖所示的結果即為安裝成功。

2.安裝PhantomJS

下載地址，找到對應的系統版本下載，配置過程同上，同樣進行驗證如下圖即為安裝成功。
在這裡插入圖片描述

3.安裝GeckoDriver

step1：首先需要確認已經安裝 Firefox 瀏覽器並可以正常執行。
step2：下載GeckoDriver，同樣需要根據系統確定下載版本，如win10 64位系統下載的版本。
step3：配置過程同安裝ChromeDriver
step4：驗證。得到如下圖所示即為安裝成功

4.安裝selenium

通過pip進行安裝

pip3 install selenium

到此，準備工作已經完成。

開始實驗

# 匯入相應的驅動
from selenium import 
 webdriver.Firefox
from selenium import webdriver.Chrome
from selenium import webdriver.PhantomJS

# 根據需要選擇一個使用即可，用法類似
browser = Firefox()
# browser = PhantomJS()
# browser = Chrome()

# 對網址進行爬取
browser.get(url)
html = browser.page_source
# print(html)

此時得到的html和原始檔中顯示的是一樣的。

參考文獻

《Python3 網路爬蟲開發實戰》一書

win10 爬蟲：解決爬取的html與原始檔顯示不一致問題

技術標籤：selenium爬蟲python 在進行爬蟲時，有時我們爬取的html和原始檔所顯示的不一樣，此時我們需要使用selenium庫來進行爬取。本文將詳細介紹如何解決這個問題。

爬蟲： cheerio爬取網頁中的所有圖片

技術標籤：爬蟲 climbThePage.js // （下載網頁中的圖片） // 用於傳送http請求 const https = require(\'https\')

爬蟲：網頁爬取

爬蟲：網頁爬取一、requests模組 1、下載requests庫：pip install requests 2、新建py檔案，匯入requests庫

解決 docker 容器時間與本地時間不一致

解決 docker 容器時間與本地時間不一致第一種方法：啟動時進行對映執行 docker run 新增 -v /etc/localtime:/etc/localtime 選項，如下：

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

專案開始第一步仍然是建立scrapy專案與spider檔案切換到工作目錄兩條命令依次輸入

Scrapy爬蟲(五)：有限爬取深度例項

Scrapy爬蟲(五)：有限爬取深度例項 Scrapy爬蟲五有限爬取深度例項豆瓣樂評分析

Java 爬蟲爬取html網頁解析

技術標籤：java 1、springboot專案，引入jsoup <dependency> <groupId>org.jsoup</groupId>

爬蟲實戰：批量爬取京東內衣圖片（自動爬取多頁，非一頁）

技術標籤：爬蟲爬蟲python 做下男生想做的事，爬取大量妹子內衣圖。作者：電氣-餘登武

Python爬蟲入門案例教學：批量爬取彼岸桌面4K超清美女桌布

先圖片開路環境介紹 python 3.6 / 3.8 pycharm 編輯器 requests parsel os 檔案操作在cmd裡面就可以進行安裝 pip install requests

Python爬蟲實戰入門六：提高爬蟲效率—併發爬取智聯招聘（轉載）

之前文章中所介紹的爬蟲都是對單個URL進行解析和爬取，url數量少不費時，但是如果我們需要爬取的網頁url有成千上萬或者更多，那怎麼辦？使用for迴圈對所有的url進行遍歷訪問？嗯，想法很好，但是如果url過多，爬取

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python爬蟲小例子——爬取51job釋出的工作職位

概述不知從何時起，Python和爬蟲就如初戀一般，情不知所起，一往而深，相信很多朋友學習Python，都是從爬蟲開始，其實究其原因，不外兩方面：其一Python對爬蟲的支援度比較好，類庫眾多。其二Pyhton的語法簡單，入門

基於Python的爬蟲spider（爬取番號站）

前幾天咕咕了幾天，最近又有了新的研究成果，爬取番號站，請忽略內容這只是學習☺️

python 圖片爬蟲系列三——爬取搜狗圖片庫中的圖片

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

python筆記2--lxml.etree爬取html內容

前言本篇繼續lxml.etree學習，線上訪問介面，通過介面返回的html，解析出想要的text文字內容

Python爬蟲——基於xpath爬取58同城房源資訊！

1、需求獲取58同城上所有房源的標題資訊https://bj.58.com/ershoufang/ 2、分析使用抓包工具進行分析

辣條君寫爬蟲3【爬取貝克街使用者】

話說python爬蟲界，有個非常知名的框架Scrapy。非同步爬取，使用簡單，功能強大。辣條君，學習之，練習之。貝克街，一個推理愛好者論壇網站，使用者資料量12W左右，很適合Scrapy學習練習爬取。本篇前半部分會介紹一

Python爬蟲-帶你爬取高清美女圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲——帶你爬取古詩名句，考試什麼的不就是輕輕鬆鬆

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理