1. 程式人生 > 其它 >win10 爬蟲:解決爬取的html與原始檔顯示不一致問題

win10 爬蟲:解決爬取的html與原始檔顯示不一致問題

技術標籤:selenium爬蟲python

在進行爬蟲時,有時我們爬取的html和原始檔所顯示的不一樣,此時我們需要使用selenium庫來進行爬取。本文將詳細介紹如何解決這個問題。

準備工作

1. 安裝ChromeDriver

  • step1:首先需要保證谷歌瀏覽器已經安裝好並可以上網。在 幫助->關於谷歌中檢視版本。
  • step2:然後需要點選下載ChromeDriver,找到對應谷歌版本進行下載。
  • step3:然後將下載好的檔案中的 chromedriver.exe 檔案直接放到Adaconda3/Scripts中(注意:該路徑需要在環境變數中設定好的)
  • step4:驗證。在命令列中輸入chromedriver,得到下圖所示的結果即為安裝成功。
    在這裡插入圖片描述

2.安裝PhantomJS

下載地址,找到對應的系統版本下載,配置過程同上,同樣進行驗證如下圖即為安裝成功。
在這裡插入圖片描述

3.安裝GeckoDriver

  • step1:首先需要確認已經安裝 Firefox 瀏覽器並可以正常執行。
  • step2:下載GeckoDriver,同樣需要根據系統確定下載版本,如win10 64位系統下載的版本。
    在這裡插入圖片描述
  • step3:配置過程同安裝ChromeDriver
  • step4:驗證。得到如下圖所示即為安裝成功
    在這裡插入圖片描述

4.安裝selenium

通過pip進行安裝

pip3 install selenium

到此,準備工作已經完成。

開始實驗

# 匯入相應的驅動
from selenium import
webdriver.Firefox from selenium import webdriver.Chrome from selenium import webdriver.PhantomJS # 根據需要選擇一個使用即可,用法類似 browser = Firefox() # browser = PhantomJS() # browser = Chrome() # 對網址進行爬取 browser.get(url) html = browser.page_source # print(html)

此時得到的html和原始檔中顯示的是一樣的。

參考文獻

《Python3 網路爬蟲開發實戰》一書