win10 爬蟲:解決爬取的html與原始檔顯示不一致問題
阿新 • • 發佈:2020-12-28
在進行爬蟲時,有時我們爬取的html和原始檔所顯示的不一樣,此時我們需要使用selenium庫來進行爬取。本文將詳細介紹如何解決這個問題。
準備工作
1. 安裝ChromeDriver
- step1:首先需要保證谷歌瀏覽器已經安裝好並可以上網。在 幫助->關於谷歌中檢視版本。
- step2:然後需要點選下載ChromeDriver,找到對應谷歌版本進行下載。
- step3:然後將下載好的檔案中的 chromedriver.exe 檔案直接放到Adaconda3/Scripts中(注意:該路徑需要在環境變數中設定好的)
- step4:驗證。在命令列中輸入chromedriver,得到下圖所示的結果即為安裝成功。
2.安裝PhantomJS
下載地址,找到對應的系統版本下載,配置過程同上,同樣進行驗證如下圖即為安裝成功。
3.安裝GeckoDriver
- step1:首先需要確認已經安裝 Firefox 瀏覽器並可以正常執行。
- step2:下載GeckoDriver,同樣需要根據系統確定下載版本,如win10 64位系統下載的版本。
- step3:配置過程同安裝ChromeDriver
- step4:驗證。得到如下圖所示即為安裝成功
4.安裝selenium
通過pip進行安裝
pip3 install selenium
到此,準備工作已經完成。
開始實驗
# 匯入相應的驅動
from selenium import webdriver.Firefox
from selenium import webdriver.Chrome
from selenium import webdriver.PhantomJS
# 根據需要選擇一個使用即可,用法類似
browser = Firefox()
# browser = PhantomJS()
# browser = Chrome()
# 對網址進行爬取
browser.get(url)
html = browser.page_source
# print(html)
此時得到的html和原始檔中顯示的是一樣的。
參考文獻
《Python3 網路爬蟲開發實戰》一書