爬蟲——關於selenium的安裝說明
阿新 • • 發佈:2018-12-24
前言
在爬取的時候,我們有的時候會遇到一些對資料進行加密的網站,如果只是ajax加密,我們可以通過開發者工具檢查請求引數,傳送請求進行處理,但如果是JS加密,我們在用這種方式就顯得有些麻煩。通常這時我們會使用selenium進行爬取我們所需要的資料。
selenium
首先,先放官網文件:https://selenium-python.readthedocs.io/
然後,感覺一些大神的翻譯(中文文件):https://selenium-python-zh.readthedocs.io/en/latest/getting-started.html
selenium 是一個基於瀏覽器的自動化測試工具。
可以對支援的瀏覽器發起基於程式程式碼/工作的操作自動化執行,主要應用於 web 自動化測試維護
selenium 需要和瀏覽器配合使用
selenium 只是一個自動化測試工具,可以操作瀏覽器的各種行為,需要配合瀏覽器一起進行操作使用
通常,我們會使用selenium + chrome + headless進行相關操作
安裝selenium使用 pip install selenium 這條命令
安裝Chrome的方式:
Chrome映象下載地址: http://npm.taobao.org/mirrors/chromedriver/
(檢視自己電腦上的Chrome瀏覽器版本,下載相對應的版本)
然後建立一個chromedriver的資料夾,將下載好之後的映象解壓後,放在該資料夾下
然後進行path路徑配置(也可以不配置)
檢驗
將上述操作完成之後,我們便可以進行開發了,在此之前先進行測試一下:
import time
from selenium import webdriver
# 下載好之後的Chrome的位置 browser = webdriver.Chrome('C:\chromedriver\chromedriver.exe') # 訪問百度 browser.get('http://www.baidu.com/')
# 將介面延長几秒
time.sleep(5) # 關閉 browser.close()
若是能正常的開啟百度的頁面,也就代表這我們的操作成功了