bs4---jsonPath---selenium---chromedriver
阿新 • • 發佈:2018-11-17
1、bs4
BeaufulSoup 和lxml一樣都是用於解析html的框架,對資料的分析和提取。
和lxml相比,效率略低,用起來比較方便
bs4需要下載安裝: pip install bs4
2、jsonPath(瞭解)
安裝:pip install jsonpath
3、selenium
selenium+phatomjs和selenium+chrome
selenium:是一種用於web程式測試的工具,selenium測試的程式碼可以直接執行在瀏覽器中,就像真正的使用者操作一樣。
在寫python爬蟲的時候,主要是用selenium的webdriver 來驅動瀏覽器進行相關的操作
安裝:pip install selenium
selenium中元素查詢:
find_element_by_id()
find_elements_by_name()
find_elements_by_xpath()
find_elements_by_tag_name()
find_elements_by_class_name()
find_elements_by_css_selector()
find_elements_by_link_text()
事件
click() 點選
send_keys()
switch_to_alert()
chromedriver:谷歌瀏覽器驅動
載入方法如下:
法一:driver = webdriver.Chrome(r'/Users/fanjianbo/Desktop/chromedriver')
法二:把chromedriver的目錄配成環境變數路徑,然後:driver = webdriver.Chrome()
【注意】chromedriver的版本要和chrome瀏覽器相對應,不然很多功能不能用
下載操作谷歌瀏覽器驅動的頁面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/ 谷歌驅動和谷歌瀏覽器版本之間的對映表:http://blog.csdn.net/huilan_same/article/details/51896672
phantomjs:無介面瀏覽器
載入方法如下:
法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")
法二:把phantomjs拷貝到c盤下,並把bin目錄配置成環境變數,然後driver = webdriver.PhatomJS()
【注意】phantomjs目前已經不再更新
下載地址:http://phantomjs.org/download.html