1. 程式人生 > >bs4---jsonPath---selenium---chromedriver

bs4---jsonPath---selenium---chromedriver

1、bs4

BeaufulSoup 和lxml一樣都是用於解析html的框架,對資料的分析和提取。

和lxml相比,效率略低,用起來比較方便

bs4需要下載安裝: pip install bs4

2、jsonPath(瞭解)

安裝:pip install jsonpath

3、selenium

selenium+phatomjs和selenium+chrome

selenium:是一種用於web程式測試的工具,selenium測試的程式碼可以直接執行在瀏覽器中,就像真正的使用者操作一樣。

在寫python爬蟲的時候,主要是用selenium的webdriver 來驅動瀏覽器進行相關的操作

安裝:pip install selenium

selenium中元素查詢:

​ find_element_by_id()

​ find_elements_by_name()

​ find_elements_by_xpath()

​ find_elements_by_tag_name()

​ find_elements_by_class_name()

​ find_elements_by_css_selector()

​ find_elements_by_link_text()

​ 事件

​ click() 點選

​ send_keys()

​ switch_to_alert()

chromedriver:谷歌瀏覽器驅動

載入方法如下:

法一:driver = webdriver.Chrome(r'/Users/fanjianbo/Desktop/chromedriver')

法二:把chromedriver的目錄配成環境變數路徑,然後:driver = webdriver.Chrome()

【注意】chromedriver的版本要和chrome瀏覽器相對應,不然很多功能不能用

下載操作谷歌瀏覽器驅動的頁面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/

谷歌驅動和谷歌瀏覽器版本之間的對映表:http://blog.csdn.net/huilan_same/article/details/51896672

phantomjs:無介面瀏覽器

載入方法如下:

	法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")

	法二:把phantomjs拷貝到c盤下,並把bin目錄配置成環境變數,然後driver = webdriver.PhatomJS()

【注意】phantomjs目前已經不再更新

下載地址:http://phantomjs.org/download.html