爬蟲常用小工具彙總
一、Python爬蟲常用谷歌瀏覽器外掛
1.google-access-helper:谷歌瀏覽器助手,可訪問谷歌商店和使用Google搜尋
2.Xpath helper:獲取Html元素的Xpath路徑,開啟/關閉:ctrl+shift+X
3.JsonView:格式化輸出json資料
4.SwitchyOmega:谷歌瀏覽器中的代理管理擴充套件程式
二、在谷歌瀏覽器安裝XPath外掛
在谷歌瀏覽器安裝XPath外掛需要安裝Google訪問助手。下載地址:http://www.zdfans.com/html/27204.html
下載完之後解壓,在google瀏覽器點選設定,更多工具,擴充套件程式
點選開發者模式,將剛才解壓的檔案直接拖到這個介面,瀏覽器會自動安裝。我已經安裝了,安裝好之後第一個就是。
右上角將會顯示圖示
點選Chrome商店
在搜尋店內應用搜索並安裝三個外掛,分別是
1.Xpath helper
2.JsonView
3.SwitchyOmega
安裝完後如圖所示:
三、外掛的使用:
1、Xpath外掛的使用:
完成了前面的操作後,我們來看看Xpath的簡單使用,我們拿一個網站來做測試。
測試頁面為貓眼電影網:https://maoyan.com/board
進入到頁面,右鍵開啟檢查,我們觀察到電影名是在<div class=""movie-item-info>下的p標籤下的a連結的內容。所以我們可以寫出Xpath的表示式:
//div[@class="movie-item-info"]/p/a
我們在按ctrl+alt+x(可自行設定)開啟Xpath匹配,Query下輸入//div[@class="movie-item-info"]/p/a。Result裡面輸出結果。
2、JsonView、SwitchyOmega:待研究:
四、瀏覽器中按F12開啟網路監控器或者在網頁空白處右鍵點選“檢查”,網頁監控器常用選單如下,谷歌瀏覽器的Elements中直接支援使用Xpath表示式去搜索網頁內容: