1. 程式人生 > 實用技巧 >爬蟲常用小工具彙總

爬蟲常用小工具彙總

一、Python爬蟲常用谷歌瀏覽器外掛

1.google-access-helper:谷歌瀏覽器助手,可訪問谷歌商店和使用Google搜尋

2.Xpath helper:獲取Html元素的Xpath路徑,開啟/關閉:ctrl+shift+X

3.JsonView:格式化輸出json資料

4.SwitchyOmega:谷歌瀏覽器中的代理管理擴充套件程式

二、在谷歌瀏覽器安裝XPath外掛

在谷歌瀏覽器安裝XPath外掛需要安裝Google訪問助手。下載地址:http://www.zdfans.com/html/27204.html

下載完之後解壓,在google瀏覽器點選設定,更多工具,擴充套件程式

點選開發者模式,將剛才解壓的檔案直接拖到這個介面,瀏覽器會自動安裝。我已經安裝了,安裝好之後第一個就是。


右上角將會顯示圖示

點選Chrome商店

在搜尋店內應用搜索並安裝三個外掛,分別是

1.Xpath helper

2.JsonView

3.SwitchyOmega

安裝完後如圖所示:

三、外掛的使用:

1、Xpath外掛的使用:

完成了前面的操作後,我們來看看Xpath的簡單使用,我們拿一個網站來做測試。

測試頁面為貓眼電影網:https://maoyan.com/board

進入到頁面,右鍵開啟檢查,我們觀察到電影名是在<div class=""movie-item-info>下的p標籤下的a連結的內容。所以我們可以寫出Xpath的表示式:

//div[@class="movie-item-info"]/p/a

我們在按ctrl+alt+x(可自行設定)開啟Xpath匹配,Query下輸入//div[@class="movie-item-info"]/p/a。Result裡面輸出結果。

2、JsonView、SwitchyOmega:待研究:

四、瀏覽器中按F12開啟網路監控器或者在網頁空白處右鍵點選“檢查”,網頁監控器常用選單如下,谷歌瀏覽器的Elements中直接支援使用Xpath表示式去搜索網頁內容: