爬蟲利器之Chrome檢查功能巧用
聽君一席話,勝讀十本書。抓緊機會,跟大神學爬蟲。
主要是python爬蟲也最近幾年比較火熱,像樣的書籍教程就沒幾本,更別提經典大作了。
Chrome檢查功能
右擊滑鼠,chrome瀏覽器是有檢查這個功能的,特別指出是chrome。
點了檢查之後,右邊就是這麼個介面了。這裡面有很多東西,elements,Console,Source,Network,Performance以及Memory和Application資訊。如果大神不告訴你,只是這個頁面就夠看半天也看不出個所以然。
Network功能簡介
還好,我替你問了大神了。只要看Network就好了。
network下面的這個功能其實就是一個網路監視器,它錄製了你在網頁上的每一步操作。
下圖的第一個小紅點,顏色是紅色的,表示正在錄製;點一下變成黑色,就什麼都不會記錄。
第二個圖示,clear的意思,點選可以清空下面的記錄。
演示network請求錄製功能
比如隨便點選網頁上的任何內容,在這裡我們打個勾,篩選停業及問題平臺。
然後觀察右側網頁錄製器變化:
接下來看看front_select-plat裡都有哪些內容
front_select-plat的headers資訊
一共有四個部分,general,response headers, request headers, form data
request 是請求,這是爬蟲要重點關注的,因為要模擬請求嘛
headers 也是重點關注,理由同上
form data 是引數出現的地方,重點關注
general裡的有用資訊
Request URL 請求的url
Request Method 請求使用的方法,此處是post方法
Request Headers裡的有用資訊
view parsed這個是可以點的,點了可以解析可以檢視源
User-Agent是使用者代理,這些資訊都是要寫近請求頭中的
Form Data裡的有用資訊
params,sort,currPage都是模擬請求需要用到的引數
點點view source,view URL encoded會看到神奇的事情
點了view source就會看到菜鳥級爬蟲會使用的URL,這個與上面這個form data是本質是一樣的。
front_select-plat的Preview資訊
當前頁的所有有用的資料都在這裡了,是一個list
totalPage 表示一共有118頁
pageSize 表示每頁有25條資料
maxElements 表示一共有2946條資料
具體的看看list長得什麼樣子,全是白花花的資料~
點選檢視其中一條的明細。如下所示:
長按下方圖片,識別圖中二維碼,關注:“資料分析師手記”微信公眾號
與三月桑一起修煉資料分析