1. 程式人生 > >十八、chrome在爬蟲中的使用

十八、chrome在爬蟲中的使用

1、新建隱身視窗

  瀏覽器中直接開啟網站,會自動帶上之前網站時儲存的cookie,但是在爬蟲中首次獲取頁面是沒有攜帶cookie的,這種情況如何解決呢?

解決方法:
使用隱身視窗,首次開啟網站,不會帶上cookie,能夠觀察頁面的獲取情況,包括對方伺服器如何設定cookie在本地。
在這裡插入圖片描述

2、chrome中network的更多功能

在這裡插入圖片描述

2.1 Perserve log

預設情況下,頁面發生跳轉之後,之前的請求url地址等資訊都會消失,勾選perserve log後之前的請求都會被保留

2.2 filter過濾

在url地址很多的時候,可以在filter中輸入部分url地址,對所有的url地址起到一定的過濾效果,具體位置在上面第二幅圖中的2的位置

2.3 觀察特定種類的請求

在上面第二幅圖中的3的位置,有很多選項,預設是選擇的all,即會觀察到所有種類的請求

很多時候處於自己的目的可以選擇all右邊的其他選項,比如常見的選項:

XHR:大部分情況表示ajax請求
JS:js請求
CSS:css請求

但是很多時候我們並不能保證我們需要的請求是什麼型別,特別是我們不清楚一個請求是否為ajax請求的時候,直接選擇all,從前往後觀察即可,其中js,css,圖片等不去觀察即可

不要被瀏覽器中的一堆請求嚇到了,這些請求中除了js,css,圖片的請求外,其他的請求並沒有多少個

3、尋找登入介面

回顧之前人人網的爬蟲我們找到了一個登陸介面,那麼這個介面從哪裡找到的呢?

人人網: http://www.renren.com

3.1 尋找action對的url地址

在這裡插入圖片描述
可以發現,這個地址就是在登入的form表單中action對應的url地址,回顧前端的知識點,可以發現就是進行表單提交的地址,對應的,提交的資料,僅僅需要:使用者名稱的input標籤中,name的值作為鍵,使用者名稱作為值,密碼的input標籤中,name的值作為鍵,密碼作為值即可

思考:
如果action對應的沒有url地址的時候可以怎麼做?

3.2 通過抓包尋找登入的url地址

在這裡插入圖片描述
通過抓包可以發現,在這個url地址和請求體中均有引數,比如uniqueTimestamp和rkey以及加密之後的password。
在這裡插入圖片描述


這個時候我們可以觀察手機版的登入介面,是否也是一樣的。可以發現在手機版中,依然有引數,但是引數的個數少一些,這個時候,我們可以使用手機版作為參考。

4、小結
  • 使用隱身視窗的主要目的是為了避免首次開啟網站攜帶cookie的問題
    chrome的network中,perserve log選項能夠在頁面發生跳轉之後任然能夠觀察之前的請求
  • 確定登入的地址有兩種方法:

    (1)尋找from表單action的url地址
    (2)通過抓包獲取