1. 程式人生 > 程式設計 >Python3爬蟲中關於Ajax分析方法的總結

Python3爬蟲中關於Ajax分析方法的總結

這裡還以前面的微博為例,我們知道拖動重新整理的內容由Ajax載入,而且頁面的URL沒有變化,那麼應該到哪裡去檢視這些Ajax請求呢?

1. 檢視請求

這裡還需要藉助瀏覽器的開發者工具,下面以Chrome瀏覽器為例來介紹。

首先,用Chrome瀏覽器開啟微博的連結https://m.weibo.cn/u/2830678474,隨後在頁面中點選滑鼠右鍵,從彈出的快捷選單中選擇“檢查”選項,此時便會彈出開發者工具,如圖6-2所示:

8ede1554a18ea57eb8b3e0a9e1ea268.png

此時在Elements選項卡中便會觀察到網頁的原始碼,右側便是節點的樣式。

不過這不是我們想要尋找的內容。切換到Network選項卡,隨後重新重新整理頁面,可以發現這裡出現了非常多的條目,如圖6-3所示。

7347cacb4cf036fd1e2539e6b37252a.png

前面也提到過,這裡其實就是在頁面載入過程中瀏覽器與伺服器之間傳送請求和接收響應的所有記錄。

Ajax其實有其特殊的請求型別,它叫作xhr。在圖6-3中,我們可以發現一個名稱以getIndex開頭的請求,其Type為xhr,這就是一個Ajax請求。用滑鼠點選這個請求,可以檢視這個請求的詳細資訊,如圖6-4所示。

6b76cca50287683be4a2270b47d9f25.png

在右側可以觀察到其Request Headers、URL和Response Headers等資訊。其中Request Headers中有一個資訊為X-Requested-With:XMLHttpRequest,這就標記了此請求是Ajax請求,如圖6-5所示。

ae9d01347dfabd89687948505e01de1.png

隨後點選一下Preview,即可看到響應的內容,它是JSON格式的。這裡Chrome為我們自動做了解析,點選箭頭即可展開和收起相應內容,如圖6-6所示。

3ac72172652c9cf4262ba6362dfc3dd.png

觀察可以發現,這裡的返回結果是我的個人資訊,如暱稱、簡介、頭像等,這也是用來渲染個人主頁所使用的資料。JavaScript接收到這些資料之後,再執行相應的渲染方法,整個頁面就渲染出來了。

另外,也可以切換到Response選項卡,從中觀察到真實的返回資料,如圖6-7所示。

48e0d6b7d27a5198f94a7479dcefe42.png

接下來,切回到第一個請求,觀察一下它的Response是什麼,如圖6-8所示。

841bc2e8347423785a041f30bba932b.png

這是最原始的連結https://m.weibo.cn/u/2830678474返回的結果,其程式碼只有不到50行,結構也非常簡單,只是執行了一些JavaScript。

所以說,我們看到的微博頁面的真實資料並不是最原始的頁面返回的,而是後來執行JavaScript後再次向後臺傳送了Ajax請求,瀏覽器拿到資料後再進一步渲染出來的。

2. 過濾請求

接下來,再利用Chrome開發者工具的篩選功能篩選出所有的Ajax請求。在請求的上方有一層篩選欄,直接點選XHR,此時在下方顯示的所有請求便都是Ajax請求了,如圖6-9所示。

7146e82314367f4e8e5dd3665ae9387.png

接下來,不斷滑動頁面,可以看到頁面底部有一條條新的微博被刷出,而開發者工具下方也一個個地出現Ajax請求,這樣我們就可以捕獲到所有的Ajax請求了。

隨意點開一個條目,都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等內容,此時想要模擬請求和提取就非常簡單了。

圖6-10所示的內容便是我的某一頁微博的列表資訊。

35287876f572b5d14186d70da5f3730.png

到現在為止,我們已經可以分析出來Ajax請求的一些詳細資訊了,接下來只需要用程式模擬這些Ajax請求,就可以輕鬆提取我們所需要的資訊了。

在下一節中,我們用Python實現Ajax請求的模擬,從而實現資料的抓取。

以上就是Python3爬蟲中關於Ajax分析方法的總結的詳細內容,更多關於Python3爬蟲裡Ajax分析方法的資料請關注我們其它相關文章!