關於爬取異步加載的頁面
阿新 • • 發佈:2018-09-03
分享 翻頁效果 刷新 ont href 源碼 handle ner base64
在爬取網站時常遇到異步加載的情況,必須點擊或者下拉滾動條才會加載出更多的圖片或視頻,在源碼中卻一片空白,我一開始遇到時候也有點懵,了解了就好,還是請求。學過一些前端知識的朋友都清楚其實就是ajax異步加載js,這是為了提高用戶的體驗,許多網站都使用這種方法。
究其根本,其實就是將這部分請求放在了後臺,查看的話,按F12然後F5刷新頁面,在Network標簽下都會顯示出來,比如下面這個網站。
隨便點一個發現看下啥情況
好吧,其實就是個get請求罷了,只是將正常的點擊翻頁查詢變成了下拉查詢,多了一步數據加載罷了但本質上還是一些url按順序增加頁數,也就是說不用管外面的網站鏈接,直接找到翻頁的js的鏈接,把它當做源碼,直接獲得對應頁面裏的圖片或視頻鏈接(可能需要拼接),嗯,還有修改js鏈接裏哪個參數可以達到翻頁效果。
對了,上圖的js內容是瀏覽器美化後的,實際效果如下圖,,,哈哈,沒法看是吧,想用正則或xpath之類匹配其中需要的信息前最好把內容復制js美化工具的網頁中點擊美化會規範排列滴,然後再分析匹配。
直接百度 js美化工具 就好,有很多,推薦個我常用的https://tool.lu/js/,請看效果圖
搞定,收工~
關於爬取異步加載的頁面