28.分析採集美團網站資訊-2
阿新 • • 發佈:2018-12-03
接著昨天的思路,繼續分析,要想獲取資訊,就要抓獲xhr中js請求。
如圖:
1.明顯可以看的出request url 是由若干引數拼接而成。
2._token 引數很顯而易見 是個重要的請求引數,而且在一段時間內是變化的,是有一定的時效期,由請求資料時生成。
本來是想著去獲取引數模擬請求url,為了少走彎路,也百度了他人的一些建議,想要獲取引數,需要破解其js加密演算法,看其是如何生成的。
由此可見,網站直接去採集請求是行不通的,只能另尋它路,總歸會有解決的辦法,只是目前自己的能力還不夠,需要多去思考。
問題:之前採集工商資訊資料也是,對天眼查、企查查、啟信寶、這些網站直接訪問採集是行不通的,只能找其他的介面去採集,採集手機端介面網站,因為其反爬會少一些。
解決:訪問https://i.meituan.com/ 手機端介面網站
點選美食,載入資料,控制檯情況如下:
請求頭設定:
引數設定:
多拖動滑動條,發現 offset發生變化,每次重新整理載入15條資料。但是這裡呢,還是出現了一些問題,還沒有開始爬資料,只是簡單地測試載入資料就出現了驗證碼的問題,
因此要像爬房產資訊那樣,雖然資料有很多,但是隻給你返回100頁資料,要想獲取全部資料就要進行分類抓,不能抓取全部商品。
拿第一個資料為例:
點選進入店鋪:
http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163
http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163
可以發現url是拼接而成的,兩個重要引數 poiid /和 ct_poi
好了今天就先分析到這裡,想要獲取詳情店鋪資料就需要先獲取其 poid和ct_poi引數,然後再配置其需要修改的相關引數就能正確採集到資訊。