Python爬蟲為何可以這麼叼?爬取百度雲盤資源!並儲存到自己雲盤
阿新 • • 發佈:2019-01-22
點選它,再點選右邊的【Cookies】就可以看到請求頭裡的 cookie 情況。
cookie分析
除了上面說到的兩個 cookie ,其他的請求頭引數可以參照手動轉存時抓包的請求頭。這兩個 cookie 預留出來做引數的原因是 cookie 都是有生存週期的,過期了需要更新,不同的賬號登入也有不同的 cookie 。
引數分析
接下來分析引數,點選【Cookies】右邊的【Params】檢視引數情況。如下:
爬取shareid、from、filelist,傳送請求轉存到網盤
以上面這個資源連結為例(隨時可能被河蟹,但是沒關係,其他連結的結構也是一樣的),我們先用瀏覽器手動訪問,F12 開啟控制檯先分析一下原始碼,看看我們要的資源資訊在什麼地方。控制檯有搜尋功能,直接搜 “shareid”。
定位到4個shareid,前三個與該資源無關,是其他分享資源,最後一個定位到該 html 檔案的最後一個標籤塊裡。雙擊後可以看到格式化後的 js 程式碼,可以發現我們要的資訊全都在裡邊。如下節選:
可以看到這兩行
yunData.FILEINFO 結構如下,你可以將它複製貼上到json.cn裡,可以看得更清晰。
清楚了這三個引數的位置,我們就可以用正則表示式進行提取了。程式碼如下:
爬取到了這三個引數,就可以呼叫之前的 transfer 方法進行轉存了。.
進群:125240963 即可獲取原始碼下載地址哦!