Python爬蟲為何可以這麼叼？爬取百度雲盤資源！並儲存到自己雲盤

阿新 • • 發佈：2019-01-22

點選它，再點選右邊的【Cookies】就可以看到請求頭裡的 cookie 情況。

cookie分析

除了上面說到的兩個 cookie ，其他的請求頭引數可以參照手動轉存時抓包的請求頭。這兩個 cookie 預留出來做引數的原因是 cookie 都是有生存週期的，過期了需要更新，不同的賬號登入也有不同的 cookie 。

引數分析

接下來分析引數，點選【Cookies】右邊的【Params】檢視引數情況。如下：

爬取shareid、from、filelist，傳送請求轉存到網盤

以上面這個資源連結為例（隨時可能被河蟹，但是沒關係，其他連結的結構也是一樣的），我們先用瀏覽器手動訪問，F12 開啟控制檯先分析一下原始碼，看看我們要的資源資訊在什麼地方。控制檯有搜尋功能，直接搜 “shareid”。

定位到4個shareid，前三個與該資源無關，是其他分享資源，最後一個定位到該 html 檔案的最後一個標籤塊裡。雙擊後可以看到格式化後的 js 程式碼，可以發現我們要的資訊全都在裡邊。如下節選：

可以看到這兩行

yunData.FILEINFO 結構如下，你可以將它複製貼上到json.cn裡，可以看得更清晰。

清楚了這三個引數的位置，我們就可以用正則表示式進行提取了。程式碼如下：

爬取到了這三個引數，就可以呼叫之前的 transfer 方法進行轉存了。.

進群：125240963 即可獲取原始碼下載地址哦！