1. 程式人生 > >爬取今日頭條收藏夾文章列表資訊

爬取今日頭條收藏夾文章列表資訊

階段一:

瞭解Python,開始學習Python的基本語法,觀看相關爬蟲視訊,瞭解到爬取網頁資訊的簡單措施

階段二:

開始著手分析頭條收藏夾頁面。

頭條收藏夾地址格式:

地址中有三個變數引數,as,cp,max_repin_time,as,cp在頁面內可以找到原始碼,是基於對當前時間戳加密得到的,max_repin_time是指向下一頁面URL的關鍵值,從頁面資料列的最後一項中獲取

階段三:爬取收藏夾內所有文章的分類,標題,作者,釋出時間,源地址,並存入EXCEL檔案中

獲取AS,CP引數

將時間戳轉當地時間

使用代理

主檔案

成功輸出檔案

2018年2月7日 22:58