1. 程式人生 > >使用Fiddler和夜神瀏覽器對搜狐推薦新聞的抓取

使用Fiddler和夜神瀏覽器對搜狐推薦新聞的抓取

list ddl api 工具 thumb 新聞 www 復制 替換

各位老鐵好,現如今移動端抓取數據是一種趨勢化,今天我以抓取移動端搜狐視頻為例向大家做一個抓取移動端數據的示例

1.首先下載Fiddler抓包工具:

鏈接: https://pan.baidu.com/s/1_3l6POqbRFoQjJT02YQ8DQ 提取碼: d4n2 復制這段內容後打開百度網盤手機App,操作更方便哦

2.下載夜神瀏覽器:

鏈接: https://pan.baidu.com/s/1PTitEggSY26KsTSHi8Q9-w 提取碼: dtzu 復制這段內容後打開百度網盤手機App,操作更方便哦

3.下載好工具後做配置:https://www.cnblogs.com/chenyibai/p/10691703.html

4.打開Fiddler抓包工具

技術分享圖片

5.打開夜神瀏覽器

技術分享圖片

6.點擊搜狐新聞安裝包

技術分享圖片

7.點擊推薦(點擊之前先將Fiddler抓包工具清除所有抓到的數據包,Remove All)

技術分享圖片

8.獲取到動態加載的數據

技術分享圖片

9.新聞內容url的獲取

 for i in list:

  ‘https://api.k.sohu.com/api/news/v5/article.go?‘ + i[‘link‘].split(‘://‘)[1]

技術分享圖片

10.獲取圖片的時候需要註意視頻圖片

技術分享圖片

11.找到視頻新聞的內容url

技術分享圖片

12.訪問視頻新聞的url,獲取到圖片的真是url

‘https://api.k.sohu.com/api/news/v5/article.go?‘ + i[‘link‘].split(‘://‘)[1]

技術分享圖片

13.爬取過程中,或得到的視頻新聞圖片數據是

data-thumbnail="//media-platform.bjcnc.img-internal.sohucs.com/images/20190411/a42212a334e443d18f7ed70fa009fcff.jpeg"

所以需要我們做一個replace替換

技術分享圖片

以上便是我爬取過程中遇到的問題

使用Fiddler和夜神瀏覽器對搜狐推薦新聞的抓取