1. 程式人生 > 其它 >如何獲取web視訊資料流的傳輸?小姐姐的視訊都被我爬下來了,這誰頂得住

如何獲取web視訊資料流的傳輸?小姐姐的視訊都被我爬下來了,這誰頂得住

大家好,我是辣條。

效果展示

爬取目標

網站:六間房

工具使用

開發工具:pycharm 開發環境:python3.7, Windows10 使用工具包:requests,lxml

重點學習內容

  • 動態資料抓取

  • requests使用

  • json資料獲取

專案思路解析

第一步,明確自己需要獲取的網頁地址資訊,要先清楚的自己的採集目標,今天採集的資料是六間房的小視訊資料。

當前網頁資料可以明顯看出是動態資料,找到對應資料介面,獲取到視訊的播放地址,動態資料獲取的話首先開啟抓包工具 (爬蟲必備技能就不做過多介紹) 重新整理網頁資料進行頁面的資料載入,找到動態資料。

確定自己需要的資料,在headers裡找到請求的url地址,對網址傳送請求(儘量做爬蟲的時候都帶上請求頭不要像我。。。 將資料轉換成字典格式,取出字典裡content裡的list 迴圈取出列表每個視訊資料,拿到資料裡的視訊播放地址和視訊標題,儲存對應視訊資料。

簡易原始碼分享

import requests
​
​
url = 'https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page=1&pagesize=25'
response = requests.get(url).json()
content = response['content']['list']
for i in content:
  playurl = i['playurl'] # 視訊播放地址
  title = playurl.split('-')[1] # 名稱儲存名稱
  # 視訊下載
  video = requests.get(playurl).content # 請求視訊地址
  # 檔案儲存  檔案儲存路徑  檔案讀寫方式  b 進位制檔案讀寫  a檔案存在就追加 不存在就新建
  f = open('./VIdeo/{}'.format(title), 'ab')
  f.write(video)
  f.close()
  print('{}下載完成...'.format(title))

最後給大家分享騰訊,阿里,位元組跳動,很有意思的一張對比圖!

從BAT到BAT,只是從Baidu換成了ByteDance,曾經的BTA,是PC時代的霸主,如今的BAT,是移動網際網路的霸主。

二十世紀的,第一個十年,是靠搜尋的百度國內稱王,第二個十年,是靠演算法的位元組走向世界。

第三個十年,會是誰獨樹一幟站上頂點,又會是誰讓位誰上位?