如何獲取web視訊資料流的傳輸?小姐姐的視訊都被我爬下來了,這誰頂得住
阿新 • • 發佈:2021-08-25
大家好,我是辣條。
效果展示
爬取目標
網站:六間房
工具使用
開發工具:pycharm 開發環境:python3.7, Windows10 使用工具包:requests,lxml
重點學習內容
-
動態資料抓取
-
requests使用
-
json資料獲取
專案思路解析
第一步,明確自己需要獲取的網頁地址資訊,要先清楚的自己的採集目標,今天採集的資料是六間房的小視訊資料。
當前網頁資料可以明顯看出是動態資料,找到對應資料介面,獲取到視訊的播放地址,動態資料獲取的話首先開啟抓包工具 (爬蟲必備技能就不做過多介紹) 重新整理網頁資料進行頁面的資料載入,找到動態資料。
確定自己需要的資料,在headers裡找到請求的url地址,對網址傳送請求(儘量做爬蟲的時候都帶上請求頭不要像我。。。 將資料轉換成字典格式,取出字典裡content裡的list 迴圈取出列表每個視訊資料,拿到資料裡的視訊播放地址和視訊標題,儲存對應視訊資料。
簡易原始碼分享
import requests
url = 'https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page=1&pagesize=25'
response = requests.get(url).json()
content = response['content']['list']
for i in content:
playurl = i['playurl'] # 視訊播放地址
title = playurl.split('-')[1] # 名稱儲存名稱
# 視訊下載
video = requests.get(playurl).content # 請求視訊地址
# 檔案儲存 檔案儲存路徑 檔案讀寫方式 b 進位制檔案讀寫 a檔案存在就追加 不存在就新建
f = open('./VIdeo/{}'.format(title), 'ab')
f.write(video)
f.close()
print('{}下載完成...'.format(title))
最後給大家分享騰訊,阿里,位元組跳動,很有意思的一張對比圖!
從BAT到BAT,只是從Baidu換成了ByteDance,曾經的BTA,是PC時代的霸主,如今的BAT,是移動網際網路的霸主。
二十世紀的,第一個十年,是靠搜尋的百度國內稱王,第二個十年,是靠演算法的位元組走向世界。
第三個十年,會是誰獨樹一幟站上頂點,又會是誰讓位誰上位?