怎麼下載m3u8格式視訊？Python爬取A站m3u8格式視訊案例講解

阿新 • • 發佈：2021-08-23

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

本篇文章流程

一. 資料來源分析

確定需求 (確定要爬的內容是什麼?)。只有知道資料要的是什麼,才能根據實際情況去分析它的來源
怎麼去分析 (開發者工具[瀏覽器都自帶滑鼠右鍵點選外掛或者F12]) 抓包分析
所有的ts檔案內容來自 m3u8

有不懂的問題、報錯解答，想要原始碼、視訊教程，資料集的同學也可以點這裡

二. 程式碼實現步驟

傳送請求對於視訊的詳情頁url地址傳送請求
獲取資料獲取視訊的詳情頁網頁原始碼
解析資料提取 m3u8的 url地址標題

傳送請求對於m3u8的 url地址傳送請求
獲取資料獲取所有ts url地址(不是完整是需要拼接)
傳送請求對於 ts url地址傳送請求
儲存資料儲存ts 視訊片段一個一個視訊片段
合成視訊一個整體視訊內容

程式碼

匯入所需的模組

import requests # 資料請求模組 pip install requests
import re # 正則表示式 內建模組 不需要安裝
import os # 檔案操作
import zipfile # 做壓縮檔案

用python程式碼，對於伺服器傳送請求，伺服器接收到請求之後(確定不是爬蟲程式碼，你是正常客戶端)，才會給你返回資料

url = f'https://www.acfun.cn/v/ac23857874

headers = {
    'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response)

執行程式碼，返回值為200

解析資料提取m3u8 url地址標題

元字元 * +

.*? 萬用字元可以匹配任意字元(除了\n) 匹配文字匹配數字字母特殊字元 re.S

\ 轉義字元把含有特殊含義的字元轉成除了字元本身以外沒有其他意思

[0] 正則表示式提取出來的內容返回是列表 [0] 0 是指列表索引位置索引位置是0 是列表裡面的第一個元素

[0,1,2,3,4,5] img\ 我轉義我自己

() 表示精確匹配 ? 非貪婪匹配

title = re.findall('<title >(.*?) - AcFun彈幕視訊網 - 認真你就輸啦 \(\?ω\?\)ノ- \( ゜- ゜\)つロ</title>', response.text)[0]
m3u8_url = re.findall('"backupUrl(.*?)\"]', response.text)[0].replace('\"', '').split('\')[2]
m3u8_data = requests.get(url=m3u8_url, headers=headers).text
print(m3u8_url)

正則解析

正則表示式替換 re.sub() join 是把列表轉成字串

\d 匹配數字 \d+匹配多個數字 * 匹配前一個字元0個或者多個無數個

m3u8_data = re.sub('#EXTM3U', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-VERSION:\d', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-TARGETDURATION:\d', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-MEDIA-SEQUENCE:\d', '', m3u8_data)
m3u8_data = re.sub('#EXTINF:\d\.\d+,', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-ENDLIST', '', m3u8_data)
m3u8_data = m3u8_data.split()

for link in m3u8_data:
    # 字串拼接 加上 才是完整url地址 構建完整的url地址
    link_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/hls/' + link

儲存檔案你確定檔案儲存路徑儲存檔案的名字字尾

link_content = requests.get(url=link_url, headers=headers).content
link_name = link.split('.')[1]
with open(filename + link_name + '.ts', mode='w') as f:
    f.write(link_content)

合併視訊

files = os.listdir(filename)
print('開始視訊片段合成..................')

with zipfile.ZipFile(filename + title + '.mp4', mode='w') as z:
    for file in tqdm(files):
        path_file = filename + file
        z.write(path_file)
        os.remove(path_file)


print('視訊片段合成完畢..................')

怎麼下載m3u8格式視訊？Python爬取A站m3u8格式視訊案例講解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取B站視訊，只需一個B站視訊地址，即可任意下載

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取B站視訊、番劇、電影進行下載

技術標籤：python人工智慧pythonlinux程式語言phpstorm 功能輸入B站視訊播放地址，開始下載支援斷點續傳,顯示當前下載進度和速度未登入狀態下，只能下載480p，登入後預設解析度為1080p，使用者可設定 Cookie支援

只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

前言抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

詞雲圖是怎麼做出來的？Python爬取B站視訊彈幕，並做成詞雲圖

前言今天介紹一個獲取B站資料的Python擴充套件庫-bilibili_api 可以獲取的資料包括：

python 爬取B站原視訊的例項程式碼

B站原視訊爬取，我就不多說直接上程式碼。直接執行就好。 B站是把視訊和音訊分開。要把2個合併起來使用。這個需要分析才能看出來。然後就是登陸這塊是比較難的。

python 爬取B站原視訊的實站程式碼

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬取B站UP主的所有視訊連結及詳細資訊

標題：Python 爬取B站UP主的所有視訊連結及詳細資訊原文連結：https://blog.xieqiaokang.com/posts/36033.html

Python爬取B站健身房人搞偷襲，不講武德的視訊彈幕

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬取b站視訊

import requests import re import random class BLBL(object): def __init__(self, url, cookie, referer): # 需要爬取的網頁字首例如:https://www.bilibili.com/video/av49035382?from=search&seid=105819