Python爬蟲實戰，AcFun彈幕視訊網

阿新 • • 發佈：2020-10-20

CSDN個人主頁：高智商白痴
原文地址：https://blog.csdn.net/qq_44700693/article/details/109124334?utm_source=app

很多人學習python，不知道從何學起。
很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。
很多已經做案例的人，卻不知道如何去學習更加高深的知識。
那麼針對這三類人，我給大家提供一個好的學習平臺，免費領取視訊教程，電子書籍，以及課程的原始碼！??¤
QQ群：623406465

日常跳轉：

- - 匯入

匯入

前段時間我已經將B站的爬取方法做了一個總結：Python爬蟲：嗶哩嗶哩（bilibili）視訊下載。

這一次，我將繼續分享AcFun視訊網站的解析，其實相對於B站，A站的反爬機制更為簡單：

單個短視訊

獲取視訊的資訊

為了能夠方便的解析與說明，就肯定會拿一個例子來才好的哇：

【仙女UP特輯】AcFun Family Party ——成都站（今天又是~~lsp~~的一天呢~~）

直接在瀏覽器端開啟並抓包該連結發現，在XHR的資料下，第一條（又或者某一次）的請求就載入了視訊的真實請求連結：
雖然本身僅僅是一個m3u8

檔案，不過我們還是有辦法處理的，我們在此之前先必須要找到該檔案的親親貴是從哪裡發出來的，又或者能夠在哪裡找到這個連結。

在找遍了XHR資料無果後，我決定去看一看網頁原始碼：
當我用m3u8檔案的請求連結在網頁原始碼中搜索後發現，連結就出現在原始碼中：

因為在原始碼中是以JSON資料存放的：

所以我們需要將資料格式化，方便我們進行資料提取：

雖然我將該資料格式化以後發現，有一個欄位的值居然也是一個JSON資料的格式，所以我們再對第二層的JSON資料進行格式化後可以看到以下資訊：

對於未登入時的狀態，即使網頁端不能直接播放，但是“ 後臺 ”早已經給我們準備好了播放連結（B站則是載入當前賬戶或著未登入時能觀看的最大清晰度），所以我們可以在未登陸的情況下白嫖

超高清資源~~

class m3u8_url():
    def __init__(self, f_url):
        self.url = f_url

    def get_m3u8(self):
        global flag, qua, rel_path
        html = requests.get(self.url, headers=headers).text
        first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
        name = first_json['title'].strip().replace("|",'')
        video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']

為了後續能夠選擇清晰度，所以我還進行了清晰度的爬取:

for quality in video_info:  # 清晰度
    num += 1
    Label[num] = quality['qualityLabel']
print(Label)
choice = int(input("請選擇清晰度: "))

通過m3u8檔案地址下載視訊

到此，我們已經可以拿到視訊的m3u8檔案的地址，那麼現在就來開始解決之前遺留的一個小問題：如何通過m3u8檔案下載視訊？

首先，我們拿到一個m3u8檔案來作為案例：
為了方便，在這裡我手動的寫了一個m3u8檔案來作為例子。

我們知道，在m3u8檔案中的視訊連結都是.ts的分段格式，所以我們必須要先想辦法將所有的.ts連結都拿出來，並且加上字首，拼裝成視訊的真實完整的連結：(在這裡假設視訊原字首為https://www.acfun.cn/)

urls=[]  # 用於儲存視訊的分段連結
def get_ts_urls():
    with open('123.m3u8',"r") as file:
        lines = file.readlines()
        for line in lines:
            if '.ts' in line:
                print("https://www.acfun.cn/"+line)

通過以上方法，我們就可以通過m3u8檔案來獲取每一段的視訊連結了，接下來，我們再將下載的功能進行完善：

下載的基本思路還是和我以前的一篇文章的思路一樣：Python爬蟲：用最普通的方法爬取ts檔案併合成為mp4格式

class Download(): 
    urls = []  # 用於儲存視訊的分段連結

    def __init__(self, name, m3u8_url, path):
        '''
        :param name: 視訊名
        :param m3u8_url: 視訊的 m3u8檔案 地址
        :param path: 下載地址
        '''
        self.video_name = name
        self.path = path
        self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
        with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
            f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)

    def get_ts_urls(self):
        with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
            lines = file.readlines()
            for line in lines:
                if '.ts' in line:
                    self.urls.append(self.f_url + line.replace('\n', ''))

    def start_download(self):
        self.get_ts_urls()
        for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
            movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
            with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
                f.write(movie.content)
        os.remove(self.path + '/{}.m3u8'.format(self.video_name))

程式碼註解：

1、為了最後得到的只有視訊，所以在視訊下載完後，自動的將當前視訊的m3u8檔案進行了刪除操作。

2、line.replace('\n', '')的原因：讀取到的m3u8檔案的每一行結尾都含有一個" \n "。

原始碼及效果

終於，到現在我們已經可以整合程式碼並執行看一看了：

import os
import re
import json
import requests
from tqdm import tqdm

path = './'

headers = {
    'referer': 'https://www.acfun.cn/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}

class m3u8_url():
    def __init__(self, f_url):
        self.url = f_url

    def get_m3u8(self):
        global flag, qua, rel_path
        html = requests.get(self.url, headers=headers).text
        first_json = json.loads(re.findall('window.pageInfo = window.videoInfo = (.*?)};', html)[0] + '}', strict=False)
        name = first_json['title'].strip().replace("|",'')
        video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
        Label = {}
        num = 0
        for quality in video_info:  # 清晰度
            num += 1
            Label[num] = quality['qualityLabel']
        print(Label)
        choice = int(input("請選擇清晰度: "))
        Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()

class Download():
    urls = []

    def __init__(self, name, m3u8_url, path):
        '''
        :param name: 視訊名
        :param m3u8_url: 視訊的 m3u8檔案 地址
        :param path: 下載地址
        '''
        self.video_name = name
        self.path = path
        self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
        with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
            f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)

    def get_ts_urls(self):
        with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
            lines = file.readlines()
            for line in lines:
                if '.ts' in line:
                    self.urls.append(self.f_url + line.replace('\n', ''))

    def start_download(self):
        self.get_ts_urls()
        for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
            movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
            with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
                f.write(movie.content)
        os.remove(self.path + '/{}.m3u8'.format(self.video_name))

url1 = input("輸入地址: ")
m3u8_url(url1).get_m3u8()

效果：

哦豁~ 起飛~~

番劇劇集

獲取視訊的資訊

既然要從番劇入手，那肯定就還是拿一個例子來說明吧：

租借女友（又是~~lsp~~的呢~~）

針對這部番劇，我們直接從單個視訊解析方式來獲取經驗 -----> 直接從網頁原始碼開始：

果然也在原始碼中找到了與單個視訊類似的JSON資料，我們繼續將這些資料進行格式化：

結果視訊的存放方式和存放的欄位和單個視訊一摸一樣，為了減少最後的程式碼量，我們可以將兩種方式都適配到一個類中：

class m3u8_url():
    def __init__(self, f_url, name=""):
    	'''
        :param f_url: 當前視訊的連結
        :param name:  番劇名，預設為空
        '''
        self.url = f_url
        self.name = name

    def get_m3u8(self):
        global flag, qua, rel_path
        html = requests.get(self.url,  headers=headers).text
        first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
        if self.name == '':
            name = first_json['title'].strip().replace("|",'')
        else:
            name = self.name
            rel_path = path + first_json['bangumiTitle'].strip()
            if os.path.exists(rel_path):
                pass
            else:
                os.makedirs(rel_path)
        video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
        Label = {}
        num = 0
        for quality in video_info:  # 清晰度
            num += 1
            Label[num] = quality['qualityLabel']
        if flag:
            print(Label)
            choice = int(input("請選擇清晰度: "))
            flag = False
            qua = choice
            Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()
        else:
            Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()

程式碼註解：

flag：用於判斷是否已經選擇了下載時的清晰度。

qua: 儲存選擇的清晰度。

rel_path：更改番劇下載的位置（番劇名的資料夾下）。

first_json = json.loads(re.findall(‘window.pageInfo = window.? = (.?)};’, html)[0] + ‘}’, strict=False) ：更改視訊資訊的匹配正則表示式，可以同時用來匹配單個視訊和番劇視訊。

知道了某一集怎麼下載，總不可能要每一集都要去手動輸入連結吧！！！遇到只有幾集的番劇還好，要是遇到這樣的：

你來？？？

番劇劇集連結

同樣的，我們還是從網頁原始碼出發：

雖然我們能在原始碼中找到番劇的所有資訊，但是，並不是所有的都是我們需要的，我們還要先去看看哪些資訊是我們必須要拿到的：
當我點選第二集時，瀏覽器位址列的地址發生了變化：

https://www.acfun.cn/bangumi/aa6002917_36188_1740687

我們很容易的就可以發現：

https://www.acfun.cn/bangumi/aa6002917：番劇的主頁連結。

36188：一串不知道有什麼用的數字，不過我發現它並沒有什麼用，都是固定的：

舉幾個例子：
租借女友：第2話前女友和女友：https://www.acfun.cn/bangumi/aa6002917_36188_1740687
租借女友：第3話海和女友：https://www.acfun.cn/bangumi/aa6002917_36188_1741409
鎮魂街：第2話：https://www.acfun.cn/bangumi/aa5020166_36188_232386
…
同樣的點回第一集時也可以看到第一集的連結也可以寫成：
鎮魂街：第1話：https://www.acfun.cn/bangumi/aa5020166_36188_232383
租借女友：第1話租借女友：https://www.acfun.cn/bangumi/aa6002917_36188_1739760
…

1740687：每一集的ID，在原始碼中以itemId欄位儲存。

於是，我們就可以寫出獲取每一集視訊連結的程式碼：

class Pan_drama():
    def __init__(self, f_url):
        '''
        :param f_url: 視訊主頁的連結
        '''
        self.aa = len(str(f_url).split('/')[-1])
        if self.aa == 7:
            self.url = f_url
        elif self.aa > 7:
            self.url = str(f_url).split('_')[0]

    def get_info(self):
        video_info = {}
        html = requests.get(self.url, headers=headers).text
        all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
        for item in tqdm(all_item, desc="正在準備番劇"):
            video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
        for name in video_info.keys():
            m3u8_url(video_info[name],name).get_m3u8()

程式碼註解：

self.aa：為了更好的適應性，簡單的解決一下，傳入某一集的連結，但是可以下載全番劇的情況。

原始碼及效果

全部原始碼：

import os
import re
import json
import requests
from tqdm import tqdm

path = './'

headers = {
    'referer': 'https://www.acfun.cn/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}

flag = True
qua = 0


class m3u8_url():
    def __init__(self, f_url, name=""):
        '''
        :param f_url: 當前視訊的連結
        :param name:  番劇名，預設為空
        '''
        self.url = f_url
        self.name = name

    def get_m3u8(self):
        global flag, qua, rel_path
        html = requests.get(self.url, headers=headers).text
        first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
        if self.name == '':
            name = first_json['title'].strip().replace("|", '')
            rel_path=path
        else:
            name = self.name
            rel_path = path + first_json['bangumiTitle'].strip()
            if os.path.exists(rel_path):
                pass
            else:
                os.makedirs(rel_path)
        video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0][
            'representation']
        Label = {}
        num = 0
        for quality in video_info:  # 清晰度
            num += 1
            Label[num] = quality['qualityLabel']
        if flag:
            print(Label)
            choice = int(input("請選擇清晰度: "))
            flag = False
            qua = choice
            Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], rel_path).start_download()
        else:
            Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()


class Pan_drama():
    def __init__(self, f_url):
        '''
        :param f_url: 視訊主頁的連結
        '''
        self.aa = len(str(f_url).split('/')[-1])
        if self.aa == 7:
            self.url = f_url
        elif self.aa > 7:
            self.url = str(f_url).split('_')[0]

    def get_info(self):
        video_info = {}
        html = requests.get(self.url, headers=headers).text
        all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
        for item in tqdm(all_item, desc="正在準備番劇"):
            video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
        for name in video_info.keys():
            m3u8_url(video_info[name],name).get_m3u8()


class Download():
    urls = []

    def __init__(self, name, m3u8_url, path):
        '''
        :param name: 視訊名
        :param m3u8_url: 視訊的 m3u8檔案 地址
        :param path: 下載地址
        '''
        self.video_name = name
        self.path = path
        self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
        with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
            f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)

    def get_ts_urls(self):
        with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
            lines = file.readlines()
            for line in lines:
                if '.ts' in line:
                    self.urls.append(self.f_url + line.replace('\n', ''))

    def start_download(self):
        self.get_ts_urls()
        for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
            movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
            with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
                f.write(movie.content)
        os.remove(self.path + '/{}.m3u8'.format(self.video_name))


url1 = input("輸入地址: ")
if url1.split('/')[3] == 'v':
    m3u8_url(url1).get_m3u8()
elif url1.split('/')[3] == 'bangumi':
    Pan_drama(url1).get_info()

效果示例：

Python爬蟲實戰，AcFun彈幕視訊網

日常跳轉：

匯入

Python爬蟲實戰，AcFun彈幕視訊網

Acfun 彈幕視訊網迴應“A 站也崩了”：已修復，不想下一個熱搜看見“A 站是什麼”

python爬蟲實戰，超簡單爬取抖音無水印視訊

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現載B站指定UP主的所有視訊

Python爬蟲爬取Bilibili彈幕過程解析

Python爬蟲實戰， QQ空間自動點贊

Python爬蟲實戰，QQ音樂爬取全部歌曲

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

Python爬蟲實戰，Scrapy實戰，大眾點評爬蟲

Python爬蟲實戰，Scrapy實戰，中國地震臺網資料視覺化

Python爬蟲實戰，Scrapy實戰，抓取並分析天氣資料

Python爬蟲實戰，openpyxl模組學習，爬取房價資訊並簡單的資料分析

Python爬蟲實戰，argparse模組，Github使用者粉絲資料爬蟲

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

Python爬蟲實戰，openpyxl模組，監控比特幣價格走勢

Python爬蟲實戰，nltk模組，實現推特資料視覺化分析

Python爬蟲實戰，DecryptLogin模組，Python模擬登入之生成QQ個人專屬報告

Python爬蟲實戰，argparse模組，Python模擬登入爬取網易雲個人聽歌排行榜

Python爬蟲實戰，requests模組，Python模擬登入實現拉勾網資料解析

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現網易雲音樂自動簽到

Python爬蟲實戰，AcFun彈幕視訊網

日常跳轉：

匯入

相關推薦