Python爬蟲實戰,AcFun彈幕視訊網
CSDN個人主頁:高智商白痴
原文地址:https://blog.csdn.net/qq_44700693/article/details/109124334?utm_source=app
很多人學習python,不知道從何學起。
很多人學習python,掌握了基本語法過後,不知道在哪裡尋找案例上手。
很多已經做案例的人,卻不知道如何去學習更加高深的知識。
那麼針對這三類人,我給大家提供一個好的學習平臺,免費領取視訊教程,電子書籍,以及課程的原始碼!??¤
QQ群:623406465
日常跳轉:
匯入
前段時間我已經將B站的爬取方法做了一個總結:Python爬蟲:嗶哩嗶哩(bilibili)視訊下載。
這一次,我將繼續分享AcFun視訊網站的解析,其實相對於B站,A站的反爬機制更為簡單:
為了能夠方便的解析與說明,就肯定會拿一個例子來才好的哇:
【仙女UP特輯】AcFun Family Party ——成都站(今天又是
lsp的一天呢~~)
直接在瀏覽器端開啟並抓包該連結發現,在XHR的資料下,第一條(又或者某一次)的請求就載入了視訊的真實請求連結:
在找遍了XHR資料無果後,我決定去看一看網頁原始碼:
當我用m3u8檔案的請求連結在網頁原始碼中搜索後發現,連結就出現在原始碼中:
class m3u8_url():
def __init__(self, f_url):
self.url = f_url
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
name = first_json['title'].strip().replace("|",'')
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
為了後續能夠選擇清晰度,所以我還進行了清晰度的爬取:
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
print(Label)
choice = int(input("請選擇清晰度: "))
到此,我們已經可以拿到視訊的m3u8檔案的地址,那麼現在就來開始解決之前遺留的一個小問題:如何通過m3u8檔案下載視訊?
首先,我們拿到一個m3u8檔案來作為案例:
為了方便,在這裡我手動的寫了一個m3u8檔案來作為例子。
urls=[] # 用於儲存視訊的分段連結
def get_ts_urls():
with open('123.m3u8',"r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
print("https://www.acfun.cn/"+line)
通過以上方法,我們就可以通過m3u8檔案來獲取每一段的視訊連結了,接下來,我們再將下載的功能進行完善:
下載的基本思路還是和我以前的一篇文章的思路一樣:Python爬蟲:用最普通的方法爬取ts檔案併合成為mp4格式
class Download():
urls = [] # 用於儲存視訊的分段連結
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
程式碼註解:
- 1、為了最後得到的只有視訊,所以在視訊下載完後,自動的將當前視訊的m3u8檔案進行了刪除操作。
- 2、
line.replace('\n', '')
的原因:讀取到的m3u8檔案的每一行結尾都含有一個" \n "。
終於,到現在我們已經可以整合程式碼並執行看一看了:
import os
import re
import json
import requests
from tqdm import tqdm
path = './'
headers = {
'referer': 'https://www.acfun.cn/',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}
class m3u8_url():
def __init__(self, f_url):
self.url = f_url
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.videoInfo = (.*?)};', html)[0] + '}', strict=False)
name = first_json['title'].strip().replace("|",'')
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
print(Label)
choice = int(input("請選擇清晰度: "))
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()
class Download():
urls = []
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
url1 = input("輸入地址: ")
m3u8_url(url1).get_m3u8()
效果:
既然要從番劇入手,那肯定就還是拿一個例子來說明吧:
租借女友(又是
lsp的呢~~)
針對這部番劇,我們直接從單個視訊解析方式來獲取經驗 -----> 直接從網頁原始碼開始:
class m3u8_url():
def __init__(self, f_url, name=""):
'''
:param f_url: 當前視訊的連結
:param name: 番劇名,預設為空
'''
self.url = f_url
self.name = name
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
if self.name == '':
name = first_json['title'].strip().replace("|",'')
else:
name = self.name
rel_path = path + first_json['bangumiTitle'].strip()
if os.path.exists(rel_path):
pass
else:
os.makedirs(rel_path)
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
if flag:
print(Label)
choice = int(input("請選擇清晰度: "))
flag = False
qua = choice
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()
else:
Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()
程式碼註解:
- flag:用於判斷是否已經選擇了下載時的清晰度。
- qua: 儲存選擇的清晰度。
- rel_path:更改番劇下載的位置(番劇名的資料夾下)。
- first_json = json.loads(re.findall(‘window.pageInfo = window.? = (.?)};’, html)[0] + ‘}’, strict=False) :更改視訊資訊的匹配正則表示式,可以同時用來匹配單個視訊和番劇視訊。
知道了某一集怎麼下載,總不可能要每一集都要去手動輸入連結吧!!!遇到只有幾集的番劇還好,要是遇到這樣的:
同樣的,我們還是從網頁原始碼出發:
我們很容易的就可以發現:
- https://www.acfun.cn/bangumi/aa6002917:番劇的主頁連結。
- 36188:一串不知道有什麼用的數字,不過我發現它並沒有什麼用,都是固定的:
舉幾個例子:
租借女友 :第2話 前女友和女友:https://www.acfun.cn/bangumi/aa6002917_36188_1740687
租借女友 :第3話 海和女友:https://www.acfun.cn/bangumi/aa6002917_36188_1741409
鎮魂街 :第2話:https://www.acfun.cn/bangumi/aa5020166_36188_232386
…
同樣的點回第一集時也可以看到第一集的連結也可以寫成:
鎮魂街 :第1話:https://www.acfun.cn/bangumi/aa5020166_36188_232383
租借女友 :第1話 租借女友:https://www.acfun.cn/bangumi/aa6002917_36188_1739760
…
- 1740687:每一集的ID,在原始碼中以itemId欄位儲存。
於是,我們就可以寫出獲取每一集視訊連結的程式碼:
class Pan_drama():
def __init__(self, f_url):
'''
:param f_url: 視訊主頁的連結
'''
self.aa = len(str(f_url).split('/')[-1])
if self.aa == 7:
self.url = f_url
elif self.aa > 7:
self.url = str(f_url).split('_')[0]
def get_info(self):
video_info = {}
html = requests.get(self.url, headers=headers).text
all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
for item in tqdm(all_item, desc="正在準備番劇"):
video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
for name in video_info.keys():
m3u8_url(video_info[name],name).get_m3u8()
程式碼註解:
- self.aa:為了更好的適應性,簡單的解決一下,傳入某一集的連結,但是可以下載全番劇的情況。
全部原始碼:
import os
import re
import json
import requests
from tqdm import tqdm
path = './'
headers = {
'referer': 'https://www.acfun.cn/',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}
flag = True
qua = 0
class m3u8_url():
def __init__(self, f_url, name=""):
'''
:param f_url: 當前視訊的連結
:param name: 番劇名,預設為空
'''
self.url = f_url
self.name = name
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
if self.name == '':
name = first_json['title'].strip().replace("|", '')
rel_path=path
else:
name = self.name
rel_path = path + first_json['bangumiTitle'].strip()
if os.path.exists(rel_path):
pass
else:
os.makedirs(rel_path)
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0][
'representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
if flag:
print(Label)
choice = int(input("請選擇清晰度: "))
flag = False
qua = choice
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], rel_path).start_download()
else:
Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()
class Pan_drama():
def __init__(self, f_url):
'''
:param f_url: 視訊主頁的連結
'''
self.aa = len(str(f_url).split('/')[-1])
if self.aa == 7:
self.url = f_url
elif self.aa > 7:
self.url = str(f_url).split('_')[0]
def get_info(self):
video_info = {}
html = requests.get(self.url, headers=headers).text
all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
for item in tqdm(all_item, desc="正在準備番劇"):
video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
for name in video_info.keys():
m3u8_url(video_info[name],name).get_m3u8()
class Download():
urls = []
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
url1 = input("輸入地址: ")
if url1.split('/')[3] == 'v':
m3u8_url(url1).get_m3u8()
elif url1.split('/')[3] == 'bangumi':
Pan_drama(url1).get_info()
效果示例: