爬取b站《守護解放西》彈幕

阿新 • • 發佈：2021-01-11

此文轉載自：https://blog.csdn.net/xtreallydance/article/details/112399856#commentBox

守護解放西，失控與自控

最近在b站追一部名為"守護解放西"的紀錄片，主要是記錄以長沙坡子街派出所為核心的核心商圈城市警察的日常工作，因為這部紀錄片蠻火的，然後那個彈幕也是挺多的，恰好最近自己在學爬蟲，想著能不能把b站這部好看又有價值的紀錄片彈幕爬取下來!

這次爬取的核心過程步驟大致可以列為:

找到彈幕資訊存放的api介面
對介面進行分析，然後將想要獲得的彈幕資訊爬取下來
最終對資訊進行持久化儲存，可以存放為csv形式，也能是txt文字形式

本次爬取所需用到的爬蟲模組主要為:

模組

記住，先要載入那個彈幕列表的資訊，選擇日期，如下圖所示！否則等下找api的時候介面有可能找不到

好！首先讓我們一起來找api介面，首先按下F12或者右鍵檢查元素，然後點選到NetWork，進入到如下所示的介面；

首先按下ctrl + F, 輸入history
找到api介面，如下圖所示

將介面的url複製下來為:

https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-04

複製到瀏覽器網址裡面，發現真的就是我們想要獲取到的彈幕資訊介面!如下圖所示:

以上操作，讓我們找到了彈幕資訊所在網址的api介面，然後我通過分析發現，這個彈幕資訊都儲存在一個標籤<d裡面,如下圖:

下面讓我們開始寫程式碼進行愉快的資料爬取吧!

import requests
from bs4 import BeautifulSoup


# ua偽裝
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66',
    "cookie": "_uuid=A366B5AD-0770-4D1E-F71B-2587760CAC6094820infoc; buvid3=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; sid=joozhe7k; DedeUserID=475936847; DedeUserID__ckMd5=ad02dfc55e996305; SESSDATA=988c9033%2C1613607061%2C29c31*81; bili_jct=974f12a39465683da26ee0da6ac4f5e1; rpdid=|(YuJ~|kJkk0J'ulm)|ll|)l; blackside_state=1; CURRENT_FNVAL=80; LIVE_BUVID=AUTO8615998250958107; fingerprint3=4517ff2ee6999d14f1b6c58b6b8256c3; fingerprint=00c1dd6c5cd06dc20c37736594a5e450; buivd_fp=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; buvid_fp_plain=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; fingerprint_s=7f4554ba1eba2e3390474eb2c577c79d; CURRENT_QUALITY=0; PVID=1; bsource=search_sougo; bfe_id=fdfaf33a01b88dd4692ca80f00c2de7f" 

}

# api 介面
url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-04'

# 發起請求
response = requests.get(url=url, headers=headers)
# 編碼
response.encoding = response.apparent_encoding
# 獲取文字資訊
content = response.text
# 列印文字資訊
# print(content)
# 熬湯,bs4解析的常用說法
soup = BeautifulSoup(content, 'lxml')
# 找到所有的d標籤
d_list = soup.find_all('d')
# 列印p標籤的列表
# print(d_list)
# 彈幕列表承接資訊
dm_list = []
# 變數每個d標籤，獲取d標籤內容
for d in d_list:
    # 將每一條彈幕資訊儲存到dm_list列表中
    dm_list.append(d.string)

# 然後將資訊進行持久化儲存
with open('./解放西彈幕.txt', 'w', encoding='utf-8') as f:
    for dm in dm_list:
        f.write(dm)
        f.write('\n')

爬取的結果儲存到了解放西彈幕.txt文字中,如下圖所示:

上述程式碼僅僅只是將一個api介面爬取了下來，但是彈幕資訊肯定不僅僅存在於一個介面當中，通過對介面進行分析我發現，有一個date引數，不同的date引數api內部的介面不同,date的意思就是日期，意味著不同的日期彈幕資訊不同吧!
下面我們重構程式碼，讓其能夠爬取多個api介面，程式碼如下:

import requests
from bs4 import BeautifulSoup
import pandas


def get_info(date):
    # ua偽裝
    # cookie要填入你自己本人登入b站的cookie，找到後複製貼上上來就行
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66',
        "cookie": "_uuid=A366B5AD-0770-4D1E-F71B-2587760CAC6094820infoc; buvid3=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; sid=joozhe7k; DedeUserID=475936847; DedeUserID__ckMd5=ad02dfc55e996305; SESSDATA=988c9033%2C1613607061%2C29c31*81; bili_jct=974f12a39465683da26ee0da6ac4f5e1; rpdid=|(YuJ~|kJkk0J'ulm)|ll|)l; blackside_state=1; CURRENT_FNVAL=80; LIVE_BUVID=AUTO8615998250958107; fingerprint3=4517ff2ee6999d14f1b6c58b6b8256c3; fingerprint=00c1dd6c5cd06dc20c37736594a5e450; buivd_fp=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; buvid_fp_plain=8F1DB121-7BFB-4923-B5FA-9306898396A3143073infoc; fingerprint_s=7f4554ba1eba2e3390474eb2c577c79d; CURRENT_QUALITY=0; PVID=1; bsource=search_sougo; bfe_id=fdfaf33a01b88dd4692ca80f00c2de7f"
    }
    # api 介面
    url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date={}'.format(date)
    print(url)
    # 發起請求
    response = requests.get(url=url, headers=headers)
    # 編碼
    response.encoding = response.apparent_encoding
    # 獲取文字資訊
    content = response.text
    # 列印文字資訊
    # print(content)
    # 熬湯,bs4解析的常用說法
    soup = BeautifulSoup(content, 'lxml')
    # 找到所有的d標籤
    d_list = soup.find_all('d')
    # 列印p標籤的列表
    # print(d_list)
    # 彈幕列表承接資訊
    dm_list = []
    # 變數每個d標籤，獲取d標籤內容
    for d in d_list:
        # 將每一條彈幕資訊儲存到dm_list列表中
        dm_list.append(d.string)

    # 然後將資訊進行持久化儲存
    with open('./解放西彈幕_all.txt', 'a', encoding='utf-8') as f:
        for dm in dm_list:
            f.write(dm)
            f.write('\n')


if __name__ == '__main__':
    date_start = input('輸入你想要的開始的時間，格式為: 2021-01-04: ')
    date_end = input('輸入你想要結束的時間, 格式為: 2021-01-07: ')
    # 調一下如期格式如: 2021-01-04 
    date_list = pandas.date_range(start=date_start, end=date_end).strftime("%Y-%m-%d")
    for date in date_list:
        get_info(date)

'''
結果如下: 
輸入你想要的開始的時間，格式為: 2021-01-04: 2021-01-04
輸入你想要結束的時間, 格式為: 2021-01-07: 2021-01-08
https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-04
https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-05
https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-06
https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-07
https://api.bilibili.com/x/v2/dm/history?type=1&oid=260418892&date=2021-01-08

Process finished with exit code 0
'''

震驚! 總共才設定了才4天

竟然有足足30000萬條彈幕!

以上則是對"守護解放西"這部紀錄片彈幕爬取的全部流程，如果喜歡的話，不妨動動小手，點個贊在走唄!
在這個星球上，你很重要，請珍惜你的珍貴! ~~~夜鬥小神社

爬取b站《守護解放西》彈幕

此文轉載自：https://blog.csdn.net/xtreallydance/article/details/112399856#commentBox 守護解放西，失控與自控

爬取B站彈幕並且製作詞雲

目錄爬取彈幕 1. 從手機埠進入網頁爬取找到介面 2.程式碼製作詞雲 1.檔案讀取 2.程式碼

詞雲圖是怎麼做出來的？Python爬取B站視訊彈幕，並做成詞雲圖

前言今天介紹一個獲取B站資料的Python擴充套件庫-bilibili_api 可以獲取的資料包括：

爬取B站18000條《黑神話：悟空》實機演示彈幕，做成詞雲

前言從不畏懼死亡，只是不忍世道淪喪。哪怕前途多屍骨，身後無退路—— 這個世界，總有勇敢的生命，再次踏上取經之途。由遊戲科學開發的西遊題材單機·動作·角色扮演遊戲《黑神話：悟空》

Python爬取B站健身房人搞偷襲，不講武德的視訊彈幕

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬取B站十週年特輯視訊彈幕資料，並繪製生成詞雲。（附原始碼）

前言今天用“Running Man”十週年特輯的視訊，來做個獲取彈幕的案例分享給大家，直接開整~

爬蟲入門----爬取B站視訊的彈幕和評論

彈幕部分本部分有兩個方法介紹直接在視訊頁載入的檔案中爬取首先開啟《ELOG》S11世界賽特別篇：歡迎回家，然後F12開啟資源管理器，在網路->Fetch/XHR中尋找檔案（不要問我為什麼，因為一般情況下資料檔案可能

Python如何實現爬取B站視訊

5月3日晚，央視在《新聞聯播》前播放了B站青年宣言片《後浪》，這是B站首次登陸央視黃金時段，今天在朋友圈陸續看到相關的視訊。最早用B站的同學都知道，B站是和A站以異曲同工的鬼畜視訊及動漫，進入到大眾視野的非主

Python如何爬取b站熱門視訊並匯入Excel

程式碼如下 #encoding:utf-8 import requests from lxml import etree import xlwt import os # 爬取b站熱門視訊資訊

我發現這個up封面確實有點東西，爬取B站視訊的封面圖片

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python 爬取B站原視訊的例項程式碼

B站原視訊爬取，我就不多說直接上程式碼。直接執行就好。 B站是把視訊和音訊分開。要把2個合併起來使用。這個需要分析才能看出來。然後就是登陸這塊是比較難的。

Python 爬取b站專欄圖片

當olinr學會了爬蟲。。。嘿嘿嘿 import urllib.request as urqt import urllib.parse as urps import sys

實現一鍵下載，批量快速爬取B站視訊

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬取B站動漫番劇更新資訊，附程式碼和講解過程

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python 爬取B站原視訊的實站程式碼

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬取B站UP主的所有視訊連結及詳細資訊

標題：Python 爬取B站UP主的所有視訊連結及詳細資訊原文連結：https://blog.xieqiaokang.com/posts/36033.html

爬蟲實戰 - 如何爬取B站視訊評論？

步驟（本次爬蟲僅以一個視訊為示例：連結）查詢評論請求api 解析URL 去掉第一個和最後一個引數可得評論URL，即：https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&a

Python爬取b站視訊

import requests import re import random class BLBL(object): def __init__(self, url, cookie, referer): # 需要爬取的網頁字首例如:https://www.bilibili.com/video/av49035382?from=search&seid=105819

Python爬取B站視訊，只需一個B站視訊地址，即可任意下載

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取B站視訊、番劇、電影進行下載

技術標籤：python人工智慧pythonlinux程式語言phpstorm 功能輸入B站視訊播放地址，開始下載支援斷點續傳,顯示當前下載進度和速度未登入狀態下，只能下載480p，登入後預設解析度為1080p，使用者可設定 Cookie支援

爬取b站《守護解放西》彈幕

相關推薦