B站排行榜第一的視訊，看看5W彈幕都在說些什麼？

阿新 • • 發佈：2021-01-12

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542

基本開發環境

Python 3.6
Pycharm

目標網頁分析

就選擇B站排行榜第一的視訊。

如何找到彈幕資料？

如上圖所示：

1、點選進入網頁之後，F12開啟開發者工具，選擇Ntework

2、點選檢視歷史彈幕，選擇日期就有相對應的資料加載出來

3、點選選擇有日期的url地址，彈幕的資料都包含在內了（如下圖所示）

彈幕資料的url地址既然都知道了，那麼就可以直接爬取下來了。

程式碼實現部分

1、請求網頁獲取原始碼資料

import requests
url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=279984604&date=2021-01-10'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36 
'
}
response = requests.get(url=url, headers=headers)
print(response.text)

爬取這些資料是需要加上cookie的，如果沒有加cookie的話會顯示你未登入賬號

所以需要在headers裡面新增cookie

cookie怎麼新增呢？

在開發者工具當中，選擇你所需要爬取的url地址，檢視headers其中的requests headers 中的cookie就是了。

當給了cookie之後又出現問題了

雖然資料是有了，但是出現亂。其實只需要加一行程式碼就可以解決，還是比較萬能的轉碼方式。

response.encoding = response.apparent_encoding

遇到亂碼問題都可以這樣使用，如果使用之後還是出現亂碼問題，就要根據網頁的編碼進行轉碼了。

2、使用正則表示式提取彈幕資料

result = re.findall('p=".*?">(.*?)</d><d ', response.text)
for i in result:
    print(i)

正則表示式提取出來的資料，是列表格式，所以需要遍歷提取出每一條彈幕資料。

3、儲存資料至本地

    with open('彈幕.txt', mode='a', encoding='utf-8') as f:
        f.write(i)
        f.write('\n')

mode='a'：寫入模式為a，追加寫入

encoding='utf-8'：指定寫入編碼，文字內容均為'utf-8'

寫入一個換行符，每寫入一條資料，就重新換一個行寫入

4、批量爬取彈幕資料

之前只是爬取一天的彈幕資料，如果想要爬取一段時間內容的彈幕資料的話，只需要改變url地址中的日期就可以了

for date in range(9, 12):
    url = f'https://api.bilibili.com/x/v2/dm/history?type=1&oid=279984604&date=2021-01-{date}'

就是從9號爬取到11號的資料，這個視訊也剛出來三天。

爬蟲完整程式碼

import requests
import re
for date in range(9, 12):
    url = f'https://api.bilibili.com/x/v2/dm/history?type=1&oid=279984604&date=2021-01-{date}'
    headers = {
        "cookie": "輸入你自己的cookie",
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    response.encoding = response.apparent_encoding
    result = re.findall('p=".*?">(.*?)</d><d ', response.text)
    for i in result:
        with open('彈幕.txt', mode='a', encoding='utf-8') as f:
            f.write(i)
            f.write('\n')
            print(i)

通過程式碼量可以看得出來，B站彈幕的爬取還是比較簡單的，16行就能搞定，說到底還是python程式碼簡潔優雅。

彈幕詞雲程式碼

import jieba
import wordcloud
import imageio
# 匯入imageio庫中的imread函式，並用這個函式讀取本地圖片，作為詞雲形狀圖片
# py = imageio.imread('圖片路徑')  如何你想要改變詞雲圖的形狀，可以新增
# 讀取檔案內容
f = open('彈幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 分詞 分割詞彙
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞雲圖設定
wc = wordcloud.WordCloud(
        width=1000,         # 圖片的寬
        height=700,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞雲字型
        # mask=py,     # 所使用的詞雲圖片
        scale=15,
        # stopwords={''}, # 停用詞
        # contour_width=5,
        # contour_color='red'  # 輪廓顏色
)
# 給詞雲輸入文字
wc.generate(string)
# 詞雲圖儲存圖片地址
wc.to_file('out.png')

實現效果

B站排行榜第一的視訊，看看5W彈幕都在說些什麼？

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取分析B站動漫《柯南》彈幕，從資料中分析接下來的劇情

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

B 站 12 週年：授予獲得“哈哈哈”彈幕最多的 12 名 Up 主社群快樂獎

6 月 26 日訊息今晚 8 點，嗶哩嗶哩直播召開 12 週年演講，CEO 陳睿回顧了 B 站 12 年的故事。他表示，B 站是一個社群，嗶哩嗶哩這家公司相當於這家公司的物業，而 B 站所有的使用者，相當於這個社群的業主。這相當

B站舉辦第一屆紀錄片釋出會，釋出《人生一串》《但是還有書籍》等 21 部新作

11 月 15 日訊息，11 月 13 日，B站舉辦了第一屆紀錄片釋出會。本次釋出會以“記錄即有光”為主題，釋出了 21 部不同型別的紀錄片新作，包括《人生一串》《但是還有書籍》等。B站公佈的資料顯示，截止到今年 9 月，

B站 UP 主因視訊造假向拼多多致歉，涉事賬號被封禁 30 天

11 月 27 日訊息，嗶哩嗶哩在今日釋出關於 UP 主“開箱嚶嚶怪”的處罰公告。公告顯示，經查實，該 UP 主 6 月 10 日釋出的視訊《花 760 元在 PDD 買了臺蘋果 X，開箱後我直接哭了》為不實內容，已第一時間下架了該視

用python把B站舞蹈區視訊爬下來，並打包成可以直接執行的exe檔案

一、寫在前面 1、關於音訊視訊合併因為小破站的音訊和視訊畫面是分開的 (番劇也是一樣的)，正常爬下來是這樣。額，這麼截圖，小姐姐的臉都變形了…本來還是挺好看的一姑娘，算了不管她。

B 站官方收編後，嗶哩嗶哩動畫 Win10 UWP 版首更新：修復播放問題

1月28日訊息從 2016 年開始，《嗶哩嗶哩動畫》Windows 10 UWP 官方客戶端正式上線微軟應用商店，最初由暗影吉他手開發。嗶哩嗶哩彈幕網是國內知名的彈幕視訊分享網站，常被動漫迷們暱稱為 bilibili、"B 站"

B站英文教學視訊的字幕獲取學習必看！

前言最近在B站看一些純英文的課程，視訊課程有的是純中文字幕的，有的是純英文字幕的。由於英文的重要性，一份字幕的文件在我們觀看後，留著日後粗略再讀是很有益處的。但是為了得到這個英文字幕走了許多彎路。最開

“B站崩了”後，這屆年輕人才選擇先睡了

7 月 13 號晚上，一個普通到不能再普通的夜晚，B站帶頭崩了，跟著B站一起崩的還有他的老爹 A 站，友友豆瓣，小弟晉江。網友們突然無所事事了，集體湧入微博。最後，還是微博承受了所有...

B站20w+下載量，涵蓋100+大廠軟體測試面試筆試題，面試就靠它了

前言本文章主要為備戰金九銀十的同仁準備，幫助您更好地應對面試官提問的同時並加強鞏固前面所學知識，其中包括以下幾類內容：中科軟筆試面試，AURALOG筆試面試（外企），GWebs公司筆試面試，北京麒麟網資訊科技有

【免費程式】精仿B站原始碼/Bilibili視訊網站原始碼+自動採集360視訊

本資源可免費獲取，請至尾部讀閱！精仿B站原始碼+自動採集360視訊精仿嗶哩嗶哩還原度高達90%

英雄聯盟 S11 全球總決賽即將開幕，B站將全程直播，並推出獨家二路直播間

9 月 6 日訊息2021 英雄聯盟全球總決賽（以下簡稱“S11”）開賽在即。作為賽事在國內直播平臺的獨家版權方，嗶哩嗶哩（以下簡稱“B站”）將全程直播 S11，並推出獨家二路直播間與一系列獨家節目。

京東 PLUS 會員聯手B站推出聯合會員卡，售價 233 元/年

9 月 6 日訊息今日京東 PLUS 會員宣佈與B站達成深度合作，推出B站聯名卡，實現權益互通。

五菱宣佈與B站跨界合作，首款聯名車型 NanoEV 11 月正式亮相

9 月 29 日訊息今日，五菱汽車官方宣佈，五菱正式成為B站全球首個跨界合作汽車授權品牌，首款聯名車型 NanoEV 11 月正式亮相。▲ 圖自五菱汽車，下同此外，B站綜藝《非正式會談》五菱番外篇將於 10 月推出。五菱還

美國主要科技巨頭多數上漲，B站跌 4.7%，拼多多跌 6.19%

北京時間 11 月 5 日訊息，10 年期美國債收益率持續下降和美聯儲決定縮減購債規模，提振了科技股，標普 500 指數今年以來第 63 次攀上新高。截至收盤，道指跌 33.35 點，跌幅為 0.09%，報收 36124.23 點；標普 500 指

騰訊B站紛紛入局，虛擬人熱火朝天：誰才是真元宇宙入口

進軍“元宇宙”第一步，先造個虛擬人。注意，虛擬數字人已經開始“入侵”我們的生活了！不知道你有沒有發現，我們的生活中出現了不少虛擬數字人的身影。9 月 22 日，小紅書推出了“潮流數字時代”計劃，推廣一批虛擬

B站宣佈彈幕總量破 100 億，2021 年度彈幕為“破防了”

11 月 29 日訊息，今日，B站與中國社會科學院、人民文學出版社聯合釋出 2021 年度彈幕“破防了”。據介紹，今年的B站年度彈幕“破防了”本為遊戲術語，意為使用特殊物理傷害突破了防禦。在網際網路語境中，“破防了

恆生科技指數創歷史新低：阿里、京東、B站跌近 5%，騰訊跌 3%

12 月 6 日訊息，截止今日下午收盤，港股恆生指數跌 1.76%，恆生科技指數跌 3.34%，創歷史新低，網際網路科技股遭到重挫。其中，攜程集團跌 13.205%，阿里巴巴跌 5.611%，網易跌 4.728%，京東跌 4.851%，嗶哩嗶哩跌

美股三大股指收跌，中概股大漲：B站漲超 12%，阿里巴巴漲約 9%，拼多多漲約 10%

北京時間 12 月 31 日訊息，美股尾盤跳水，三大股指收跌。雖然上週初請失業人數低於預期，四周平均初請失業人數創下自 1969 年 10 月以來新低，但這也加大了美聯儲收緊貨幣政策的壓力。截至收盤，道指跌 90.55 點，跌

網傳遊戲公司 2022 年不發版號致騰訊、快手、B 站等港股大跌，張軍闢謠騰訊將被“重錘”

感謝網友雅長的線索投遞！

B站排行榜第一的視訊，看看5W彈幕都在說些什麼？

前言

基本開發環境

相關模組的使用

目標網頁分析

如何找到彈幕資料？

程式碼實現部分

cookie怎麼新增呢？

爬蟲完整程式碼

彈幕詞雲程式碼

實現效果

相關推薦