1. 程式人生 > 實用技巧 >Python爬取B站健身房人搞偷襲,不講武德的視訊彈幕

Python爬取B站健身房人搞偷襲,不講武德的視訊彈幕

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於CSDN 作者:松鼠愛吃餅乾

( 想要學習Python?Python學習交流群:1039649593,滿足你的需求,資料都已經上傳群檔案流,可以自行下載!還有海量最新2020python學習資料。 )

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

前言
耗子喂汁是什麼意思什麼梗呢?可能很多人不知道,這個梗是出自馬保國,經常上網的人可能聽說過這個名字,而他所說的一些話也被當成了一些梗,比如年輕人不講武德,閃電五連鞭等等

B站馬保國的一段視訊中他右眼紅腫金句頻出,部分經典句式甚至被網友們總結歸納成了“保國體”,變成了口頭禪,比如“年輕人不講武德,欺侮我六十九歲的老同志”“耗子尾汁”(好自為之)等

那麼讓我們來看看網友們大都發了啥彈幕

專案目標

爬取B站彈幕,詞雲圖顯示

第一個視訊播放量快2000W了,彈幕也有4.8W

每天一遍,快樂源泉,嘿嘿嘿

環境

  • Python3.6
  • pycharm

爬蟲程式碼

匯入工具

import requests
import parsel
import csv
import time

先按F12,找到彈幕的資料在哪

從列表頁中獲取詳情頁的URL地址等資料

for page in range(20,32):
    time.sleep(1)
    print('=================正在下載11月{}日彈幕===================================='.format(page))
    url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=140610898&date=2020-11-{}'.format(page)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36
', "cookie": "__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315" } response = requests.get(url=url, headers=headers) response.encoding = response.apparent_encoding selector = parsel.Selector(response.text) data = selector.css('d::text').getall() for i in data: print(i) with open('B站彈幕.csv', mode='a', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) links = [] links.append(i) writer.writerow(links)

詞雲程式碼

import jieba
import wordcloud
import imageio
# 讀取檔案內容
f = open('csv檔案地址', encoding='utf-8')
txt = f.read()
# print(txt)
# jiabe 分詞 分割詞彙
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞雲圖設定
wc = wordcloud.WordCloud(
        width=800,         # 圖片的寬
        height=500,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞雲字型
        # mask=py,     # 所使用的詞雲圖片
        scale=15,
)
# 給詞雲輸入文字
wc.generate(string)
# 詞雲圖儲存圖片地址
wc.to_file('\\1.png')