B站自動爬取器並製作詞雲

阿新 • • 發佈：2020-12-05

效果

詞雲展示

彈幕展示

1.爬取彈幕過程

基本步驟
1.尋找視訊url
2.構造請求頭
3.尋找彈幕地址
4.根據彈幕地址運用正則或xpath爬取

1.尋找B站視訊的url

2.製作請求頭

  headers = {"User-Agent": "瀏覽器中的User-Agent"}

3.彈幕地址

1.程式碼通過這位博主改進的（https://www.cnblogs.com/wuren-best/p/12566297.html）
2.由於B站彈幕地址改變變得越來越難尋找到但通過原來的彈幕地址改變下oid還是可以爬取到的

4.運用xpath爬取彈幕

彈幕包含在xml中的中，運用xpath取出即可

html = etree.HTML(response.content)

word_list = html.xpath("//d/text()")

2.詞雲製作

  fp = open("%s彈幕.text" % self.get_tile(), 'r', encoding='utf-8')
    text = fp.read()
    # 字型為.TTF格式的
    wd = WordCloud(background_color='white', width=300, height=316, margin=2,
                   font_path='鍾齊段寧行書.TTF').generate(text)
    plt.figure(dpi=500)
    # 顯示詞雲
    plt.imshow(wd)
    # 去除x，y 軸
    plt.axis('off')
    plt.show()
    # 儲存詞雲
    wd.to_file("%s彈幕.jpg" % self.get_tile())

3.完整程式碼

  # coding=utf-8

import requests
from lxml import etree
import re
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt

class BiliSpider:
def init(self, BV, oid):
# 構造要爬取的視訊url地址
self.BVurlBV = BV
self.BVurloid = oid
self.BVurl = "https://m.bilibili.com/video/

" + BV
self.headers = {
"User-Agent": "Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Mobile Safari/537.36"}

# 彈幕都是在一個url請求中，該url請求在視訊url的js指令碼中構造
def getXml_url(self):
    # 獲取該視訊網頁的內容
    response = requests.get(self.BVurl, headers=self.headers)
    html_str = response.content.decode()
    
    # 使用正則找出該彈幕地址
    # 彈幕地址為https://comment.bilibili.com/oid.xml
    # 格式為：https://comment.bilibili.com/168087953.xml
    # 我們分隔出的是地址中的彈幕檔名，即 168087953
    
    getWord_url = self.BVurloid
    
    # 組裝成要請求的xml地址
    xml_url = "https://comment.bilibili.com/{}.xml".format(getWord_url)
    return xml_url

# Xpath不能解析指明編碼格式的字串，所以此處我們不解碼，還是二進位制文字
def parse_url(self, url):
    response = requests.get(url, headers=self.headers)
    # print(response.content)
    return response.content

# 彈幕包含在xml中的<d></d>中，取出即可
def get_word_list(self, str):
    html = etree.HTML(str)
    word_list = html.xpath("//d/text()")
    return word_list

# 標題及up主名
def get_tile(self):
    response = requests.get(self.BVurl, headers=self.headers)
    # print(response.text)
    html_str = response.content.decode()
    html = etree.HTML(html_str)
    
    up_name = html.xpath('//span/text()')[1]
    up_tile = html.xpath('//h1/text()')[0]
    tile = []
    for i in up_name, up_tile:
        tile.append(i)
    # print(up_name)
    # print(up_tile)
    # print(tile)
    return tile[0]+tile[1]

# BV1ZV411a7vy 261482616
# 儲存彈幕為文字格式
def save_file(self, data):
    """
    儲存彈幕
    :param data: 彈幕資訊
    :return:
    """
    with open("%s彈幕.text" % self.get_tile(), 'w', encoding='utf8') as f:
        for line in data:
            f.write(line)
            f.write('\n')

# 詞雲
def wardcloud_(self):
    fp = open("%s彈幕.text" % self.get_tile(), 'r', encoding='utf-8')
    text = fp.read()
    wd = WordCloud(background_color='white', width=300, height=316, margin=2,
                   font_path='鍾齊段寧行書.TTF').generate(text)
    plt.figure(dpi=500)
    # 顯示詞雲
    plt.imshow(wd)
    # 去除x，y 軸
    plt.axis('off')
    plt.show()
    # 儲存詞雲
    wd.to_file("%s彈幕.jpg" % self.get_tile())

def run(self):

    # 1.根據BV號獲取彈幕的地址
    start_url = self.getXml_url()
    # 2.請求並解析資料
    xml_str = self.parse_url(start_url)
    # print(start_url)
    word_list = self.get_word_list(xml_str)
    # 3.列印
    for word in word_list:
        print(word)
    # 4.儲存
    self.save_file(word_list)
    # 5.詞雲
    self.wardcloud_()
if __name__ == '__main__':
BVName = input("請輸入要爬取的視訊的BV號:")
oid = input("請輸入要爬取的視訊的oid（F12中找oid）號:")
spider = BiliSpider(BVName, oid)
spider.run()

注：BV號和oid

B站自動爬取器並製作詞雲

效果詞雲展示彈幕展示 1.爬取彈幕過程基本步驟 1.尋找視訊url 2.構造請求頭 3.尋找彈幕地址

爬取B站彈幕並且製作詞雲

目錄爬取彈幕 1. 從手機埠進入網頁爬取找到介面 2.程式碼製作詞雲 1.檔案讀取 2.程式碼

詞雲圖是怎麼做出來的？Python爬取B站視訊彈幕，並做成詞雲圖

前言今天介紹一個獲取B站資料的Python擴充套件庫-bilibili_api 可以獲取的資料包括：

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

基於Python實現ComicReaper漫畫自動爬取指令碼過程解析

這篇文章主要介紹了基於Python實現ComicReaper漫畫自動爬取指令碼過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

selenium自動爬取網易易盾的驗證碼

我們在爬蟲過程中難免會遇到一些攔路虎，比如各種各樣的驗證碼，時不時蹦出來，這時候我們需要去識別它來繼續我們的工作，接下來我將爬取網一些滑動驗證碼，然後通過百度的EasyDL平臺進行資料標註，建立模型，訓練模

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

python爬取資料並可視化展現

#將excel中的資料進行讀取分析 import openpyxl import matplotlib.pyplot as pit #資料統計用的

通過Python的requests庫爬取資料並儲存為csv檔案

目錄一、選擇資料來源三、整體程式碼實現 4、總結同時推薦前面作者另外兩個系列文章：

python 爬取小說並下載的示例

程式碼 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup \"\"\" Author: Jack Cui

爬蟲實戰：批量爬取京東內衣圖片（自動爬取多頁，非一頁）

技術標籤：爬蟲爬蟲python 做下男生想做的事，爬取大量妹子內衣圖。作者：電氣-餘登武

自動爬取網上免費代理實戰：檢測模組篇

1.說明當我們從網上爬取代理下來時，比如：proxy = \'185.78.228.24:8000\'，如何檢測它是否有效呢？

自動爬取網上免費代理實戰：爬取模組篇

1. 爬取模組說明爬取模組篇，主要從網上找到一些免費代理網站，網站內僅開放的一點免費代理抓取下來，爬取下來能用的代理可謂稀少，假設從一個代理網站首頁爬取20個免費代理，經過測試後剩下1、2個可用，因為免費的

自動爬取網上免費代理實戰：儲存模組篇

目錄1.儲存模組說明2.實現思路2.1 程式碼實現：主模組3.總結 1.儲存模組說明當我們從網上爬取下來代理時，負責儲存工作就主要由儲存模組來完成。

英雄聯盟 S11 全球總決賽即將開幕，B站將全程直播，並推出獨家二路直播間

9 月 6 日訊息2021 英雄聯盟全球總決賽（以下簡稱“S11”）開賽在即。作為賽事在國內直播平臺的獨家版權方，嗶哩嗶哩（以下簡稱“B站”）將全程直播 S11，並推出獨家二路直播間與一系列獨家節目。

python | P站桌布爬取

你懂的？壞笑(*^▽^*) 今天我們要爬取的是動漫桌布圖片，來看今天的主角：在瀏覽的時候，當滑到底部時，桌布會重新整理載入，所以我們可以知道，桌布是動態載入的。

Python爬取資料並儲存到csv檔案中

1、資料來源 2、Python程式碼 import requests from lxml import etree import csv url = \'http://211.103.175.222:5080/zentaopms/www/index.php?m=project&f=task&projectID=830\'

Python爬取資料並輸出到資料庫

程式碼如下： 1 import pymysql 2 import requests 3 import json 4 import time 5 6 7 def daorumysql(items):

雙 11 會員狂歡：B站/愛優騰/QQ 音樂/網易雲音樂等大促

雙 11 會員狂歡：B站/愛優騰/QQ 音樂/網易雲音樂等大促。活動時間：11 月 10 日 - 11 月 11 日▼限時限量搶購中午 12 點，進入直播間（詳情頁有直達連結）可領 10 元京東補貼券京東嗶哩嗶哩大會員年卡 12 個月領 10

B站自動爬取器並製作詞雲

效果

詞雲展示

彈幕展示

1.爬取彈幕過程

1.尋找B站視訊的url

2.製作請求頭

3.彈幕地址

4.運用xpath爬取彈幕

2.詞雲製作

3.完整程式碼

相關推薦