爬取bilibili彈幕製作詞雲

阿新 • • 發佈：2019-01-30

最近有部劇的片花看的很燃，正好我又是主演的fans，於是手癢忍不住把該片的彈幕爬取下來做個詞雲玩一玩。

看到裡面得“cid=16496518&aid=9979006&pre_ad=0”了麼，其中的cid那就是我們要找的彈幕入口，開啟http://comment.bilibili.com/16496518.xml ，就可以看到我們的彈幕檔案了
這裡寫圖片描述

然後就很簡單啦，用request或者urllib都可以請求下來，當然還有更直接的就是右鍵–>頁面另存為。

step 2 清洗文字，分詞和統計詞頻
上一步我們得到了XML格式的檔案，但是呢我們只要裡面的文字就好了，其他亂七八糟的標籤就可以去掉了，於是使用正則表示式來處理。

import re
f = open("C:\\Users\\Administrator\\Desktop\\chuqiao.txt", "r")  
f2 = open("C:\\Users\\Administrator\\Desktop\\chuqiao2.txt", "w")
count = 0
dr = re.compile(r'<[^>]+>',re.S)
while 1:
    line = f.readline()
    if not line:
        break
    pass
    dd = dr.sub('',line)
    count=count+1 

    f2.writelines(dd)
print count

好的，現在我們得到了乾淨的文字，接下來就是分詞了，使用jieba進行分詞：

def jieba_cut(sentence):          
    seg = jieba.cut(sentence)
    segList = []
    for i in seg:
        segList.append((i)) 
    return segList

再然後，使用nltk對分好的詞進行詞頻統計，當然，自己也能寫一個程式碼統計，博主懶，就直接拿來主義了，一行程式碼搞定：

frequency = nltk.FreqDist(sentence)

step 3 製作詞雲
這一步呢，咱們使用的包是wordcloud，在使用這個包之前，請先下載好一箇中文字型，博主隨手使用的字型是DroidSansFallbackFull.ttf，然後呢，搞個自己的定製邊緣，使用的背景圖是自己二次加工的片方圖，ps能力有限，看看就好：
這裡寫圖片描述

不放程式碼的博主不是好博主：

font = os.path.join(dir, "DroidSansFallbackFull.ttf")
# 設定背景圖片
chuqiao_coloring = imread(os.path.join(os.path.dirname(__file__), "chuqiao.png"))
# 從背景圖片生成顏色值
image_colors = ImageColorGenerator(chuqiao_coloring)
wordCloud = WordCloud(background_color="white",mask = chuqiao_coloring,font_path=font).generate_from_frequencies(frequency)
plt.imshow(wordCloud.recolor(color_func=image_colors))
# plt.axis("off")
wordCloud.to_file(os.path.join(dir, "chuqiaoDanMU.png"))

接下來，激動人心得時候到了，我家楚大人的詞雲躍然屏上：
這裡寫圖片描述

最後，請秀麗王帶我回家，謝謝，轉載請告之。

爬取bilibili彈幕製作詞雲

爬取bilibili彈幕製作詞雲

爬取嗶哩嗶哩彈幕製作詞雲

10分鐘教你用Python玩轉微信之抓取好友個性簽名製作詞雲

Python爬取《三國演義》並且製作詞雲

bilibili彈幕爬取與比對分析

詳解使用Python爬取豆瓣短評並繪製詞雲

用Python爬取微博資料生成詞雲圖片

分散式爬蟲——爬取bilibili視訊資訊資源

python爬取資料熱點詞生成詞雲

python3 requests簡單爬蟲以及分詞並製作詞雲

Python爬取微博資料生成詞雲圖片

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

爬取第二彈

Python爬取動態說說，生成詞雲，看看朋友的現狀

Python爬取Python教程並製作成pdf

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

MOJITO 釋出一週，爬一波彈幕分析下

Python爬取B站彈幕的思路和流程

鬥魚彈幕資料爬取

爬取bilibili彈幕製作詞雲

相關推薦