使用python統計《三國演義》小說里人物出現次數前十名，並實現視覺化。

阿新 • • 發佈：2020-11-24

一、安裝所需要的第三方庫

jieba （jieba是優秀的中文分詞第三分庫）
pyecharts （一個優秀的資料視覺化庫）

《三國演義》.txt下載地址（提取碼：kist ）

使用pycharm安裝庫

開啟Pycharm選擇【File】下的Settings
出現下面頁面,
選擇右邊的【+】出現下面頁面，在此頁面頂端搜尋想要的庫，然後安裝就可以了

二、編寫程式碼

import jieba  #匯入庫
import os
print("人物出現次數前十名：")
txt = open('三國演義.txt', 'r' ,encoding='gb18030').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"  # 把相同意思的名字歸為一個人
    else:
        rword = word
    counts[rword] = counts.get(rword, 0) + 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(10):
   word, count=items[i]
   print("{}:{}".format(word, count))  # 列印前十名名單

結果如下圖：
可以看到這裡面有很多不是人物的名字，所以咱們要把這些刪掉。更改程式碼如下

import jieba  #匯入庫
import os
print("人物出現次數前十名：")
txt = open('三國演義.txt', 'r' ,encoding='gb18030').read()
remove = {"將軍", "卻說", "不能", "後主", "上馬", "不知", "天子", "大叫", "眾將", "不可",
            "主公", "蜀兵", "只見", "如何", "商議", "都督", "一人", "漢中", "人馬",
            "陛下", "魏兵", "天下", "今日", "左右", "東吳", "於是", "荊州", "不能", "如此",
            "大喜", "引兵", "次日", "軍士", "軍馬","二人","不敢"}  # 這些文字是要排出掉的，多次執行程式所得到的
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"  # 把相同意思的名字歸為一個人
    else:
        rword = word
    counts[rword] = counts.get(rword, 0) + 1
for word in remove:
    del counts[word]  #匹配文字相等就刪除

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(10):
   word, count=items[i]
   print("{}:{}".format(word, count))  # 列印前十名名單

執行結果如下圖

可以看到現在都是人物名稱了

匯出資料，程式碼如下

import jieba  #匯入庫
import os
print("人物出現次數前十名：")
txt = open('三國演義.txt', 'r' ,encoding='gb18030').read()
remove = {"將軍", "卻說", "不能", "後主", "上馬", "不知", "天子", "大叫", "眾將", "不可",
            "主公", "蜀兵", "只見", "如何", "商議", "都督", "一人", "漢中", "人馬",
            "陛下", "魏兵", "天下", "今日", "左右", "東吳", "於是", "荊州", "不能", "如此",
            "大喜", "引兵", "次日", "軍士", "軍馬","二人","不敢"}  # 這些文字是要排出掉的，多次執行程式所得到的
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"  # 把相同意思的名字歸為一個人
    else:
        rword = word
    counts[rword] = counts.get(rword, 0) + 1
for word in remove:
    del counts[word]  #匹配文字相等就刪除

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

#匯出資料

fo = open("三國人物出場次數.txt", "a", encoding='utf-8') 
for i in range(10):
   word, count=items[i]
   word = str(word)
   count = str(count)
   fo.write(word)
   fo.write(':') #使用冒號分開
   fo.write(count)
   fo.write('\n') #換行 
fo.close() #關閉檔案

現在咱們執行看是否匯出，執行結果如下圖。

可以看到已經生成一個名為三國人物出場次數.txt的檔案，而檔案裡的內容就是咱們剛才的資料。

三、資料視覺化

想要視覺化首先咱們要有資料，咱們把剛才匯出的資料轉換為字典形式。程式碼如下

#將txt文本里的資料轉換為字典形式
fr = open('三國人物出場次數.txt', 'r', encoding='utf-8')
dic = {}
keys = [] # 用來儲存讀取的順序
for line in fr:
  v = line.strip().split(':')
  dic[v[0]] = v[1]
  keys.append(v[0])
fr.close()
print(dic)

-執行結果如下

使用pyecharts繪圖
先倒入模組

from pyecharts import options as opts
from pyecharts.charts import Bar

程式碼如下

#　繪圖
list1=list(dic.keys())
list2=list(dic.values())  #提取字典裡的資料作為繪圖資料
c = (
    Bar()
    .add_xaxis(list1)
    .add_yaxis("人物出場次數",list2)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
    )
    .render("人物出場次數視覺化圖.html")
)

執行程式看到目錄下會生成一個名為人物出場次數視覺化圖.html的檔案，如下圖
使用瀏覽器開啟，就可以看到資料以圖形的方式呈現出來。

三、全部程式碼呈現

#《三國演義》的人物出場次數Python程式碼：


import jieba  #匯入庫
import os
from pyecharts import options as opts
from pyecharts.charts import Bar

print("人物出現次數前十名：")
txt = open('三國演義.txt', 'r' ,encoding='gb18030').read()
remove = {"將軍", "卻說", "不能", "後主", "上馬", "不知", "天子", "大叫", "眾將", "不可",
            "主公", "蜀兵", "只見", "如何", "商議", "都督", "一人", "漢中", "人馬",
            "陛下", "魏兵", "天下", "今日", "左右", "東吳", "於是", "荊州", "不能", "如此",
            "大喜", "引兵", "次日", "軍士", "軍馬","二人","不敢"}  # 這些文字是要排出掉的，多次執行程式所得到的
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"  # 把相同意思的名字歸為一個人
    else:
        rword = word
    counts[rword] = counts.get(rword, 0) + 1
for word in remove:
    del counts[word]  #匹配文字相等就刪除

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

#匯出資料

fo = open("三國人物出場次數.txt", "a", encoding='utf-8')
for i in range(10):
   word, count=items[i]
   word = str(word)
   count = str(count)
   fo.write(word)
   fo.write(':') #使用冒號分開
   fo.write(count)
   fo.write('\n') #換行
fo.close() #關閉檔案

#將txt文本里的資料轉換為字典形式
fr = open('三國人物出場次數.txt', 'r',encoding='utf-8' )
dic = {}
keys = [] # 用來儲存讀取的順序
for line in fr:
  v = line.strip().split(':')
  dic[v[0]] = v[1]
  keys.append(v[0])
fr.close()
print(dic)


#　繪圖
list1=list(dic.keys())
list2=list(dic.values())  #提取字典裡的資料作為繪圖資料
c = (
    Bar()
    .add_xaxis(list1)
    .add_yaxis("人物出場次數",list2)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
    )
    .render("人物出場次數視覺化圖.html")
)

使用python統計《三國演義》小說里人物出現次數前十名，並實現視覺化。

一、安裝所需要的第三方庫 jieba （jieba是優秀的中文分詞第三分庫） pyecharts （一個優秀的資料視覺化庫）

統計《三國演義》中人物出場次數。

1 #三國演義人物出場次數統計 2 import jieba 3 excludes = {\"將軍\",\"卻說\",\"荊州\",\"二人\",\"不可\",\"不能\",\"如此\",\"商議\",\"軍士\",\"如何\",\"主公\",\"軍馬\",\"左右\",}

Python爬取10000條“爆款劇”——《三十而已》熱評，並做視覺化

前言繼《隱祕的角落》後，又一部“爆款劇”——《三十而已》獲得了口碑收視雙豐收，王漫妮、顧佳、鍾曉芹三個女主角的故事線頻頻登上微博熱搜。該劇於2020年7月17日在東方衛視首播，並在騰訊視

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

手把手教你用Python爬取某網小說資料，並進行視覺化分析

網路文學是以網際網路為展示平臺和傳播媒介，藉助相關網際網路手段來表現文學作品及含有一部分文字作品的網路技術產品，在當前成為一種新興的文學現象，並快速興起，各種網路小說也是層出不窮，今天我們使用seleniu

詳解python實現視覺化的MD5、sha256雜湊加密小工具

本文主要介紹了詳解python實現視覺化的MD5、sha256雜湊加密小工具，分享給大家，具體如下：

給你一個整數陣列 arr，請你幫忙統計陣列中每個數的出現次數

題目：　 /* 給你一個整數陣列arr，請你幫忙統計陣列中每個數的出現次數。 *

統計句子中各種字元的出現次數

技術標籤：C++c++ 輸入一個句子（以句號結束），統計改句子中的母音字母數、子音字母數、空格數、數字數及其他字元數

統計檔案裡出現次數前10的單詞

技術標籤：# 演算法題統計” The_Holy_Bible_Res.txt “ 中字元的個數，行數，單詞的個數，統計單詞的詞頻並列印輸出詞頻最高的前 10 個單詞及其詞頻

java控制檯實現視覺化日曆小程式

本文例項為大家分享了java視覺化日曆小程式的具體程式碼，供大家參考，具體內容如下

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

基於python實現視覺化生成二維碼工具

環境 pip install gooey pip install MyQR 原始碼 from gooey import GooeyParser,Gooey from MyQR import myqr

Python爬取豆瓣電影、演員評分，平做出視覺化圖（律師函警告）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python實現視覺化動態公交線路圖

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬取股票資訊，並可視化資料的示例

前言截止2019年年底我國股票投資者數量為15975.24萬戶,如此多的股民熱衷於炒股,首先拋開炒股技術不說,那麼多股票資料是不是非常難找,找到之後是不是看著密密麻麻的資料是不是頭都大了?

使用docker部署redis與python，並實現容器聯通

目標是使用docker分別部署python與redis，並聯通安裝docker 略建立網路 $ docker network create -d bridge net-test

統計共有多少個整數，並輸出這些整數。

5、小作業：輸入一個字串，例如：a123x456__17960?302ab5876將其中連續的數字作為一個整數，依次存放到一個數組中a中，例如：123放在a[0]中，456放在a[1]中。統計共有多少個整數，並輸出這些整數。

python：在指定範圍內按學號隨機生成座位順序，並分行輸出

技術標籤：pythonpythonrandom 我是一名大一新生，也是python小白。專業課讓我接觸到了python，一下就迷住了。對於各種庫，各種函式都賊感興趣。

微信小程式封裝公用的Http請求方法，並解析Promise物件

技術標籤：前端技術開發筆記小程式jshttp 微信小程式封裝公用的http請求方法微信小程式目錄結構封裝Http請求方法解決Http請求方法非同步問題解析 Promise 物件

Python操作excel：用xlwt設定excel單元格背景顏色，給字型加粗。【附】顏色表

一、程式碼設定【第一種方法】--》使用easyxf()方法 xlwt.easyxf() 設定樣式； pattern 指的就是背景：ice_blue 就是我設定的顏色；

使用python統計《三國演義》小說里人物出現次數前十名，並實現視覺化。

一、安裝所需要的第三方庫

使用pycharm安裝庫

二、編寫程式碼

三、資料視覺化

三、全部程式碼呈現

相關推薦