Python實現《人民的名義》關係視覺化

阿新 • • 發佈：2018-11-22

流程概述

在網上找到《人民的名義》劇本並下載
在網上查詢《人民的名義》的一些主要人物，做一個人物字典
基於共現原理尋找人物關係
使用軟體Gephi繪製關係圖，將關係視覺化

人物字典

在結巴分詞中，人物姓名以標記”nr”來標誌。

侯亮平 nr
李達康 nr 
達康  nr
沙瑞金 nr
沙書記 nr
高育良 nr
育良  nr
老師  nr
祁同偉 nr
陸亦可 nr
鍾小艾 nr
高小琴 nr
吳惠芬 nr
歐陽菁 nr
趙瑞龍 nr
鄭西坡 nr
趙東來 nr
樑璐  nr
季昌明 nr
程度  nr
丁義珍 nr
陳海  nr
趙德漢 nr
林華華 nr
周正  nr
陳岩石 nr
陳老 nr
劉新建 nr
蔡成功 nr
王馥真 nr
易學習 nr
田國福 nr
陳清泉 nr
劉姍  nr
陳群芳 nr
田杏枝 nr
張寶寶 nr
鄭勝利 nr
孫連城 nr
肖鋼玉 nr
吳心怡 nr
王大路 nr
秦局長 nr
周桂春 nr
王文革 nr
白處長 nr
孫海平 nr
毛婭  nr
張樹立 nr
吳春林 nr
馬文明 nr
金祕書 nr
侯浩然 nr
常成虎 nr
小皮球 nr
湯成蘭 nr
李樑  nr
畢敬業 nr
何阿三 nr
張天峰 nr
尤瑞星 nr
陳文強 nr
杜伯仲 nr
美女老總 nr
老程 nr

基於人物共現的人物關係挖掘

我們假設兩個人物在某一長度的文字中同時出現就認為這兩個人物有關係，在這裡我們選取這個長度為段落。即在同一段落中出現了兩個不同的文字，即認為這兩個人物有關係。

處理過程中的一些問題

一些詞彙如“林城”、“白雲”、“呂州”等，它們的屬性被歸到了”nr”，而且出現次數較多，和一些人物共現次數較多，如果不做處理的話，它們將會出現在繪製的關係圖中。在這裡可以將這些詞作為停用詞梳理。
一些人物之間常常會以親密的詞彙稱呼對方，而且出現次數非常多，如果將這些詞彙忽略，關係刻畫可能會出現很大的偏差，如陳海和侯亮平之間的“猴子”，高育良和侯亮平、祁同偉之前的師生稱呼。所以在分詞之後，我們可以判斷一下如果出現了這些親密稱呼，將其替代為他的姓名。

最終程式碼展示

# -*- encoding:utf-8 -*-
import jieba
import jieba.posseg as pseg
import codecs
import csv
stopwords=['呂州','林城','銀行卡','明白','白雲','嗡嗡嚶嚶',
           '陰雲密佈','雷聲','陳大','謝謝您','安置費','任重道遠',
           '孤鷹嶺','阿慶嫂','岳飛','師生','養老院','段子','老總']
replace_words={'師母':'吳慧芬','陳老':'陳岩石','老趙':'趙德漢','達康' 
:'李達康','高總':'高小琴',
              '猴子':'侯亮平','老鄭':'鄭西坡','小艾':'鍾小艾','老師':'高育良','同偉':'祁同偉',
              '趙公子':'趙瑞龍','鄭乾':'鄭勝利','孫書記':'孫連城','趙總':'趙瑞龍','昌明':'季昌明',
               '沙書記':'沙瑞金','鄭董':'鄭勝利','寶寶':'張寶寶','小高':'高小鳳','老高':'高育良',
               '伯仲':'杜伯仲','老杜':'杜伯仲','老肖':'肖鋼玉','劉總':'劉新建',"美女老總":"高小琴"}
names={} #姓名字典
relationships ={} #關係字典
lineNames =[] #每段內人物的關係
node=[] #存放處理後的人物
def read_txt(path): #讀取劇作並分詞
    jieba.load_userdict("person.txt") #載入人物字典(注意這個檔案要用utf-8編碼，可以使用sublime進行轉換為utf-8編碼)
    f=codecs.open(path,'r') #讀取劇作,並將其轉換為utf-8編碼
    for line in f.readlines():
        poss=pseg.cut(line)  #分詞並返回該詞詞形
        lineNames.append([])  #為新讀入的一段新增人物名稱列表
        for w in poss:
            if w.word in stopwords:  #去掉某些停用詞
                continue
            if w.flag != "nr" or len(w.word) <2 : 
                if w.word not in replace_words: 
                    continue
            if w.word in replace_words: #將某些在文中人物的暱稱替換成正式的名字
                w.word=replace_words[w.word]
            lineNames[-1].append(w.word)  #為當前段增加一個人物
            if names.get(w.word) is None: #如果這個名字從來沒出現過，初始化這個名字
                names[w.word] =0
                relationships[w.word] ={}
            names[w.word] +=1 #該人物出現次數加1
    for line in lineNames: #通過對於每一段段內關係的累加，得到在整篇小說中的關係
        for name1 in line:
            for name2 in line:
                if name1 == name2:
                    continue
                if relationships[name1].get(name2) is None: #如果沒有出現過兩者之間的關係，則新建項
                    relationships[name1][name2] =1
                else:
                    relationships[name1][name2] +=1 #如果兩個人已經出現過，則親密度加1
def write_csv():
    # 在windows這種使用\r\n的系統裡，不用newline=‘’的話
    # 會自動在行尾多添加個\r，導致多出一個空行，即行尾為\r\r\n
    csv_edge_file = open("edge.csv", "w", newline="")
    writer = csv.writer(csv_edge_file)
    writer.writerow(["source", "target", "weight","type"])  # 先寫入列名,"type"為生成無向圖做準備
    for name,edges in relationships.items():
        for v,w in edges.items():
            if w>20:
                node.append(name)
                writer.writerow((name,v,str(w),"undirected"))  # 按行寫入資料
    csv_edge_file.close()
    #生成node檔案
    s=set(node)
    csv_node_file =open("node.csv","w",newline="")
    wnode =csv.writer(csv_node_file)
    wnode.writerow(["ID","Label","Weight"])
    for name,times in names.items():
        if name in s:
            wnode.writerow((name,name,str(times) ) )
    csv_node_file.close()

if __name__=='__main__':
    file = "renmindemingyi.txt"
    edge_file="edge.txt"
    read_txt(file)
    write_csv()

繪製圖片

將生成的檔案匯入軟體Gephi，簡單的操作方法可以參考下面的連結
gephi學習筆記

結果展示

這裡寫圖片描述

Python實現《人民的名義》關係視覺化

流程概述在網上找到《人民的名義》劇本並下載在網上查詢《人民的名義》的一些主要人物，做一個人物字典基於共現原理尋找人物關係使用軟體Gephi繪製關係圖，將關係視覺化人物字典在結巴分詞中，人物姓名以標記”nr”來標誌。侯亮平 nr

七種方法實現Python抓取資料的視覺化

Python 的scientific stack（一個介紹Python科學計算包的網站）已經完全成熟，並且有各種各樣用例的庫，包括機器學習（連結：machine learning），資料分析（連結：data analysis）。資料視覺化是探索資料和清晰的解釋結果很重要的一部分，

如何用python實現數據可視化？

可視化 tro alt 條件顏色箱線圖小提琴柱形圖方法給大家簡單介紹下python的matplotlib和seaborn的作圖方法，如果需要了解pyecharts包的使用，可以點擊閱讀原文（同事寫的一篇關於pyecharts作圖的文章）。 1.導入相關包：

python pandas+matplotlib 簡化資料視覺化

一、pandas中的繪圖函式 1.series繪製圖像 # 準備一個Series s = Series(np.random.randn(10),index=np.arange(10,110,10)) # 最簡單的畫個圖 s.plot() plt.show() 2.Data

關於python中幾種資料視覺化圖形

python中我們一般用的最多的是matplotlib圖形庫，本人在寫文章，做報告時，深感matplotlib圖形比較單一化，這裡介紹幾種關於python的圖形庫（1）seaborn 是基於matplotlib的高階版，主要針對的資料探勘和機器學習的變數特徵選取，可以用非常短小的程式碼就可

python學習筆記之pygal視覺化世界人口

資料視覺化指的是通過視覺化表示來探索資料，它與資料探勘緊密相關，而資料探勘指的是通過程式碼來探索資料集的規律及關聯。漂亮地展示資料關乎的不僅僅是漂亮的圖片。以引人入勝的簡潔方式呈現資料，讓觀者明白其含義，發現數據中原本未意識到的規律與意義。在這一領域，有更多人拋棄excel，matlab甚

程式碼實現 Identity啟用函式視覺化

漸近恆等變換，節點輸入等於節點輸出，不會隨著深度的增加而發生顯著的變化，神經網路會更加穩定，梯度更容易回傳。公式： &nb

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進一、LSSVM 1、LSSVM用於迴歸 2、LSSVM模型的缺點二、WLSSVM的數學原理三、WLSSVM的python實現參

【手把手教你】Python獲取財經資料和視覺化分析

內容來自：微信公眾號：python金融量化關注可瞭解更多的金融與Python乾貨。 “巧婦難為無米之炊”，找不到資料，量化分析也就無從談起。對於金融分析者來說，獲取資料是量化分析的第一步。Python的一個強大功能之一就是資料獲取（爬蟲）。但是對於沒時間學爬蟲程式的小白來說，pytho

python--boss直聘資料視覺化

python 資料視覺化本文中主要使用matplotlib和Pandas對資料進行視覺化資料來源：爬取的BOOS直聘資料分析資料資料展示本文中針對以上資料，對salary,company_info，work_time,education這幾個資訊進行資料視覺化，做出

吳恩達機器學習邏輯迴歸python實現（未正則化）[對應ex2-ex2data2.txt資料集]

寫在前面： 1.筆記重點是python程式碼實現，不敘述如何推導。參考本篇筆記前，要有邏輯迴歸的基礎（熟悉代價函式、梯度下降、矩陣運算和python等知識），沒有基礎的同學可通過網易雲課堂上吳恩達老師的機器學習課程學習。網上也有一些對吳恩達老師課後作業的python實現，大多數都是用

python實現彩色圖片灰度化並轉化為字元型圖片

python可以用來學習用來工作，當然也能用來娛樂，相信眾多pythoner都不會反對這一點，今天是週五了，又是一個美好的週末的開始，打算做點有意思的事情玩一玩，無意間看到一個很有意思的東西就打算拿來實現以下，主要就是基於python的PIL模組將彩色圖片轉化為字元型的內

基於WebGL架構的3D視覺化平臺—三維裝置管理（ThingJS實現裝置管理3D視覺化）

國內高層建築不斷興建，它的特點是高度高、層數多、體量大。面積可達幾萬平方米到幾十萬平方米。這些建築都是一個個龐然大物，高高的聳立在地面上，這是它的外觀，而隨之帶來的內部的建築裝置也是大量的。為了提高裝置利用率，合理地使用能源，加強對建築裝置狀態的監視等，自然地就提出了樓宇自動化控制系統。下面我們將用Thing

利用graphviz來實現無向圖視覺化（求最短路徑）

1.首先下載graphviz，並安裝。 2.將輸入的邊儲存起來。 3.將最短路徑求出，並存儲每個頂點的前驅。 4.在程式中將建邊的程式碼寫入一個dot檔案中。 5.將dot檔案轉化為.png形式。 6.利用system函式開啟.png。程式碼如下： #include &

用“看板圖”實現敏捷專案的視覺化

在敏捷專案裡，掛在牆上的“人人可見的大圖表”是一種普遍的實踐，它被用來共享專案的狀態並將之視覺化。精益系統裡也有這樣的設施。“看板”在日語裡的大意是“卡片”或者“標誌”的意思。在精益生產系統裡，看板方法是給每個標準生產單元或者每個生產批量附上一張卡片。只有當一個“進行

Spring Cloud【Finchley】-12使用Hystrix Dashboard實現Hystrix資料的視覺化監控

文章目錄概述 Hystrix Dashboard Step 1 新建專案 Step2 增加maven依賴 Step3 啟動類增加註解@EnableHystrixDashboard Step4 配置檔案applicati

Python實現數據可視化，繪制各種圖案

直方圖 12c b2c num def alt .com pytho 繪制環境系統：windows10 python版本：python3.6.1 使用的庫：matplotlib，numpy numpy庫產生隨機數幾種方法小編推薦大家可以加我的扣扣群 73

SVM入門例項可執行python程式碼完整版(簡單視覺化)

執行環境 anaconda python 版本 2.7.13 包含詳細資料集和資料的使用，視覺化結果，很快入門，程式碼如下 # -*- coding: utf-8 -*- __author__ = 'LinearSVC線性分類支援向量機：包含懲罰項的' # 導包 imp

Arcgis+Python實現對柵格歸一化處理

影象歸一化就不多說了，就是(數值-min)/(max-min)，把結果都劃歸到0-1範圍，便於不同變數之間的比較，取消了不同數量差別。第一個方法，需要對柵格資料預先知道取值範圍。第二種方法，比較好點，直接讀取屬性

前端fabric.js實現二叉樹視覺化佈局

2.效果圖 3.程式碼 <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

Python實現《人民的名義》關係視覺化

流程概述

人物字典

基於人物共現的人物關係挖掘

處理過程中的一些問題

最終程式碼展示

繪製圖片

結果展示

相關推薦