NLP（十二）依存句法分析的視覺化及圖分析

依存句法分析的效果雖然沒有像分詞、NER的效果來的好，但也有其使用價值，在日常的工作中，我們免不了要和其打交道。筆者這幾天一直在想如何分析依存句法分析的結果，一個重要的方面便是其視覺化和它的圖分析。
我們使用的NLP工具為jieba和LTP，其中jieba用於分詞，LTP用於詞性標註和句法分析，需要事件下載pos.model和parser.model檔案。
本文使用的示例句子為：

2018年7月26日，華為創始人任正非向5G極化碼（Polar碼）之父埃爾達爾教授舉行頒獎儀式，表彰其對於通訊領域做出的貢獻。

首先，讓我們來看一下沒有視覺化效果之前的句法分析結果。Python程式碼如下:

# -*- coding: utf-8 -*-

import os
import jieba
from pyltp import  Postagger, Parser

sent = '2018年7月26日，華為創始人任正非向5G極化碼（Polar碼）之父埃爾達爾教授舉行頒獎儀式，表彰其對於通訊領域做出的貢獻。'

jieba.add_word('Polar碼')
jieba.add_word('5G極化碼')
jieba.add_word('埃爾達爾')
jieba.add_word('之父')
words = list(jieba.cut(sent))

print(words)

# 詞性標註
pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model')
postagger = Postagger()
postagger.load(pos_model_path)
postags = postagger.postag(words)

# 依存句法分析
par_model_path = os.path.join(os.path.dirname(__file__), 'data/parser.model')
parser = Parser()
parser.load(par_model_path)
arcs = parser.parse(words, postags)

rely_id = [arc.head for arc in arcs]  # 提取依存父節點id
relation = [arc.relation for arc in arcs]  # 提取依存關係
heads = ['Root' if id == 0 else words[id-1] for id in rely_id]  # 匹配依存父節點詞語

for i in range(len(words)):
    print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')

輸出結果如下：

['2018', '年', '7', '月', '26', '日', '，', '華為', '創始人', '任正非', '向', '5G極化碼', '（', 'Polar碼', '）', '之父', '埃爾達爾', '教授', '舉行', '頒獎儀式', '，', '表彰', '其', '對於', '通訊', '領域', '做出', '的', '貢獻', '。']
ATT(2018, 年)
ATT(年, 日)
ATT(7, 月)
ATT(月, 日)
ATT(26, 日)
ADV(日, 舉行)
WP(，, 日)
ATT(華為, 創始人)
ATT(創始人, 任正非)
SBV(任正非, 舉行)
ADV(向, 舉行)
ATT(5G極化碼, 之父)
WP(（, Polar碼)
COO(Polar碼, 5G極化碼)
WP(）, Polar碼)
ATT(之父, 埃爾達爾)
ATT(埃爾達爾, 教授)
POB(教授, 向)
HED(舉行, Root)
VOB(頒獎儀式, 舉行)
WP(，, 舉行)
COO(表彰, 舉行)
ATT(其, 貢獻)
ADV(對於, 做出)
ATT(通訊, 領域)
POB(領域, 對於)
ATT(做出, 貢獻)
RAD(的, 做出)
VOB(貢獻, 表彰)
WP(。, 舉行)

我們得到了該句子的依存句法分析的結果，但是其視覺化效果卻不好。
我們使用Graphviz工具來得到上述依存句法分析的視覺化結果，程式碼（接上述程式碼）如下：

from graphviz import Digraph

g = Digraph('測試圖片')

g.node(name='Root')
for word in words:
    g.node(name=word)

for i in range(len(words)):
    if relation[i] not in ['HED']:
        g.edge(words[i], heads[i], label=relation[i])
    else:
        if heads[i] == 'Root':
            g.edge(words[i], 'Root', label=relation[i])
        else:
            g.edge(heads[i], 'Root', label=relation[i])

g.view()

得到的依存句法分析的視覺化圖片如下：

在這張圖片中，我們有了對依存句法分析結果的直觀感覺，效果也非常好，但是遺憾的是，我們並不能對上述視覺化結果形成的圖（Graph）進行圖分析，因為Graphviz僅僅只是一個視覺化工具。那麼，我們該用什麼樣的工具來進行圖分析呢？
答案就是NetworkX。以下是筆者對於NetworkX應用於依存句法分析的視覺化和圖分析的展示，其中圖分析展示了兩個節點之間的最短路徑。示例的Python程式碼如下：

# 利用networkx繪製句法分析結果
import networkx as nx
import matplotlib.pyplot as plt
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['Arial Unicode MS']  # 指定預設字型


G = nx.Graph()  # 建立無向圖G

# 新增節點
for word in words:
    G.add_node(word)

G.add_node('Root')

# 新增邊
for i in range(len(words)):
    G.add_edge(words[i], heads[i])

source = '5G極化碼'
target1 = '任正非'
distance1 = nx.shortest_path_length(G, source=source, target=target1)
print("'%s'與'%s'在依存句法分析圖中的最短距離為:  %s" % (source, target1, distance1))

target2 = '埃爾達爾'
distance2 = nx.shortest_path_length(G, source=source, target=target2)
print("'%s'與'%s'在依存句法分析圖中的最短距離為:  %s" % (source, target2, distance2))

nx.draw(G, with_labels=True)
plt.savefig("undirected_graph.png")

得到的視覺化圖片如下：

輸出的結果如下：

'5G極化碼'與'任正非'在依存句法分析圖中的最短距離為:  6
'5G極化碼'與'埃爾達爾'在依存句法分析圖中的最短距離為:  2

本次到此結束，希望這篇簡短的文章能夠給讀者帶來一些啟發～

注意：不妨瞭解下筆者的微信公眾號： Python爬蟲與演算法（微訊號為：easy_web_scrape），歡迎大家關注~

相關推薦

NLP（十二）依存句法分析的視覺化及圖分析

依存句法分析的效果雖然沒有像分詞、NER的效果來的好，但也有其使用價值，在日常的工作中，我們免不了要和其打交道。筆者這幾天一直在想如何分析依存句法分析的結果，一個重要的方面便是其視覺化和它的圖分析。我們使用的NLP工具為jieba和LTP，其中jieba用於分詞，LTP用於詞性標註和句法分析，需要事

Spring源碼分析（十二）FactoryBean的使用

get cell int 創建 phone eof block 如果 cells 摘要：本文結合《Spring源碼深度解析》來分析Spring 5.0.6版本的源代碼。若有描述錯誤之處，歡迎指正。一般情況下，Spring通過反射機制利用bean的class屬性指定

osgEarth的Rex引擎原理分析（十二）rex地理資訊引擎的四樑八柱

目標：（九）中問題11 在（九）中建立rex引擎節點時，會呼叫osgEarth::TerrainEngineNode的建構函式，該函式負責設定rex引擎的名稱、id、著色器和其它一些變數設定，還會新增地形_terrain子節點。 rex引擎的四樑八柱是從這裡開始的 osgEarth/Ma

高校學生工作管理系統的分析與設計--文獻隨筆（十二）

決定不用功能 ref 技術決策模塊化 CMF 要求一、基本信息標題:高校學生工作管理系統的分析與設計時間：2013 出版源：雲南大學關鍵詞：B/S; 高校學生工作管理; 信息系統; 二、研究背景問題定義：此系統的開發有效的減輕學校相關工作人員的工作負擔，同

吳恩達機器學習（十二）主成分分析（降維、PCA）

目錄 0. 前言學習完吳恩達老師機器學習課程的降維，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言資料的特徵數量，又稱作向量的維度。降維（dimens

深度學習筆記——理論與推導之Structured Learning【NLP】（十二）

Language Technology Meaning of Word（一個vector表示一個word） Predicting the next word 給一串sequence of words，預測下一個單詞我們現在要做的就是將wi

利用 Python 進行資料分析（十二）pandas：資料合併

原文地址 pandas 提供了三種主要方法可以對資料進行合併： pandas.merge()方法：資料庫風格的合併；pandas.concat()方法：軸向連線，即沿著一條軸將多個物件堆疊到一起；例項方法combine_first()方法：合併重疊資料。 pandas

《喬布斯傳》經典摘錄之iphone【天線門】事件二(解決、總結、分析)（十二）...

此部分內容主要講iphone【天線門】事件如何解決、總結和分析週五，蘋果在公司禮堂舉辦了新聞釋出會，喬布斯採納了麥肯納的意見。他沒有卑躬屈膝，也沒有道歉，只表示蘋果理解這個問題並會盡力改正，這樣他就得以平息問題。接著，他話題一轉

Linux 網路協議棧開發基礎篇（十二）—— 使用wireshark分析TCP/IP協議中TCP包頭的格式

摘要：本文簡單介紹了TCP面向連線理論知識，詳細講述了TCP報文各個欄位含義，並從Wireshark俘獲分組中選取TCP連線建立相關報文段進行分析。一、概述 TCP是面向連線的可靠傳輸協議，兩個程序互發資料之前需要建立連線，這裡的連線只不過是端系統中分配的一些快

hostapd wpa_supplicant madwifi詳細分析（十二）——EAP（RFC3748）及EAP狀態機分析（RFC4137）

這篇文章分兩個部分：EAP（RFC3748）及EAP狀態機分析（RFC4137），其中主要內容來自RFC以及網路文章。一、EAP拓展認證協議 EAP的可拓展性主要表現在它的method可拓展，EAP只是一個載體，傳送不同method間的互動。 EAP可用於專用的連結，以

linux系統分析工具之slabtop（十二）

slabtop 簡介： slabtop - display kernel slab cache information in real time（實時的顯示核心slab快取資訊，透過/proc/slabinfo）核心的模組在分配資源的時候，為了提高效率和資源的利用率，都

Java-Collection原始碼分析（十二）——Set、AbstractSet、HashSet和LinkedHashSet

該類提供了Set介面的骨架實現，以最大限度地減少實現此介面所需的工作量。通過擴充套件此類來實現集合的過程與通過擴充套件AbstractCollection實現集合的過程相同，除了此類的子類中的所有方法和建構函式都必須遵守由Set介面施加的附加約束（例如，新增方法不能允許將一個物件的多個例項新增到集合中）。

Netty原始碼分析--記憶體模型（下）（十二）

這一節我們一起看下分配過程 1 PooledByteBuf<T> allocate(PoolThreadCache cache, int reqCapacity, int maxCapacity) { 2 PooledByteBuf

Netty原始碼分析（十二）----- 心跳服務之 IdleStateHandler 原始碼分析

什麼是心跳機制？心跳說的是在客戶端和服務端在互相建立ESTABLISH狀態的時候，如何通過傳送一個最簡單的包來保持連線的存活，還有監控另一邊服務的可用性等。心跳包的作用保活Q：為什麼說心跳機制能保持連線的存活，它是叢集中或長連線中最為有效避免網路中斷的一個重要的保障措施？A：之所以說是&l

小白學 Python 資料分析（13）：Pandas （十二）資料表拼接

![](https://cdn.geekdigging.com/python/spider-blog/Python_logo.jpg) > 人生苦短，我用 Python 前文傳送門： [小白學 Python 資料分析（1）：資料分析基礎](https://www.geekdigging.com/2020

FFmpeg總結（十二）用ffmpeg與nginx實現直播多路流並發播放

xxx 開源 conf ref itl rect arc med rtm 圖：撒哈拉沙漠下載 nginx 和 nginx-rtmp源碼： http://nginx.org/download/nginx-1.5.10.tar.gz https://github.com/a

（十二）Hibernate中的多表操作（1）：單向多對一

art 保存 int gen round t對象情況映射文件拋出異常由“多”方可知“一”方的信息，比如多個員工使用同一棟公寓，員工可以知道公寓的信息，而公寓無法知道員工的信息。案例一： pojo類 public class Department {

黑盒測試用例設計-用例維護（十二）

叠代測試的部分開發用例設計來源 nbsp 延伸不同的六、用例維護—經驗用例當進入執行測試階段時，我們總是能發現一些缺陷的出現是出乎我們意料的，或者說是已有的測試需求和測試用例未能覆蓋的。那麽，對於這部分缺陷，也應當在分析整理後添加到測試需求

從零開始學習html（十二）CSS布局模型——下

位操作女生 margin 沒有定位元素 top 並且變化開始五、什麽是層模型？什麽是層布局模型？層布局模型就像是圖像軟件PhotoShop中非常流行的圖層編輯功能一樣，每個圖層能夠精確定位操作，但在網頁設計領域，由於網頁大小的活動性，層布局沒能受到熱捧。但是

學習MVC之租房網站（十二）-緩存和靜態頁面

.html 控制臺 ron 在線教育適合取代 system caching 租房網站在上一篇<學習MVC之租房網站（十一）-定時任務和雲存儲>學習了Quartz的使用、發郵件，並將通過UEditor上傳的圖片保存到雲存儲。在項目的最後，再學習優化網站性能的