基於依存關係的空間關係抽取演算法

阿新 • • 發佈：2019-01-11

0.引入

空間關係是指存在於實體之間的具有空間特徵的關係，如方位關係、距離關係、拓撲關係、層次關係等。空間關係在自然語言描述中一般具有三個部分或者兩個層次。三個部分是從認知學的角度出發的將其分為射體、界標和方位詞，其中:

射體是空間關係中的主體成分。
方位詞是用來描述實體之間的空間方向和位置關係的，通常與其前面的名詞構成句子中的處所格。
界標則為射體的方位提供了參照物依據。

例如S1：杯子在桌子上。S1 中包含空間表示式（在，上，桌子）。
則杯子為射體，桌子為界標，上為方位詞。

獲取空間關係就需要找出句子中的空間表示式。首先要對原始語料進行預處理。然後抽取其中的空間關係。

1.語料預處理

1.1. 獲得句子分詞後的依存關係

基於哈工大的自然語言處理技術，使用它的API對句子進行分詞，並得到它的依存關係。
使用者通過指定API引數來獲取對應的結果，語言云服務的API引數集連結如下：
http://www.ltp-cloud.com/document/
在語言云中，所有的API訪問都是通過HTTP請求的方式。並且需要從api.ltp-cloud.com域進行訪問。語言云只支援GET和POST方式的HTTP請求。使用者通過在HTTP請求中指定引數來獲取對應的結果。
舉個例子，對“房頂上落著一隻小鳥”這句話做依存句法分析。
這句話的依存關係的句子檢視如下：

圖1-1例句的依存關係

返回xml格式的結果。GET請求及返回結果示例：
GET http ://api.ltp-cloud.com/analysis/?api_key=U1H0S1Z1CkcUtrLouJvyHVNSOWkY9ycmAVahcduW&text=房頂上落著一隻小鳥&pattern=all&format=xml

圖1-2 例句的xml標準結果

1.2. 把依存關係儲存為XML檔案

將依存關係以XML格式的字串的形式把儲存到XML檔案。
例“房頂上落著一隻小鳥”這句話的依存關係的XML格式如圖所示：

圖 1-3 例句依存關係的XML

1.3解析XML檔案獲得每個詞的屬性

使用dom4j解析XML檔案，獲得節點下各屬性值（如上圖紅框內所示）。建立一個實體類Word，成員變數對應著XML檔案中節點的各屬性。把解析得到的每個詞的屬性值作為Word例項儲存到一個List裡面。

圖 1-4 節點屬性

2.空間關係三元組抽取

通過語料預處理得到的一個短句中所有詞的詞性、依存關係和句子的句法結構等資訊，根據這些資訊再加上我們的認知常識來識別出空間關係三元組。
先根據一個短句中的方位詞個數來確定短句中至少有多少個三元組，之後對於每一個方位詞，去確定其界標和射體，如果存在多個射體，那麼複製方位詞和界標，增添三元組的數量。
例:“小明和奧巴馬在屋子後面的橋上釣魚。”

圖2- 1例句的句法分析和詞性標註

圖2-2 例句的句法分析樹

如上圖，例句中識別出的方位詞為“後面”和“上”，方位詞的個數為2，則可確定至少有兩個三元組，根據依存關係為ATT（定中關係）的方位詞的子節點，確定界標分別為“屋子”和“橋”，之後再根據方位詞來找到三元組中的射體（具體的方法下面做介紹），因為有一個三元組的射體為“小明”和“奧巴馬”，所以要將“小明”的界標和方位詞複製給“奧巴馬”，然後將新的三元組增添到結果三元組列表中。

2.1方位詞的識別

通過遍歷一個短句中所有的詞，找出其中詞性為“nd”(direction noun)的詞來作為方位詞。
哈工大的語言技術平臺的分詞系統中有一百餘種固定的方位詞，比如“東北面”、“前後”等，所以短句中方位詞的識別比較精確，不會存在方位詞分開識別的情況。

圖2-3方位詞識別

2.2界標的識別

將2.1中識別出的方位詞新增到相應的三元組中，對於當前的每一個三元組，根據其中的方位詞去識別界標，經過大量考察例句，在句法分析樹中，界標是方位詞的子節點，界標的依存關係是ATT(定中關係)，根據這樣的規則，識別出相應三元組中的界標。
例“房頂上落著一隻小鳥”這句話的依存關係如圖 3-2 所示：

圖 2-4 依存關係和詞性標註

例“他站在房子前”這句話的依存關係如圖 3-3 所示：

圖 2-5 依存關係和詞性標註

當依存關係ATT中方位詞的直接依存物件不是界標的時候，比如“大象的背上有一隻螞蟻”

圖2-6依存關係和詞性標註

在上圖可以看到依存關係ATT（上—>背）、（背—>大象），此時方位詞“上”的直接依存物件並不是界標，但是“背”的直接依存物件是界標。，從它的義原得知“背”是部件，因此不能作為界標，確定大象是界標。
界標識別演算法如下：

2.3射體識別

2.3.1簡單射體識別

根據短句中方位詞的重要性來對方位詞進行分類，與句法分析樹的根節點直接相關的方位詞可以視為主要方位詞；相對的，遠離根節點且方位詞的依存關係為ATT的方位詞可以視為次要方位詞。
如下圖，例子“小明和奧巴馬在屋子後面的橋上釣魚。”中，三元組為（小明，橋，上）、（奧巴馬，橋，上）、（橋，屋子，後面），其中“上”是主要方位詞，“後面”是次要方位詞。下面就根據方位詞的分類來對相應的射體進行識別。

(1)方位詞是主要方位詞。
當方位詞是主要方位詞的時候，父節點的依存關係是HED(核心關係)或者父節點的父節點（或者更多）的依存關係為HED，如圖3-9中的例子，“上”的父節點的父節點的依存關係是HED。
從方位詞開始一層一層地向上獲取節點，直到獲取到依存關係為HED的節點，然後遍歷找出該節點子節點中詞性為名詞“n”（或包含“n”）和代詞“r”的節點。在上面的例子中就可以找到上的射體“小明”。

圖2-8句法分析樹

例“屋子前的桌子上有一個水杯”其中主要方位詞“上”的射體是“水杯”。這句話的依存關係和句法分析樹如圖 2-8、2-9 所示：

2-9依存關係

圖2-10句法分析樹

(2) 方位詞是次要方位詞。
當方位詞是次要方位詞的時候，方位詞的依存關係是ATT(定中關係)，且直接依存的物件是名詞“n”(或者包含“n”的詞性，比如“小明”“nh”)或者代詞“r”時，可以判定這個詞就是次要方位詞的射體。
例子“小明和奧巴馬在屋子後面的橋上釣魚。”中，次要方位詞“後面”的依存關係為ATT,直接依存的物件是“橋”詞性“n”,符合上面的要求，所以“橋”就是“後面”的射體。

簡單射體識別演算法如下：

2.3.2複雜射體識別

當一個短句中存在多個並列的射體時，如例子“小明和奧巴馬在屋子後面的橋上釣魚。”通過2.3.1的方法我們只能識別出兩個三元組（小明，橋，上），（橋，屋子，後面），對於跟“小明”並列的射體“奧巴馬”並沒有識別出來，所以就要在簡單射體識別之後對並列的射體做處理，複製相應的界標和方位詞，增添到結果三元組的列表中去。

在上圖中我們可以通過遍歷句法樹來抽取父節點為已確定射體，依存關係為COO的節點來作為新增三元組的射體，在複製父節點射體的三元組中的界標和方位詞，增添到結果三元組列表中去。
複雜射體識別演算法如下：

基於依存關係的空間關係抽取演算法

0.引入

1.語料預處理

1.1. 獲得句子分詞後的依存關係

1.2. 把依存關係儲存為XML檔案

1.3解析XML檔案獲得每個詞的屬性

2.空間關係三元組抽取

2.1方位詞的識別

2.2界標的識別

2.3射體識別

2.3.1簡單射體識別

2.3.2複雜射體識別

基於TextRank的中文摘要抽取演算法(一)

基於依存關係的空間關係抽取演算法

基於依存句法分析的實體關係抽取

清華大學馮珺：基於強化學習的關係抽取和文字分類 | 實錄·PhD Talk

JTS Geometry空間關係的判斷

使用者態核心態及使用者空間核心空間關係

基於依存句法與語義角色標註的事件抽取專案

學習筆記《Dynamic Routing Between Capsules》-（“膠囊”網路之區域性空間關係）

oracle 使用者與表空間關係

PostGIS教程九：空間關係

Arcmap 空間連線，在通過麵包含面的空間關係做屬性關聯的時候，發生關聯冗餘的問題。

neo4j cypher基於節點label、關係type的與或查詢

李飛飛團隊CVPR論文：讓AI識別語義空間關係（附論文、實現程式碼）

基於行塊分佈函式的網頁正文抽取演算法程式碼實現

基於深度學習的目標檢測演算法綜述（一）（截止20180821）

基於深度學習的目標檢測演算法綜述（三）（截止20180821）

基於深度學習的目標檢測演算法綜述（二）（截止20180821）

學習筆記之——基於深度學習的目標檢測演算法

基於分解的多目標進化演算法（MOEA/D）

基於使用者的電視節目推薦演算法例項

基於依存關係的空間關係抽取演算法

0.引入

1.語料預處理

1.1. 獲得句子分詞後的依存關係

1.2. 把依存關係儲存為XML檔案

1.3解析XML檔案獲得每個詞的屬性

2.空間關係三元組抽取

2.1方位詞的識別

2.2界標的識別

2.3射體識別

2.3.1簡單射體識別

2.3.2複雜射體識別

相關推薦