1. 程式人生 > >論文淺嘗 | 知識圖譜的單樣本關係學習

論文淺嘗 | 知識圖譜的單樣本關係學習

640?wx_fmt=png

連結:http://cn.arxiv.org/pdf/1808.09040

動機

如今的知識圖譜規模很大但是完成度不高,long-tail關係在知識圖譜中很常見,之前致力於完善知識圖譜的方法對每個關係都需要大量的訓練樣本(三元組),而新加入的關係其樣本數量通常不是很多。為解決這個問題,本文提出了one-shot場景下的關係學習模型,該模型通過學習實體的embedding和相應的區域性圖結構來獲得一個匹配度量函式,最終推匯出新的三元組。

亮點

本文提出的模型有以下亮點:

1)只依賴於實體的embedding和區域性圖結構(之前的方法依賴於關係的良好表示);

2)一旦訓練完成便可以預測任何關係(之前的方法需要微調來適應新的關係)

概念

本文主要針對(h,r,?)型別的推測,即從候選集合中選出最合適的t來構造新的三元組(h,r,t),主要符號含義如下:

G{(h,r,t)}:即原始KG,三元組集合

640?wx_fmt=png:對應於G中的一個關係(任務),每個 T_r 中所有三元組的r相同

640?wx_fmt=png:任務集合

640?wx_fmt=png:只含有一個三元組(h_0,r,t_0)

640?wx_fmt=pngC_(h_i,r) 為候選t集合

G':G的子集,作為背景知識

模型

640?wx_fmt=png

本文的模型由兩部分組成:

(1)Neighbor Encoder

該模組利用區域性圖結構對(h,t)實體對進行編碼,首先對任意h/t構建其one-hop Neighbor set N_e,再利用Encoding function f(N_e)編碼,最後將

h t 的編碼連線起來便得到(h,t)實體對的表示,f(N_e )形式如下:

640?wx_fmt=png

(2)Matching processor

對於候選集 C_(h_i,r) 中的每一個 t_(i,j),利用LSTM計算 (h_i,t_(i,j)) 和 (h_0,t_0) 的相似度,相似度最高的 t_(i,j) 即為 (h_i,r) 對應的t,迭代過程如下:

640?wx_fmt=png

實驗                                                                         

資料集

640?wx_fmt=png

本文的兩個資料集NELL-OneWiki-One是作者分別基於NELLWikidata構建(選取其中三元組數量在

50~500之間的關係)。

實驗結果

640?wx_fmt=png

作者將本文提出的模型(GMatching)與之前基於embedding的模型在NELL-OneWiki-One兩個資料集上進行了比較,結果顯示該模型各項指標均優於之前的模型。

總結                                                  

本文提出的模型利用實體的區域性圖結構以及學習度量來匹配實體對,一經訓練可以直接適用於預測任何關係,並在one-shot場景下表現出優越效能。

論文筆記整理:楊帆,浙江大學碩士,研究方向為知識圖譜、自然語言處理。

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

640?wx_fmt=jpeg

點選閱讀原文,進入 OpenKG 部落格。