1. 程式人生 > >知識圖譜表示學習

知識圖譜表示學習

知識圖譜是一種精細化的異構網路, 所以對其節點與邊的表示學習也是一個熱門的問題. 這裡的學習依舊是得到它們的低維稠密向量. 這樣做的好處:

  • 降低知識圖譜的高維性和異構性;
  • 增強知識圖譜應用的靈活性;
  • 減輕特徵工程的工作量;
  • 減少由於引入知識圖譜帶來的額外計算負擔

網路學習有關的任務描述:

  • link prediction
    在社交網路等網路中, 預測出可能存在但尚未建立起的連結.
  • knowledge graph completion
    同link prediction類似, 但還要精確預測出關係的具體型別.

翻譯模型簡介

在翻譯模型中, 將relation視為從headtail

的翻譯問題, 即head+relationtail,簡寫為 h+rt,從而把entity和relation在同一個語義空間中進行embedding學習.


figure transE,transH,transR之間的比較

TransH模型嘗試通過不同的形式表示不同關係中的實體結構,對於同一個實體而言,它在不同的關係下也扮演著不同的角色。模型首先通過關係向量lr與其正交的法向量wr選取某一個超平面F, 然後將頭實體向量lh和尾實體向量lt法向量wr的方向投影到F, 最後計算損失函式。TransH使不同的實體在不同的關係下擁有了不同的表示形式,但由於實體向量被投影到了關係的語義空間中,故它們具有相同的維度。

transR

同一個實體有不同維度的語義,不同的關係所關注的實體的語義也不盡相同,因此認為將它們對映到同一個語義空間,在一定程度上就限制了模型的表達能力。

同為翻譯模型, 但與前面的不同在於, transR 先將實體與關係在各自的語義空間中分開建立各自的embedding, 然後, 通過第一個投影實體學習從實體空間到關係空間的embedding.

首先得到h,t在實體空間中的向量h,t,再為每一種關係r準備一個投影對映矩陣Mr,得到hr=hMr, 那麼評分函式就是

fr(h,t)=||hr+rtr||22
當三元組< h,r,t>成立時分數應該儘可能的小.
實踐中會對這些向量做強制正規化.

task

論文中的評估有以下三種任務.

對測試集中的(h,r,t), 將 ht 去掉, 使用fr()對所有的entity評分, 取得分最低的作為預測結果.
評測時取得分最低的10個entity, 得到 [email protected](%)作為指標..

triple binary classification

對於給定的(h,r,t), 通過fr()與閾值δr比較,判斷給定三元組是否成立. 是一個典型的二分類問題.

relation extraction from text

從文字中提取 relational fact(關係事實) , 來擴充已有的知識圖譜.

資料集

見參考[3].

參考

  1. github, Knowledge Graph Embeddings including TransE, TransH, TransR and PTransE,KB2E