知識圖譜表示學習
知識圖譜是一種精細化的異構網路, 所以對其節點與邊的表示學習也是一個熱門的問題. 這裡的學習依舊是得到它們的低維稠密向量. 這樣做的好處:
- 降低知識圖譜的高維性和異構性;
- 增強知識圖譜應用的靈活性;
- 減輕特徵工程的工作量;
- 減少由於引入知識圖譜帶來的額外計算負擔
網路學習有關的任務描述:
- link prediction
在社交網路等網路中, 預測出可能存在但尚未建立起的連結. - knowledge graph completion
同link prediction類似, 但還要精確預測出關係的具體型別.
翻譯模型簡介
在翻譯模型中, 將relation
視為從head
到tail
figure transE,transH,transR之間的比較
TransH模型嘗試通過不同的形式表示不同關係中的實體結構,對於同一個實體而言,它在不同的關係下也扮演著不同的角色。模型首先通過關係向量lr與其正交的法向量wr選取某一個超平面F, 然後將頭實體向量lh和尾實體向量lt法向量wr的方向投影到F, 最後計算損失函式。TransH使不同的實體在不同的關係下擁有了不同的表示形式,但由於實體向量被投影到了關係的語義空間中,故它們具有相同的維度。
transR
同一個實體有不同維度的語義,不同的關係所關注的實體的語義也不盡相同,因此認為將它們對映到同一個語義空間,在一定程度上就限制了模型的表達能力。
同為翻譯模型, 但與前面的不同在於, transR 先將實體與關係在各自的語義空間中分開建立各自的embedding, 然後, 通過第一個投影實體學習從實體空間到關係空間的embedding.
首先得到在實體空間中的向量,再為每一種關係r準備一個投影對映矩陣,得到, 那麼評分函式就是
當三元組< h,r,t>成立時分數應該儘可能的小.
實踐中會對這些向量做強制正規化.
task
論文中的評估有以下三種任務.
link prediction
對測試集中的(h,r,t)
, 將 h
或 t
去掉, 使用對所有的entity評分, 取得分最低的作為預測結果.
評測時取得分最低的10個entity, 得到 [email protected](%)
作為指標..
triple binary classification
對於給定的(h,r,t)
, 通過與閾值比較,判斷給定三元組是否成立. 是一個典型的二分類問題.
relation extraction from text
從文字中提取 relational fact(關係事實) , 來擴充已有的知識圖譜.
資料集
見參考[3].
參考
- github, Knowledge Graph Embeddings including TransE, TransH, TransR and PTransE,KB2E