HEER-Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

阿新 • • 發佈：2018-12-21

來源：KDD 2018 原文： HEER code： https://github.com/GentleZhu/HEER 注：若有錯誤，歡迎指正這篇KDD’18的文章，沒有按照常規的方法將所有的node嵌入到同一的空間，因為文章提出 node 因為連線的 edge 型別（type）不同，存在不相容（incompatibility）的特性，所以最好能夠根據不同的edge type來定義不同度量空間（metric space），保持同一個度量空間下，node的相容性。

1. Abstract

在本文中，作者認為異構資訊網路（HIN）中隱含著豐富資訊的同時也引入了潛在的不相容性，為了保留HIN中豐富但可能不相容的資訊，提出對HIN的綜合轉錄問題。還需要提供一種易於使用的方法來有效利用 HIN 中的資訊。本文提出HEER方法：通過對 HIN 的邊緣表示，與正確學習的異構度量相結合。

2. Introduction

網路嵌入學習節點的低維表示可以在原始網路中編碼其語義資訊，且容易和機器學習等方法相結合，可用於分類、鏈路預測。近來，研究人員證明了HIN 嵌入在作者識別等方面的有效性。

圖 1 Network Embedding HIN 異構性不僅包含豐富的資訊，還有潛在的不相容的語義。傳統的同構網路嵌入不論其型別，均等的處理所有節點和邊，不會捕捉 HIN 的異質性。如圖1，stan，musical，Ang Lee是不同型別的節點，因為musical和Ang Lee的embedding距離很遠，會導致stan無法同時和兩個embedding同時很近，因此需要學習兩個不同的度量空間，從而stan分別在兩個度量空間中與對應的node距離很近。

圖 2 異質網路嵌入學習中的不相容現象為解決該問題，本文在計算相似度 s 時提出度量向量 μ

該度量向量μ是對不同型別的關係來進行embedding，g_{uv}是表示u,v之間的邊的embedding。通過定義該相似度函式，能夠獲得基於不同邊型別r的相似度

3. 嵌入 HINs 的邊緣表示（HEER）

3.1. 方法思想

通過邊緣表示和耦合度量的可用性，得到反應邊的存在和型別的損失函式，通過最小化損失，同時更新節點嵌入、邊緣嵌入和異構度量，保持輸入HIN中的異質性。對不同的不相容程度建模，其中兩個邊緣型別越相似，對應的指標越相似。

綜合轉錄 HIN 中的嵌入資訊

解決 HINs 中的語義不相容
利用邊緣表示和異質矩陣
使用神經網路學習節點和邊的嵌入表示

3.2. 框架結構

圖 3 HEER模型框架結構

HIN Embedding 定義

輸入一個異質網路

通過F網路學習出node embedding

之後通過g函式來學習出邊的embedding

一對節點間可能有多種型別的邊，g(u,v) 包含此類關係

通過type之間的相似度，也就是定義的相似度函式和原始連線關係共同作為ground truth
最後訓練出網路引數，從而能夠學到網路的嵌入模型

型別接近度

對於每對節點（u，v）的邊緣嵌入 guv

μr 為特定型別嵌入表示，相容的邊型別共享相似的 μ

目標函式

（ KL 測量元權重和從嵌入表示得到的相似度間的差異）將（1）代入（2）考慮所有的邊型別，得到

4. Experiment

（邊緣剔除率為0.4時）

5. 總結

HEER模型，能夠建立異構網路中不同type之間的不相容性，這是一種新的嘗試，將不相容的性質提出並通過不同度量空間來表示。
HEER模型能夠同時學習網路中節點的node embedding和邊的edge embedding。

侷限性

沒有考慮更復雜的網路結構資訊，而是僅僅通過相鄰節點的關係來確定embedding，更復雜的關係可以通過meta-path來找到，這也可能成為該論文未來的研究方向。

參考：

KDD'18|異質資訊網路嵌入學習

HEER-Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

1. Abstract

2. Introduction