論文筆記005-《Multi-view Knowledge Graph Embedding for Entity Alignment》
更多部落格可以關注MyBlog,歡迎大家一起學習交流!
1. 簡介
題目:《Multi-view Knowledge Graph Embedding for Entity Alignment》
來源:IJCAI-2019
連結:論文連結
程式碼:Code和Dataset
關鍵字:Entity Alignment、Embedding、Multi-view
2. 摘要
原先的實體對齊工作主要關注在實體的關係結構特徵,這就導致一些其他型別的特徵被忽視,例如其屬性(Attributes)特徵,由於沒有對這類特徵給予一樣的重要性,這會影響基於嵌入式的實體對齊工作的魯棒性和準確性。
作者基於上述的缺點,提出了一種新穎的框架,從實體名、關係、屬性
3.研究背景
傳統的方法:主要基於symbolic freature,如名字、文字描述、屬性值等來判斷實體的相似度。雖然有不錯的結果,但是還是有以下兩點限制:
- 實體有很多的特徵,但是目前只使用一種或者兩種。
- MTransE [Chen et al.,2017]、 IPTransE [Zhu et al., 2017] 、BootEA [Sun et al.,2018]均只是使用圖譜的關係結構進行嵌入表達;
- JAPE [Sun et al., 2017]、KDCoE[Chen et al., 2018]、AttrE [Trsedya et al., 2019]在上述基礎上使用了屬性值
- 實體對齊依賴於種子實體對。然而實際情況中一般不容易找到這樣的實體對,但是研究發現實體的對齊會受到關係和屬性值的對齊影響,而且現實中這兩類特徵對齊比較容易找到。
作者基於上述的兩個缺點,提出了MultiKE方法,分為3個部分:不同視角的嵌入學習;不同視角的推理;不同的整合視角的方式,其方法甚至可以進行無監督學習的方式進行實體對齊。
文中的Related Work的文段有對基於嵌入式的實體對齊方法發展的總結,可以詳細看一下。
4. 多視角的嵌入學習
4.1 模型的表述
作者通過分析將圖譜表示為
7
7
7 元組
G
=
(
E
,
R
,
A
,
V
,
N
,
X
,
Y
,
)
\mathcal{G = ( E,R, A,V, N,X, Y,)}
4.2 文字的嵌入
文字是由一段字元和標點組成的序列,即tokens,作為多視角的嵌入的基礎,其中
l
=
(
o
1
,
o
2
,
⋯
,
o
n
)
l = (o_1,o_2,\cdots,o_n)
l=(o1,o2,⋯,on) 表示輸入的文字的序列,我們使用
L
P
(
⋅
)
LP(\cdot)
LP(⋅) 來生成嵌入向量。其函式如下:
L
P
(
o
i
)
=
{
w
o
r
d
_
e
m
b
e
d
(
o
i
)
,
i
f
o
i
h
a
s
a
w
o
r
d
e
m
b
e
d
d
i
n
g
c
h
a
r
_
e
m
b
e
d
(
o
i
)
,
o
t
h
e
r
w
i
s
e
(1)
LP(o_i) = \begin{cases} word\_embed(o_i),if\,o_i\,has\,a\,word\,embedding\\ char\_embed(o_i), otherwise \end{cases} \tag 1
LP(oi)={word_embed(oi),ifoihasawordembeddingchar_embed(oi),otherwise(1)
作者這裡使用了別人已經訓練好的字嵌入模型,對於
w
o
r
d
_
e
m
b
d
e
(
⋅
)
word\_embde(\cdot)
word_embde(⋅) 採用[Mikolov et al.,2018] 的訓練好的詞嵌入資料,而對於
c
h
a
r
_
e
m
b
d
e
(
⋅
)
char\_embde(\cdot)
char_embde(⋅) 的採用 Skip-Gram model [Mikolov et al., 2013]。我們將使用函式
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 表示,利用
A
u
t
o
−
E
n
c
o
d
e
r
Auto-Encoder
Auto−Encoder 以無監督的方式將
t
o
k
e
n
s
tokens
tokens 嵌入編碼為
l
i
t
e
r
a
l
literal
literal 嵌入:
ϕ
(
l
)
=
e
n
c
o
d
e
(
[
L
P
(
o
1
)
;
L
P
(
o
2
)
;
⋯
;
L
P
(
o
n
)
]
)
(2)
\phi(l) = encode([LP(o_1);LP(o_2);\cdots;LP(o_n)]) \tag 2
ϕ(l)=encode([LP(o1);LP(o2);⋯;LP(on)])(2)
其中的“;”表示串接操作,這裡作者限制輸入字元數
n
n
n 為5,多的擷取掉,少的補充佔位符。
4.3 實體名視角嵌入
採用上面文字嵌入方法,實體名的嵌入表達如下:
h
(
1
)
=
ϕ
(
n
a
m
e
(
h
)
)
(3)
h^{(1)} = \phi(name(h)) \tag 3
h(1)=ϕ(name(h))(3)
其中
n
a
m
e
(
⋅
)
name(\cdot)
name(⋅) 表示對實體名的提取,文中規定長度為5,變數上的
(
1
)
^{(1)}
(1) 代表的是實體名視角,
Θ
(
1
)
\Theta^{(1)}
Θ(1)作為實體名視角的表示,下面的類似。
4.4 關係視角嵌入
對於關係視角,作者採用了TransE[Bordes et al., 2013]的模型
(
h
,
r
,
t
)
(h,r,t)
(h,r,t) ,把關係看成兩個實體之間的轉換向量。作者採用如下方式來評價關係的合理性:
f
r
e
l
(
h
(
2
)
,
r
,
t
(
2
)
)
=
−
∣
∣
h
(
2
)
+
r
−
t
(
2
)
∣
∣
(4)
f_{rel}(h^{(2)},r,t^{(2)}) = - ||h^{(2)}\,+\,r\,-t^{(2)}|| \tag 4
frel(h(2),r,t(2))=−∣∣h(2)+r−t(2)∣∣(4)
其定義了方程
5
5
5 來描述其關係的可能性:
P
r
e
l
(
ζ
(
h
,
r
,
t
)
=
1
∣
Θ
(
2
)
)
=
s
i
g
m
o
i
d
(
f
r
e
l
(
h
(
2
)
,
r
,
t
(
2
)
)
)
(5)
P_{rel}(\zeta_{(h,r,t)}=1\,|\, \Theta^{(2)})=sigmoid(f_{rel}(h^{(2)},r,t^{(2)})) \tag 5
Prel(ζ(h,r,t)=1∣Θ(2))=sigmoid(frel(h(2),r,t(2)))(5)
其中
Θ
(
2
)
\Theta^{(2)}
Θ(2) 表示關係視角下的表示,而
ζ
(
h
,
r
,
t
)
\zeta_{(h,r,t)}
ζ(h,r,t) 則是對關係組
(
h
,
r
,
t
)
(h,r,t)
(h,r,t) 的標籤,取值為
1
1
1 或者
−
1
-1
−1 ,這樣情況下就通過最小化下面的邏輯損失函式求解引數
Θ
(
2
)
\Theta^{(2)}
Θ(2) :
L
(
Θ
(
2
)
)
=
∑
(
h
,
r
,
t
)
∈
X
+
∪
X
−
l
o
g
(
1
+
e
x
p
(
−
ζ
(
h
,
r
,
t
)
∗
f
r
e
l
(
h
(
2
)
,
r
,
t
(
2
)
)
)
)
(6)
L(\Theta^{(2)}) = \sum_{(h,r,t)\in X^+ \cup X^-} log(1 \,+\,exp(-\zeta_{(h,r,t)}*f_{rel}(h^{(2)},r,t^{(2)}))) \tag 6
L(Θ(2))=(h,r,t)∈X+∪X−∑log(1+exp(−ζ(h,r,t)∗frel(h(2),r,t(2))))(6)
其中
X
+
=
X
a
+
X
b
X^+ = X_a + X_b
X+=Xa+Xb 表示在兩個KG中的正確關係事實,而
X
−
X^-
X− 則是隨機替換頭實體或者尾實體的負樣本。
4.5 屬性視角嵌入
對於屬性視角,作者將其屬性和屬性值整合進一個矩陣
⟨
a
;
v
⟩
∈
R
2
×
d
\left \langle a;v \right \rangle \in R^{2\times d}
⟨a;v⟩∈R2×d ,將其輸入一個CNN網路去提取特徵:
C
N
N
(
⟨
a
;
v
⟩
)
=
σ
(
v
e
c
(
σ
(
⟨
a
;
v
⟩
∗
Ω
)
W
)
(7)
CNN(\left \langle a;v \right \rangle) = \sigma(vec(\sigma(\left \langle a;v \right \rangle*\Omega)W) \tag 7
CNN(⟨a;v⟩)=σ(vec(σ(⟨a;v⟩∗Ω)W)(7)
其中的卷積核是
2
×
c
,
c
<
d
2 \times c, c<d
2×c,c<d 的大小,
v
e
c
(
⋅
)
vec(\cdot)
vec(⋅) 是將其變形為一個向量,然後採用全連線的矩陣
W
W
W 輸出表示。對於屬性的合理性判斷採用如下方程:
f
a
t
t
r
(
h
(
3
)
,
a
,
v
)
=
−
∣
∣
h
(
3
)
−
C
N
N
(
⟨
a
;
v
⟩
)
∣
∣
(8)
f_{attr}(h^{(3)},a,v) = -||h^{(3)} - CNN(\left \langle a;v \right \rangle)|| \tag 8
fattr(h(3),a,v)=−∣∣h(3)−CNN(⟨a;v⟩)∣∣(8)
基於上述的分析,其頭結點希望和屬性和屬性值儘可能接近,這個通過如下損失函式獲取:
L
(
Θ
(
3
)
)
=
∑
(
h
,
r
,
t
)
∈
Y
+
l
o
g
(
1
+
e
x
p
(
−
f
a
t
t
r
(
h
(
3
)
,
a
,
v
)
)
(9)
L(\Theta^{(3)}) = \sum_{(h,r,t)\in Y^+} log(1 \,+\,exp(-f_{attr}(h^{(3)},a,v)) \tag 9
L(Θ(3))=(h,r,t)∈Y+∑log(1+exp(−fattr(h(3),a,v))(9)
5. 跨KG的實體對齊訓練
本部分針對種子實體對進行訓練模型,同時作者提出了對關係和屬性的推理部分,進而進一步增強實體對齊的準確性。
5.1 實體推理
作者通過種子對中的實體對來增加存在的聯絡,比如在關係
(
h
,
r
,
t
)
(h,r,t)
(h,r,t) 中,實體對
(
h
,
h
^
)
(h,\hat{h})
(h,h^) 存在於種子中,那麼我們可以增加附加的表示式:
P
r
e
l
′
(
ζ
(
h
,
r
,
t
)
=
1
∣
Θ
(
2
)
)
=
s
i
g
m
o
i
d
(
f
r
e
l
(
h
^
(
2
)
,
r
,
t
(
2
)
)
)
(10)
P_{rel}^{\prime}(\zeta_{(h,r,t)}=1\,|\, \Theta^{(2)})=sigmoid(f_{rel}(\hat{h}^{(2)},r,t^{(2)})) \tag {10}
Prel′(ζ(h,r,t)=1∣Θ(2))=sigmoid(frel(h^(2),r,t(2)))(10)
P r e l ′ ′ ( ζ ( h , r , t ) = 1 ∣ Θ ( 2 ) ) = s i g m o i d ( f r e l ( h ( 2 ) , r , t ^ ( 2 ) ) ) (11) P_{rel}^{\prime\prime}(\zeta_{(h,r,t)}=1\,|\, \Theta^{(2)})=sigmoid(f_{rel}(h^{(2)},r,\hat{t}^{(2)})) \tag {11} Prel′′(ζ(h,r,t)=1∣Θ(2))=sigmoid(frel(h(2),r,t^(2)))(11)
所以相應的損失函式變為,這個表示式和前面的式子
6
6
6 還是有點點差別,少了負樣本:
L
C
E
(
Θ
(
2
)
)
=
∑
(
h
,
r
,
t
)
∈
X
′
l
o
g
(
1
+
e
x
p
(
−
f
r
e
l
(
h
^
(
2
)
,
r
,
t
(
2
)
)
)
)
+
∑
(
h
,
r
,
t
)
∈
X
′
′
l
o
g
(
1
+
e
x
p
(
−
f
r
e
l
(
h
(
2
)
,
r
,
t
^
(
2
)
)
)
)
(12)
L_{CE}(\Theta^{(2)}) = \sum_{(h,r,t)\in X^{\prime}} log(1 \,+\,exp(-f_{rel}(\hat{h}^{(2)},r,t^{(2)})))\,+\,\sum_{(h,r,t)\in X^{\prime\prime}} log(1 \,+\,exp(-f_{rel}(h^{(2)},r,\hat{t}^{(2)}))) \tag {12}
LCE(Θ(2))=(h,r,t)∈X′∑log(1+exp(−frel(h^(2),r,t(2))))+(h,r,t)∈X′′∑log(1+exp(−frel(h(2),r,t^(2))))(12)
相應的屬性的裡面的實體推理損失函式變為:
L
C
E
(
Θ
(
3
)
)
=
∑
(
h
,
r
,
t
)
∈
Y
′
l
o
g
(
1
+
e
x
p
(
−
f
a
t
t
r
(
h
^
(
3
)
,
a
,
v
)
)
(13)
L_{CE}(\Theta^{(3)}) = \sum_{(h,r,t)\in Y^{\prime}} log(1 \,+\,exp(-f_{attr}(\hat{h}^{(3)},a,v)) \tag {13}
LCE(Θ(3))=(h,r,t)∈Y′∑log(1+exp(−fattr(h^(3),a,v))(13)
5.2 關係和屬性的推理
類似上面相似的處理原理,對於關係
(
h
,
r
,
t
)
(h,r,t)
(h,r,t) 中,關係對
(
r
,
r
^
)
(r,\hat{r})
(r,r^) ,採用如下表達式:
P
r
e
l
′
′
′
(
ζ
(
h
,
r
,
t
)
=
1
∣
Θ
(
2
)
)
=
s
i
g
m
o
i
d
(
f
r
e
l
(
h
(
2
)
,
r
^
,
t
(
2
)
)
)
(14)
P_{rel}^{\prime\prime\prime}(\zeta_{(h,r,t)}=1\,|\, \Theta^{(2)})=sigmoid(f_{rel}(h^{(2)},\hat{r},t^{(2)})) \tag {14}
Prel′′′(ζ(h,r,t)=1∣Θ(2))=sigmoid(frel(h(2),r^,t(2)))(14)
但是不和原先的論文中假設不一樣,存在對齊的關係和屬性的種子。作者採用了一種
s
o
f
t
\bf soft
soft 的對齊方式去自動對齊關係和屬性。作者不採用嚴格的對齊要求,在[Cheatham and Hitzler, 2014]中說明了發現對齊的關係和屬性更難,作者採用一個閾值來確定兩者的對齊性:
S
r
e
l
=
{
(
r
,
r
^
,
s
i
m
(
r
,
r
^
)
)
∣
s
i
m
(
r
,
r
^
)
≥
η
}
S_{rel} = \{(r,\hat{r},sim(r,\hat{r})) \, |\,sim(r,\hat{r}) \geq \ \eta \}
Srel={(r,r^,sim(r,r^))∣sim(r,r^)≥η} ,對於屬性之間的相似度大於閾值的就認為是對齊的,這裡考慮兩種相似度:基於文字的相似度和基於關係嵌入的相似度
s
i
m
(
r
,
r
^
)
=
α
1
c
o
s
(
ϕ
(
n
a
m
e
(
r
)
)
,
ϕ
(
n
a
m
e
(
r
^
)
)
)
+
α
2
c
o
s
(
r
,
r
^
)
(15)
sim(r,\hat{r}) = \alpha_1\,cos(\phi(name(r)),\phi(name(\hat{r})))\,+\alpha_2\,cos(r,\hat{r}) \tag {15}
sim(r,r^)=α1cos(ϕ(name(r)),ϕ(name(r^)))+α2cos(r,r^)(15)
其中
α
1
α
2
>
0
,
α
1
+
α
2
=
1
\alpha_1\,\alpha_2 > 0 ,\alpha_1 + \alpha_2 = 1
α1α2>0,α1+α2=1 ,為了緩解其對齊的不準確性,作者採用了下列方程作為損失函式:
L
C
R
A
(
Θ
(
2
)
)
=
∑
(
h
,
r
,
t
)
∈
X
′
′
′
s
i
m
(
r
,
r
^
)
l
o
g
(
1
+
e
x
p
(
−
f
r
e
l
(
h
(
2
)
,
r
^
,
t
(
2
)
)
)
)
(16)
L_{CRA}(\Theta^{(2)}) = \sum_{(h,r,t)\in X^{\prime\prime\prime}} sim(r,\hat{r})\,log(1 \,+\,exp(-f_{rel}(h^{(2)},\hat{r},{t}^{(2)}))) \tag {16}
LCRA(Θ(2))=(h,r,t)∈X′′′∑sim(r,r^)log(1+exp(−frel(h(2),r^,t(2))))(16)
其中的關係對在訓練過程中實時迭代更新,同時對於屬性的推理的損失函式類似,記為
L
C
R
A
(
Θ
(
3
)
)
L_{CRA}(\Theta^{(3)} )
LCRA(Θ(3))。
6. 多視覺的整合
6.1 Weighted View Averaging
一種簡單的整合方式就是計算平均值,但是這個可能會受某一個極端偏差帶來影響,我們可以對其先求出平均值 h ‾ = 1 D ∑ j = 1 D h ( j ) \overline{h} = \frac{1}{D}\sum^{D}_{j=1}h^{(j)} h=D1∑j=1Dh(j) ,其中的 D D D 代表視覺的數目,然後計算各自與平均值的相似度,進而計算出各自的權重 w i = c o s ( h ( i ) , h ‾ ) ∑ j = 1 D c o s ( h ( j ) , h ‾ ) w_i=\frac{cos(h^{(i)},\overline{h})}{\sum^{D}_{j=1}cos(h^{(j)},\overline{h})} wi=∑j=1Dcos(h(j),h)cos(h(i),h) ,然後求出其表示 h ~ = ∑ i = 1 D w i h ( i ) \tilde{h}= \sum^{D}_{i=1}w_ih^{(i)} h~=∑i=1Dwih(i) 。
6.2 Shared Space Learning
作者基於一種各種視覺的嵌入表達來自一個共享的隱藏的視覺的假設,對每個視覺尋找一個正交矩陣將其變換到共享的空間中來,其中
H
~
\tilde{H}
H~ 是所有實體的嵌入表達結合的矩陣,每一行代表一個實體,
H
(
i
)
H^{(i)}
H(i) 是第
i
i
i 個視覺的嵌入表達,其求下面的最小化損失函式:
L
S
S
L
(
H
~
,
Z
)
=
∑
i
=
1
D
(
∣
∣
H
~
−
H
(
i
)
Z
(
i
)
∣
∣
F
2
+
∣
∣
I
−
Z
(
i
)
⊤
Z
(
i
)
∣
∣
F
2
)
(17)
L_{SSL}(\tilde{H},Z)=\sum_{i=1}^{D}(||\tilde{H}-H^{(i)}Z^{(i)}||^{2}_{F}+||I-Z^{(i)\top}Z^{(i)}||^{2}_{F}) \tag {17}
LSSL(H~,Z)=i=1∑D(∣∣H~−H(i)Z(i)∣∣F2+∣∣I−Z(i)⊤Z(i)∣∣F2)(17)
其中
Z
=
∪
i
=
1
D
Z
(
i
)
Z=\cup^{D}_{i=1}Z^{(i)}
Z=∪i=1DZ(i) ,
Z
(
i
)
Z^{(i)}
Z(i) 的作用是一個轉換矩陣,將各自視覺的表達轉換到共享的空間中,然後等式的第二部分主要是保證轉換矩陣的正交化,保證轉換能夠保持原先實體之間的距離相對關係。
6.3 In-training Combination
作者上述的整合方式都是在週期訓練完成後才整合,為了進一步使各種視角時間互相吸收特徵,作者想出了一種在訓練過程中就不斷整合的策略,其損失函式如下:
L
I
T
C
(
H
~
,
H
)
=
∑
i
=
1
D
∣
∣
H
~
−
H
(
i
)
∣
∣
F
2
(18)
L_{ITC}(\tilde{H},H)=\sum_{i=1}^{D}||\tilde{H}-H^{(i)}||^{2}_{F} \tag {18}
LITC(H~,H)=i=1∑D∣∣H~−H(i)∣∣F2(18)
其中
H
=
∪
i
=
1
D
H
(
i
)
H=\cup^{D}_{i=1}H^{(i)}
H=∪i=1DH(i) ,其目標是最大化該損失函式。
6.4 Combined Training Process
其整合過程如下圖,注意的是其姓名的嵌入表達在後續訓練過程中不會更新:
7. 實驗結果
- 資料集
來自**DBP-WD和DBP-YG(Sun et al., 2018)**的兩個資料集,其使用30%作為種子實體對。
- 實驗結果
結果如圖所示:
同時作者進行了對照試驗在推理上面的對比,以及在無監督上的實體對齊任務比較。
整體來說,作者提出的多視角實體對齊方案相比已有的方法有了很大的提升,而且思路的解釋性很強,對相應的策略做了實驗加以驗證解釋,後續作者研究想增加視覺角度,如實體的類別等,以及嘗試跨語言進行實體對齊。