1. 程式人生 > >Artetxe2018CoNLL_Uncovering divergent linguistic information in word embeddings...

Artetxe2018CoNLL_Uncovering divergent linguistic information in word embeddings...

Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation

1. Abstract

  • 一篇關於詞嵌入的論文
  • 作者認為詞嵌入所能給出的資訊,遠超人們的想象
  • 主要貢獻就是提出了詞嵌入的後處理,以及 n n 階相似度矩的含義及計算方法

2. Introduction

  • 詞嵌入是當下NLP領域的熱點之一,諸多用於訓練密集向量表示的非監督學習方法已經被相繼提出,併成功用於句法分析、主題建模以及文字分類等領域
  • 目前所有詞嵌入構建的基本思想都是,利用大型單語語料庫中的同現統計
    co-occurrence statistics ),以及相似詞彙必定出現在相似文字環境中的分散式假設,將相似的向量表示分配給相似的詞彙
  • 但是如何定義“相似”,或者說嵌入模型應該捕捉詞語之間什麼樣的關係仍不明確。例如有些人將真實相似性(轎車-汽車)與關聯性(車-公路)加以區分,有些人認為應重點關注語義(唱歌-詠唱)和語法(sing-singing)相似度。總而言之,也就是將相似度衡量的兩個軸劃分為了語義/語法軸相似/關聯軸

3. Proposed post-processing

X
X
X i X_{i*} s i m ( i , j ) = X i X j sim(i,j)=X_{i*}·X_{j*}
詞嵌入矩陣 i i 個詞的嵌入向量 i i 和詞 j j 的相似度
  • 從上表可以得知,如果定義一個相似度矩陣 M ( X ) = X X T M(X)=XX^T ,那麼顯然就有 s i m ( i , j ) = M ( X ) i j sim(i,j)=M(X)_{ij}

  • 基於上述定義的一階相似度量方法,可以延伸到二階相似,即相似度並不體現在兩個詞有多相似,而是這兩個詞與第三個詞有多相似(貓-哺乳動物,鯨魚-哺乳動物)。這種情況下,即便這兩個詞不是很相似,但如果它們同時與另外一個詞有著較高的相似度,我們就認為這兩個詞二階相似。以此類推,還有三階相似 N N 階相似等。

  • 定義二階相似度矩陣 M 2 ( X ) = X X T X X T M_2(X)=XX^TXX^T ,從而 s i m 2 ( i , j ) = M 2 ( x ) i j sim_2(i,j)=M_2(x)_{ij} ,並且可以看出 M 2 ( X ) = M ( M ( X ) ) M_2(X)=M(M(X)) 。同樣的, N N 階相似度矩陣 M N ( X ) = ( X X T ) N M_N(X)=(XX^T)^N s i m N ( i , j ) = M N ( X ) i j sim_N(i,j)=M_N(X)_{ij}

    M 2 ( x ) 12 M_2(x)_{12} 為例,也即詞1和詞2的二階相似度。根據 M 2 ( X ) = X X T X X T M_2(X)=XX^TXX^T 可知, s i m 2 ( 1 , 2 ) = s i m ( 1 , 1 ) s i m ( 1 , 2 ) + s i m ( 1 , 2 ) s i m ( 2 , 2 ) + . . . + s i m ( 1 , n ) s i m ( n , 2 ) sim_2(1,2)=sim(1,1)*sim(1,2)+sim(1,2)*sim(2,2)+...+sim(1,n)*sim(n,2) ,也即詞1、詞2與所有詞的相似度的積和

  • X X T XX^T 做個特徵分解: X T X = Q Λ Q T X^TX=QΛQ^T Λ Λ 為對角元素是 X T X X^TX 特徵值的正對角矩陣 Q Q 是相應特徵向量構成的正交矩陣。定義一個線性變換矩陣 W = Q Λ W=Q\sqrtΛ ,令 X = X W X'=XW ,則 M ( X ) = M 2 ( X ) M(X')=M_2(X) 。更一般的,

    n n 階相似度 引數 α α 線性變換矩 W α W_α n n 階相似度矩 M n M_n
    n 1 n≥1 α = ( n 1 ) / 2 α=(n-1)/2