Artetxe2018CoNLL_Uncovering divergent linguistic information in word embeddings...
阿新 • • 發佈:2018-12-26
Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation
- 1. Abstract
- 2. Introduction
- 3. Proposed post-processing
- 4. Intrinsic evaluation
- 5. Extrinsic evaluation
- 6. Discussion
1. Abstract
- 一篇關於詞嵌入的論文
- 作者認為詞嵌入所能給出的資訊,遠超人們的想象
- 主要貢獻就是提出了詞嵌入的後處理,以及
階相似度矩的含義及計算方法
2. Introduction
- 詞嵌入是當下NLP領域的熱點之一,諸多用於訓練詞的密集向量表示的非監督學習方法已經被相繼提出,併成功用於句法分析、主題建模以及文字分類等領域
- 目前所有詞嵌入構建的基本思想都是,利用大型單語語料庫中的同現統計
- 但是如何定義“相似”,或者說嵌入模型應該捕捉詞語之間什麼樣的關係仍不明確。例如有些人將真實相似性(轎車-汽車)與關聯性(車-公路)加以區分,有些人認為應重點關注語義(唱歌-詠唱)和語法(sing-singing)相似度。總而言之,也就是將相似度衡量的兩個軸劃分為了語義/語法軸,相似/關聯軸。
3. Proposed post-processing
詞嵌入矩陣 | 第 個詞的嵌入向量 | 詞 和詞 的相似度 |
-
從上表可以得知,如果定義一個相似度矩陣 ,那麼顯然就有 。
-
基於上述定義的一階相似度量方法,可以延伸到二階相似,即相似度並不體現在兩個詞有多相似,而是這兩個詞與第三個詞有多相似(貓-哺乳動物,鯨魚-哺乳動物)。這種情況下,即便這兩個詞不是很相似,但如果它們同時與另外一個詞有著較高的相似度,我們就認為這兩個詞二階相似。以此類推,還有三階相似, 階相似等。
-
定義二階相似度矩陣 ,從而 ,並且可以看出 。同樣的, 階相似度矩陣 , 。
以 為例,也即詞1和詞2的二階相似度。根據 可知, ,也即詞1、詞2與所有詞的相似度的積和
-
將 做個特徵分解: , 為對角元素是 特徵值的正對角矩陣, 是相應特徵向量構成的正交矩陣。定義一個線性變換矩陣 ,令 ,則 。更一般的,
階相似度 引數 線性變換矩 階相似度矩