Glove:Global Vectors for Word Representation.
阿新 • • 發佈:2018-12-13
related work 1)global matric factorization 例如LSA(latent semantic analysis)雖然利用了statistics of the corpus,但在word analogy task上表現不好;LSA應用SVD的矩陣分解技術對大矩陣降維,但對所有單詞的統計權重都是一樣大的,而且計算代價很大。 2) local context window method 例如skip-gram,雖然better on analogy task,但只在local context window中訓練而忽略gloval co-ocurrence counts。
雖然很多人聲稱GloVe是一種無監督(unsupervised learing)的學習方式(因為它確實不需要人工標註label),但其實它還是有label的,這個label就是損失函式中的。 最終學習到的是和 ,因為X是對稱的,以從原理上講和是也是對稱的,他們唯一的區別是初始化的值不一樣,而導致最終的值不一樣。所以這兩者其實是等價的,都可以當成最終的結果來使用。但是為了提高魯棒性,我們最終會選擇兩者之和作為最終的vector(兩者的初始化不同相當於加了不同的隨機噪聲,所以能提高魯棒性)。 reference:https://blog.csdn.net/coderTC/article/details/73864097 https://www.fanyeong.com/2018/02/19/glove-in-detail/ https://zhuanlan.zhihu.com/p/42073620