1. 程式人生 > >如何使用向量代表文檔doc或者句子sentence

如何使用向量代表文檔doc或者句子sentence

版權 加權 投影 科研 信息 detail 問題 三方 average

1.“句向量”簡介
word2vec提供了高質量的詞向量,並在一些任務中表現良好。
關於word2vec的原理可以參考這幾篇論文:

https://arxiv.org/pdf/1310.4546.pdf
https://arxiv.org/pdf/1301.3781.pdf
關於如何使用第三方庫gensim訓練word2vec可以參考這篇博客:

http://blog.csdn.net/john_xyz/article/details/54706807
盡管word2vec提供了高質量的詞匯向量,仍然沒有有效的方法將它們結合成一個高質量的文檔向量。對於一個句子、文檔或者說一個段落,怎麽把這些數據投影到向量空間中,並具有豐富的語義表達呢?過去人們常常使用以下幾種方法:

bag of words
LDA
average word vectors
tfidf-weighting word vectors
就bag of words而言,有如下缺點:1.沒有考慮到單詞的順序,2.忽略了單詞的語義信息。因此這種方法對於短文本效果很差,對於長文本效果一般,通常在科研中用來做baseline。

average word vectors就是簡單的對句子中的所有詞向量取平均。是一種簡單有效的方法,但缺點也是沒有考慮到單詞的順序

tfidf-weighting word vectors是指對句子中的所有詞向量根據tfidf權重加權求和,是常用的一種計算sentence embedding的方法,在某些問題上表現很好,相比於簡單的對所有詞向量求平均,考慮到了tfidf權重,因此句子中更重要的詞占得比重就更大。但缺點也是沒有考慮到單詞的順序

LDA模型當然就是計算出一片文檔或者句子的主題分布。也常常用於文本分類任務,後面會專門寫一篇文章介紹LDA模型和doc2vec的本質不同
---------------------
作者:Johnson0722
來源:CSDN
原文:https://blog.csdn.net/John_xyz/article/details/79208564
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!

如何使用向量代表文檔doc或者句子sentence