1. 程式人生 > >NLP︱高階詞向量表達(三)——WordRank(簡述)

NLP︱高階詞向量表達(三)——WordRank(簡述)

查詢king關鍵詞,WordRank 、 word2vec、fastText三者效果對比:
這裡寫圖片描述
WordRank 、fastText都相對比較精準“crowned”、“throne”,而不是word2vec的“Canute”

.
.

1、wordRank,與 word2vec、fastText三者對比

來源部落格:《WordRank embedding: “crowned” is most similar to “king”, not word2vec’s “Canute”》
根據Ranking演算法得到的wordRank,與 word2vec、fastText三者對比
這裡寫圖片描述


在不同的專案需求上,有著不同的訓練精度,在句法表達上,fastText更好,而在單個詞語的相似性等內容表達上wordRank是三者中最好的。
同時隨著資料量的增加精度呈現增長的趨勢。
.
.

2、wordRank,與 word2vec、GloVe三者對比

  • (1)精度

這裡寫圖片描述

左圖使用資料:WS-353 word similarity benchmark
右圖使用資料:Google word analogy benchmark
從兩個資料集的效果來看,wordRank效果極佳

  • (2)詞類比與詞相似比較

這裡寫圖片描述
相似詞的尋找方面極佳,詞類比方面不同資料集有不同精度。

結論:

  • 1.在語義類比中,三種模型在低頻詞語上表現相對較差,在高頻詞語上表現效果較好;
  • 2.在語法類比中,FastText優於Word2Vec和WordRank 。FastText模型在低頻詞語上表現的相當好,但是當詞頻升高時,準確率迅速降低,而WordRank和Word2Vec在很少出現和很頻繁出現的詞語上準確率較低;
  • 3.FastText在綜合類比中表現更好,最後一幅圖說明整體類比結果與語法類比的結果比較相似,因為語法類比任務的數量遠遠多於語義類比,所以在綜合結果中語法類比任務的結果佔有更大的權重;
  • 4、WordRank在語義類比任務上效果優於其他兩種模型,而FastText在語法類比上效果更好。值得一提的是,如果用WordRank模型生成兩個集合(詞集合和上下文集合),WordRank使用它們詞向量的內積對他們之間的關係建模,內積和他們之間的關係是直接成比例的,如果該詞和上下文越相關,內積就會越大

綜上,WordRank更適合語義類比,FastText更適合不同語料庫下所有詞頻的語法類比。

.

高階詞向量三部曲: