NLP︱高階詞向量表達（三）——WordRank（簡述）

阿新 • • 發佈：2019-01-06

查詢king關鍵詞，WordRank 、 word2vec、fastText三者效果對比：
這裡寫圖片描述
WordRank 、fastText都相對比較精準“crowned”、“throne”，而不是word2vec的“Canute”

.
.

1、wordRank，與 word2vec、fastText三者對比

來源部落格：《WordRank embedding: “crowned” is most similar to “king”, not word2vec’s “Canute”》
根據Ranking演算法得到的wordRank，與 word2vec、fastText三者對比
這裡寫圖片描述

在不同的專案需求上，有著不同的訓練精度，在句法表達上，fastText更好，而在單個詞語的相似性等內容表達上wordRank是三者中最好的。
同時隨著資料量的增加精度呈現增長的趨勢。
.
.

2、wordRank，與 word2vec、GloVe三者對比

（1）精度

這裡寫圖片描述

左圖使用資料：WS-353 word similarity benchmark
右圖使用資料：Google word analogy benchmark
從兩個資料集的效果來看，wordRank效果極佳

（2）詞類比與詞相似比較

這裡寫圖片描述
相似詞的尋找方面極佳，詞類比方面不同資料集有不同精度。

結論：

1.在語義類比中，三種模型在低頻詞語上表現相對較差，在高頻詞語上表現效果較好；
2.在語法類比中，FastText優於Word2Vec和WordRank 。FastText模型在低頻詞語上表現的相當好，但是當詞頻升高時，準確率迅速降低，而WordRank和Word2Vec在很少出現和很頻繁出現的詞語上準確率較低；
3.FastText在綜合類比中表現更好，最後一幅圖說明整體類比結果與語法類比的結果比較相似，因為語法類比任務的數量遠遠多於語義類比，所以在綜合結果中語法類比任務的結果佔有更大的權重；
4、WordRank在語義類比任務上效果優於其他兩種模型，而FastText在語法類比上效果更好。值得一提的是，如果用WordRank模型生成兩個集合（詞集合和上下文集合），WordRank使用它們詞向量的內積對他們之間的關係建模，內積和他們之間的關係是直接成比例的，如果該詞和上下文越相關，內積就會越大

綜上，WordRank更適合語義類比，FastText更適合不同語料庫下所有詞頻的語法類比。

高階詞向量三部曲：

NLP︱高階詞向量表達（三）——WordRank（簡述）

查詢king關鍵詞，WordRank 、 word2vec、fastText三者效果對比： WordRank 、fastText都相對比較精準“crowned”、“throne”，而不是word2vec的“Canute” . . 1、wo

NLP︱高階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實現、相關應用）

有很多改進版的word2vec，但是目前還是word2vec最流行，但是Glove也有很多在提及，筆者在自己實驗的時候，發現Glove也還是有很多優點以及可以深入研究對比的地方的，所以對其進行了一定的學習。部分學習內容來源於小象學院，由寒小陽老師授

基於w2v詞向量聚類出現的問題（有待解決）

cut 主題分詞問題 tmp kmean cab rain 如果 1.訓練詞向量代碼如下：#訓練詞語為向量表示def w2v_train(self): ques = self.cu.execute(‘select question from activity‘)#

POJ3977：Subset——題解（三分+折半搜索）

枚舉 cstring 不為 tdi bsp inline poj 折半 %d http://poj.org/problem?id=3977 題目大意：有一堆數，取出一些數，記他們和的絕對值為w，取的個數為n，求在w最小的情況下，n最小，並輸出w，n。 —&m

小作業（用戶登陸（三次機會重試））

valid 關閉 color body 密碼 put int 程序關閉 false 用戶登陸（三次機會重試） #print("請輸入賬號:%s\n 請輸入密碼:%s"%(inp_id,inp_pwd)) a = "2260683aaa" #這裏簡單了內置了一下用戶

#10013 曲線（三分法模板題）

ase ext namespace lin str scrip sel nts otto 【題目描述】　　　　明明做作業的時候遇到了 n 個二次函數 S?i??(x)=ax?2??+bx+c，他突發奇想設計了一個新的函數 F(x)=max{Si(x)},i=1…n。明

hdu 3001（三進制狀壓）

解法 spa image ret str name 代碼 pla src 題目解法看到這道題，我們就會想到旅行商問題。但是這裏每一個點可以經過最多兩次，所以我們用三進制表示就好了。代碼 #include <iostream> #include <

介面測試系列：工作中所用（三：__read_config.py檔案）

import os from common import fileUtil def __read_config(): base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) settings_file

快速排序（三數中值法）

package sort; public class QuickSort {//快速排序 public static void main(String[] args) { int[] array = {39,44,1,0,8,66,23,67,9,15,100,70,22,3,6,54

spring-boot（三.redis的整合使用）

spring boot對常用的資料庫支援外，對nosql 資料庫也進行了封裝自動化。 redis介紹 Redis是目前業界使用最廣泛的記憶體資料儲存。相比memcached，Redis支援更豐富的資料結構，例如hashes, lists, sets等，同時支援資料持久化。除此之外，Redis

linux指令（三、壓縮常用指令）

gzip [-cdtv#]檔名 :在預設的狀態下原本的檔案會被壓縮成為.gz的檔名，原始檔案就不再存在了選項與引數： -c ：將壓縮的資料輸出到螢幕上，可透過資料流重導向來處理； -d ：解壓縮的引數； -t ：可以用來檢驗一個壓縮檔的一致性～看看檔案有無錯誤； -v ：可以顯示出原檔案/壓縮檔案

spring cloud gateway（三、實現限流）

限流一般有兩個實現方式，令牌桶和漏桶金牌桶是初始化令牌（容器）的個數，通過拿走裡邊的令牌就能通過，沒有令牌不能報錯，可以設定向容器中增加令牌的速度和最大個數漏桶是向裡邊放入請求，當請求數量達到最大值後，丟棄，漏桶中的資料以一定速度流出，沒有則不流出金牌桶實現方式如下： pom <dependen

PostgreSQL應用（三，PostgreSQL常用子句）

一，ORDER BY子句 PostgreSQL ORDER BY子句用於按升序或降序對資料進行排序。資料在一列或多列的基礎上進行排序。語法： SELECT column-list FROM table_name [WHERE condition] [ORDER BY column1, co

spring cloud （三、服務提供者demo_provider）

spring cloud （一、服務註冊demo_eureka） spring cloud （二、服務註冊安全demo_eureka）

Linux bash篇（三資料流重定向）

1> 以覆蓋的方式將正確的資料輸出到檔案或裝置上 1>> 以追加的方式將正確的資料輸出到檔案或裝置上 2>

CS224n | 高階詞向量表示

試圖分析原理如何更有效地捕捉word2vec的本質關於詞向量表面的評估最後，你們實際上會很清楚如何去評估詞向量並且至少有兩種受驗方法來訓練他們複習函式是非凸的，所以初始值就很重要了 Skip -gram T對應需要遍歷語料庫的每個視窗

2018秋招面試問題（三、C++基礎問題）

注：面試過程中整理的學習資料，如有侵權聯絡我即刻刪除。目錄 C++中expicit的用法 explicit用來修飾類的建構函式（用在類內部的建構函式的宣告上），被修飾的建構函式的類，不能發生隱式型別轉換，

python3 web框架（三、MVC與MTV）

我們已經寫完了一個簡單的web框架，那麼這裡 def handle_index(): return ["<h1>hello web</h1>".encode('utf-8')] 返回的內容我們是自已一字串的形式寫出來的，那麼還可以去

Ubuntu 16.04下安裝VMware Tools（三行命令搞定）

三行命令搞定Ubuntu 16.04下安裝VMware Tools！！！！！！！！！由於下載的是ubuntu-16.04.3-desktop-amd64，需要安裝vmware tools，以往提取的那種方式比較麻煩，嗯，效率第一，就是如下這種方法！！！第一行命令：

填坑-微信小程式、商戶號申請，各種企鵝留下的坑（三個月親身經歷）

1. 小程式申請。現在微信公眾平臺分小程式、服務號、訂閱號三種，每種都用獨立的賬號登入。小程式是可以通過公眾號（分服務號、訂閱號）關聯認證的，只需先開通一個公眾號（服務號，訂閱號不行），交三百大洋，然後直接從公眾號關聯認證多個小程式，小程式的單獨認證費用可以免了。而如果單獨去開通，則每一個賬號認證需要各交三百

NLP︱高階詞向量表達（三）——WordRank（簡述）

1、wordRank，與 word2vec、fastText三者對比

2、wordRank，與 word2vec、GloVe三者對比

高階詞向量三部曲：

相關推薦