Word2vec tutorial-the skip gram &Word2Vec Tutorial Part 2 - Negative Sampling 文章講解

阿新 • • 發佈：2018-12-12

Word2vec tutorial-the skip gram

1.總述：

建立一個簡單的神經網路，一個輸入層，一個隱藏層，一個輸出層，

我們只需要得到有效的隱藏層的權重即可。

2.構建資料：

使用word pairs作為一個訓練組（w1,w2）

輸入一個單詞，輸出其上下文單詞。

3.訓練：

輸入w1的one-hot表示，輸出所有詞的概率分佈（通過softmax得到），取概率最大的那個詞w*作為神經網路的輸出詞。

4.獲取詞向量：

Hidden layer weight matrix即為詞向量

注意：

神經網路不考慮輸出詞相對於輸出詞的位置資訊相似上下文的單詞，其詞向量也會相似。

5.分散式方法的限制：

5.1相似性的定義；不同語境下其效果會變差，即相似性並不只侷限於其上下文的相似性，分散式的假設並沒有那麼的魯棒。

5.2害群之馬；許多詞的“瑣碎”屬性不會反映在文字中

5.3反義詞；基於分散式的假設的模型趨向於認為反義詞之間非常的相似

5.4語料庫的偏好；

5.5語境缺乏；詞的含義依賴於上下文（語境），對於所有的形式都是用統一個向量是有問題的。

Word2Vec Tutorial Part 2 - Negative Sampling

1.問題：

對於擁有10000個不重複單詞，每個單詞300維的特徵，其weight的個數為300million，如此多的數量，作梯度下降必然十分的slow.

2.詞向量訓練的優化方式：

2.1把具有普遍意義的片語作為一個單詞

例如：Boston Globe 比單個的Boston和Globe更有意義在組成phrase之前，每對單詞出現在訓練文字的次數，都將決定是否組成phrase

2.2Subsampling Frequent Words

對頻繁的單詞進行子取樣比如（fox,the），這個pairs對fox的含義並沒有太大的

貢獻，同時由於the出現的太頻繁，含有the的pairs的訓練對於the的詞向量的貢獻已經過飽和了。故在訓練時，根據這個單詞出現的頻率決定其在訓練時被刪除的概率。

詞的保留概率公式如下：

x->詞頻，公式的結果表示其保留的概率。即word的詞頻越大，

其保留的概率越低。

2.3negative sampling

訓練時，由於在一次bp中需要對所有的引數求梯度，故速度太慢，所以每次只對部分的weight求導，更新部分Weight(對本應輸出1的神經元（‘positive’）和其他n個本應輸出0的神經元(‘negative’))，出現頻率越高的詞其越有可能被選作為negative samples

如何選擇negative sample?

構建一個長度為n的table，根據每個單詞的出現頻率P(w)（f(wi)為word count），計算一個單詞填充該單詞的index多少次：n*P(w)，從中選擇單詞的在table中的index，其表示的word即為negative sample.

Reference:

[1]http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

[2]http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative-sampling/

[3]《Neural Network Methods in Natural Language Processing》chapter 10

Word2vec tutorial-the skip gram &Word2Vec Tutorial Part 2 - Negative Sampling 文章講解

Word2vec tutorial-the skip gram 1.總述：建立一個簡單的神經網路，一個輸入層，一個隱藏層，一個輸出層，我們只需要得到有效的隱藏層的權重即可。 2.構建資料： &nb

word2vec:CBOW和skip-gram模型

預測構造結束 input 初始 cbo 進行模型重復 1.CBOW模型之前已經解釋過，無論是CBOW模型還是skip-gram模型，都是以Huffman樹作為基礎的。值得註意的是，Huffman樹中非葉節點存儲的中間向量的初始化值是零向量，而葉節點對應的單詞的詞向

深度學習（五）cbow、skip-gram of word2vec

介紹 NLP 自然語言處理即讓計算機理解學會人類語言，讓計算機像人一樣能有分辨能力、語言交流能力，併為我們服務產生價值的一種研究方向，從發展歷史來說經過了很多代人的努力，向我們的目標更近了一步，從傳統的基於規則

Bridging the Deployment Gap for Deep Learning (Part 2)

From Exploration to Production — Bridging the Deployment Gap for Deep Learning (Part 2)This is the second part of a series of two blogposts on deep learnin

An In-Depth Look into the Win32 Portable Executable File Format, Part 2

ast month in Part 1 of this article, I began a comprehensive tour of Portable Executable (PE) files. I described the history of PE files and the data stru

word2vec模型cbow與skip-gram的比較

老師使用調整窗口詞向量 word 算法實現 ont 原理 cbow和skip-gram都是在word2vec中用於將文本進行向量表示的實現方法，具體的算法實現細節可以去看word2vec的原理介紹文章。我們這裏大體講下兩者的區別，尤其註意在使用當中的不同特點。在c

word2vec原理(一) CBOW與Skip-Gram模型基礎

word2vec是google在2013年推出的一個NLP工具，它的特點是將所有的詞向量化，這樣詞與詞之間就可以定量的去度量他們之間的關係，挖掘詞之間的聯絡。雖然原始碼是開源的，但是谷歌的程式碼庫國內無法訪問，因此本文的講解word2vec原理以Github上的wor

自己動手寫word2vec (四):CBOW和skip-gram模型

CBOW和skip-gram應該可以說算是word2vec的核心概念之一了。這一節我們就來仔細的闡述這兩個模型。其實這兩個模型有很多的相通之處，所以這裡就以闡述CBOW模型為主，然後再闡述skip-gram與CBOW的不同之處。這一部分的程式碼放在p

No.1 基於Negative Sampling SKip-Gram Word2vec模型學習總結

基於Negative Sampling SKip-Gram Word2vec模型學習總結 1. Word2vec簡介 Word2Vec是從大量文字語料中以無監督的方式學習語義知識的一種模型，它被大量地用在自然語言處理（NLP）中。那麼它是如何幫助我們做自

Word2vec之CBOW模型和Skip-gram模型形象解釋

Word2vec中兩個重要模型是：CBOW和Skip-gram模型首先Wordvec的目標是：將一個詞表示成一個向量這裡首先說下我對CBOW模型的理解這是主要是舉個例子簡化下首先說下CBOW的三層結構：輸入層，投影層（中間層），輸出層假設語料庫有10個詞: 【今天，我，你，他

【轉】漫談Word2vec之skip-gram模型

word2vec是Google研究團隊的成果之一，它作為一種主流的獲取分散式詞向量的工具，在自然語言處理、資料探勘等領域有著廣泛的應用。達觀資料的文字挖掘業務有些地方就使用了該項技術。本文從以下幾個方面簡要介紹Word2vec的skip-gram模型：第一部分

Word2Vec概述與基於Hierarchical Softmax的CBOW和Skip-gram模型公式推導

該文件是我在《Word2Vec_中的數學原理詳解》基礎上做的總結和一些新的描述，增加了程式碼與公式的對照和公式總彙（公式太多，彙總下看起來更方便），可以更加方便的加深對程式碼和公式理解。既然是總結，則一些很基礎的知識我沒有寫到，如果裡面的有些概念不熟悉，也可

word2vec skip-gram

這篇教程涵蓋了word2vec的skip-gram神經網路結構。模型 Word2Vec使用了在其他機器學習中也會看到的技巧。我們使用單隱藏層的簡單神經網路來執行某個特定任務，但我們不是為了這個任務來使用這個神經網路。我們的目標是隱藏層的權重，這些權重就是詞向量。

word2vec中CBOW和Skip-Gram訓練模型的原理

前言word2vec如何將corpus（語料庫）的one-hot向量（模型的輸入）轉換成低維詞向量（模型的中間產物，更具體來說是輸入權重矩陣），真真切切感受到向量的變化，暫不涉及加速演算法。CBOW模型根據中心詞W(t)周圍的詞來預測中心詞：Skip-gram模型則根據中心詞

word2vec之tensorflow（skip-gram）實現

關於word2vec的理解，推薦文章https://www.cnblogs.com/guoyaohua/p/9240336.html 程式碼參考https://github.com/eecrazy/word2vec_chinese_annotation 我在其基礎上修改了錯誤的部分，並添加了一些註釋。程式碼

[KF2][Mut&Gm Tutorial]Modding第二步：開始制作你的第一個簡易Mutator

是否 info one 重寫 nat game 運行跟著 lis 在這之前請確保 [KF2][Mut&Gm Tutorial]Modding第一步：設置好KF2的UnrealScript編譯環境如果你是一個電腦愛好者但是沒有編程基礎，請打開記事本或者npp跟著學

RNN & Word2Vec

無法 nta 模型以及模板 cnn 因此長時間傳統 RNN（Recurrent Netural Network）循環神經網絡，用來處理和預測序列數據，在語音識別，語言描述，翻譯等領域有很好的運用。傳統神經網絡結構如CNN是假設所有的input之間是相互獨立的，ou

NLP之WE之CBOW&Skip-Gram：CBOW&Skip-Gram演算法概念相關論文、原理配圖、關鍵步驟詳細攻略

NLP之WE之CBOW&Skip-Gram：CBOW&Skip-Gram演算法相關論文、原理配圖、關鍵步驟詳細攻略 CBOW&Skip-Gram演算法相關論文 CBOW 模型和Skip-Gram 模型，參考論文《Efficient Estimation of Wo

A tutorial on binary descriptors – part 2 – The BRIEF descriptor（轉）

A tutorial on binary descriptors – part 2 – The BRIEF descriptor Following the previous posts that provided both an introduction to patch

快速熟悉one-hot，N-gram，word2vec模型

在自然語言處理領域，最開始的學習肯定繞不開one-hot，N-gram，word2vec。下文會快速，簡要的介紹這兩種技術，至於更多的技術細節，可以參考文章最後的參考文獻。在閱讀了本篇文章後，讀者應該能夠達到如下幾個目的： 1.明白one-hot，N-gram，word2v

Word2vec tutorial-the skip gram &Word2Vec Tutorial Part 2 - Negative Sampling 文章講解

Word2vec tutorial-the skip gram

1.總述：

建立一個簡單的神經網路，一個輸入層，一個隱藏層，一個輸出層，

我們只需要得到有效的隱藏層的權重即可。

2.構建資料：

使用word pairs作為一個訓練組（w1,w2）

輸入一個單詞，輸出其上下文單詞。

3.訓練：

輸入w1的one-hot表示，輸出所有詞的概率分佈（通過softmax得到），取 概率最大的那個詞w*作為神經網路的輸出詞。

4.獲取詞向量：

Hidden layer weight matrix即為詞向量

注意：

神經網路不考慮輸出詞相對於輸出詞的位置資訊相似上下文的單詞，其詞向量也會相似。

5.分散式方法的限制：

5.1相似性的定義；不同語境下其效果會變差，即相似性並不只侷限於其上下文的相似性，分散式的假設並沒有那麼的 魯棒。

5.2害群之馬；許多詞的“瑣碎”屬性不會反映在文字中

5.3反義詞；基於分散式的假設的模型趨向於認為反義詞之間非常的相似

5.4語料庫的偏好；

5.5語境缺乏；詞的含義依賴於上下文（語境），對於所有的形式都是用統一個向量是有問題的。

Word2Vec Tutorial Part 2 - Negative Sampling

1.問題：

對於擁有10000個不重複單詞，每個單詞300維的特徵，其weight的個數為300million，如此多的數量，作梯度下降必然十分的slow.

2.詞向量訓練的優化方式：

2.1把具有普遍意義的片語作為一個單詞

例如：Boston Globe 比單個的Boston和Globe更有意義在組成phrase之前，每對單詞出現在訓練文字的次數，都將決定是否組成phrase

2.2Subsampling Frequent Words

對頻繁的單詞進行子取樣比如（fox,the），這個pairs對fox的含義並沒有太大的

貢獻，同時由於the出現的太頻繁，含有the的pairs的訓練對於the的詞向量的貢獻已經過飽和了。故在訓練時，根據這個單詞出現的頻率決定其在訓練時被刪除的概率。

詞的保留概率公式如下：

x->詞頻，公式的結果表示其保留的概率。即word的詞頻越大，

其保留的概率越低。

2.3negative sampling

如何選擇negative sample?

構建一個長度為n的table，根據每個單詞的出現頻率P(w)（f(wi)為word count），計算一個單詞填充該單詞的index多少次：n*P(w)，從中選擇單詞的在table中的index，其表示的word即為negative sample.

Reference:

[1]http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

[2]http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative-sampling/

[3]《Neural Network Methods in Natural Language Processing》chapter 10

相關推薦

輸入w1的one-hot表示，輸出所有詞的概率分佈（通過softmax得到），取概率最大的那個詞w*作為神經網路的輸出詞。

5.1相似性的定義；不同語境下其效果會變差，即相似性並不只侷限於其上下文的相似性，分散式的假設並沒有那麼的魯棒。