TensorFlow-9-詞的向量表示

阿新 • • 發佈：2019-01-12

這一節是關於 word2vec 模型的，可以用來學習詞的向量表達，也叫‘word embeddings’。

今天要看的是如何在 TensorFlow 中訓練詞向量，主要看一下這個程式碼：
tensorflow/examples/tutorials/word2vec/word2vec_basic.py

詞向量就是用一個具有一定維度的向量來表示一個單詞，這樣在分散式假設的思想下，我們可以認為出現在相同上下文情景中的詞彙都有類似的語義。

word2vec 可以很有效地從文字中學習出詞向量，主要有兩種演算法，Continuous Bag-of-Words model (CBOW) 和 Skip-Gram ，CBOW 根據上下文（’the cat sits on the’）來預測目標詞彙（例如，‘mat’），而 Skip-Gram 則相反，它通過已知的目標詞彙來預測上下文。

通常的 Neural probabilistic language 是通過極大似然法來條件概率：在給定前面語境的情況下，最大化目標詞的概率。
而在 word2vec 中不需要用全概率模型，而是用 logistic regression 來把真實的目標詞彙和製造的噪音詞彙分開。

目標函式就是，這個也叫 Negative Sampling,

即現在的 loss function 只和隨機選出來的 k 個噪聲單詞有關，而不是整個語料庫 V，這樣訓練比較快。

本節的程式碼就是用一個 Skip-gram 模型來訓練詞向量：

例如我們有資料集：
the quick brown fox jumped over the lazy dog
假設使用大小為1的視窗，這樣就得到這樣一個由(上下文, 目標單詞) 組成的資料集：
([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), …

Skip-Gram 模型是把目標單詞和上下文顛倒過來，因此資料集就變成由(輸入, 輸出)組成的：
(quick, the), (quick, brown), (brown, quick), (brown, fox), …

我們會計算每一對觀察值和噪聲值的損失函式，例如 sheep 就是個噪音：

整個計算的過程就是我們求出目標函式對 theta 的梯度，然後通過梯度下降法來更新 embedding parameters theta 來最大化目標函式，結果就是 embedding vectors 會不斷地移動，直到可以把真實單詞和噪聲單詞很好得區分開。

最後還可以用 t－SNE 來視覺化

最後的詞向量間的距離關係，可以發現具有相似資訊的單詞距離較近。

1. 先下載資料，words 有17005207 個單詞：

url = 'http://mattmahoney.net/dc/'
...
filename = maybe_download('text8.zip', 31344016)
...
words = read_data(filename)

count 就是要統計出 words 裡面最高頻的 5 萬個單詞。
dictionary 裡的 key 就是 count 裡的單詞，value 就是頻率的排序號。
data 裡存的是 words 中每個單詞在 dictionary 中的序號，如果不在 5 萬里面，就標記為 0.
reverse_dictionary 就是 key value 和 dictionary 裡面的互換一下位置：

2. 用最大長度為 span 的 deque 做一個視窗：

span = 2 * skip_window + 1
buffer = collections.deque(maxlen=span)

從 data 中一個一個讀，先把一個視窗給讀滿。
要生成 batch_size 個樣本，
每個樣本是，先找到當前視窗的 target，然後在這個視窗中，隨機生成 num_skips 個 target－context 對，
即會生成：3084 originated -> 12 as 這樣的對。
每次生成完一個樣本後，視窗向後移動一位，
一直到生成完 batch_size 個。

embeddings 是先隨機生成 5萬＊128 維，
3. NCE loss 就是訓練目標：

4. 用 SGD 優化器去優化目標，
valid_embeddings 是用來檢驗的 16 個單詞的詞向量表示，
similarity 是定義驗證單詞與詞彙表中所有單詞的相似度：

5. 然後就開始訓練模型，num_steps = 100001
每 2000 次迭代後，顯示一下平均 loss，
每 10000 次後，計算一下驗證單詞與所有單詞的相似度，並將最相似的 8 個單詞顯示出來：

6. 最後用 TSNE 將 128 維的詞向量降到 2 維，並展示頻率最高的 100 個單詞：

TensorFlow-9-詞的向量表示

TensorFlow-9-詞的向量表示

word2vec 和 doc2vec 詞向量表示

FastText詞向量表示

[cs224n].2 詞向量表示word2vec

CS224n | 詞向量表示word2vec

CS224n | 高階詞向量表示

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

詞向量表示：word2vec與詞嵌入

Tensorflow教程-字詞的向量表示

文本分布式表示（二）：用tensorflow和word2vec訓練詞向量

CS224n筆記2 詞的向量表示：word2vec

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec詞向量模型

paddle詞向量的表示

TensorFlow學習指南6：詞向量

文字深度表示模型——word2vec&doc2vec詞向量模型（轉）

[Algorithm & NLP] 文字深度表示模型——word2vec&doc2vec詞向量模型

tensorflow ：使用預訓練詞向量

tensorflow如何正確加載預訓練詞向量

詞向量原始碼解析：（1）詞向量（詞表示）簡單介紹

2 語言模型和詞向量 tensorflow詞向量

TensorFlow-9-詞的向量表示

相關推薦