深度有趣 | 13 詞向量的訓練

阿新 • • 發佈：2018-12-10

簡介

使用TensorFlow實現中文詞向量的訓練，並完成一些簡單的語義任務

回顧

在全棧課程中介紹過如何使用gensim訓練中文詞向量，即詞嵌入（Word Embedding）

如果沒有gensim則安裝

pip install gensim

準備好語料，例如中文維基百科分詞語料

載入庫

# -*- coding: utf-8 -*-

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import time

訓練模型並儲存，在我的筆記本上訓練共耗時1403秒

t0 = int(time.time())
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
print('訓練耗時 %d s' % (int(time.time()) - t0))
model.save('gensim_128')

載入模型並使用

model = Word2Vec.load('gensim_128')
# 相關詞
items = model.wv.most_similar('數學')
for i, item in enumerate(items):
	print(i, item[0], item[1])
# 語義類比
print('=' * 20)
items = model.wv.most_similar(positive=['紐約', '中國'], negative=['北京'])
for i, item in enumerate(items):
	print(i, item[0], item[1])
# 不相關詞
print('=' * 20)
print(model.wv.doesnt_match(['早餐', '午餐', '晚餐', '手機']))
# 計算相關度
print('=' * 20)
print(model.wv.similarity('男人', '女人'))

原理

詞向量是對詞語的一種表示（representation）

有了詞向量之後，就可以將一句話表示成一個向量序列，即一個二維Tensor
如果是多個長度相等的句子，則可以表示為一個三維Tensor

說白了，詞向量就是一個二維矩陣，維度為V*d，V是詞的總個數，d是詞向量的維度

One-Hot將每個詞語表示為一個V維向量，僅當前詞語對應的維度為1，其他維度為0

詞嵌入將One-Hot表示的高維稀疏向量，對映為該詞語對應的，低維稠密實值的詞向量

詞向量的訓練主要有兩種方法

CBOW（Continuous Bag-of-Words）：根據上下文詞語預測當前詞
Skip-Gram：根據當前詞預測上下文詞語

CBOW和Skip-gram

這裡我們主要講一下Skip-Gram的原理

輸入為一個詞對應的整數id或One-Hot表示，經過Embedding層後得到對應的詞向量，經過一層對映和softmax處理後，得到每個詞對應的輸出概率

由於詞彙表往往非常大，幾萬、幾十萬甚至幾百萬，因此直接在整個詞彙表上進行多分類將會導致非常大的計算量

一個有效的解決方法是Negative Sampling，即每次隨機取樣一些負樣本

假設詞彙表大小為5W，對於某個輸入詞，已知對應的正確輸出詞，再隨機從詞彙表中選擇N個詞，這N個詞剛好是正確輸出詞的概率非常低，因此可以認為是負樣本

給你一張狗狗圖片，判斷出對應的種類名稱
給你五張狗狗圖片，判斷出每一張是否是哈士奇

這樣一來，就把一個5W分類的多分類問題，變成了N個二分類問題，同樣提供了可學習的梯度，並且大大降低了計算量

在具體實現中，可以使用Noise-Contrastive Estimation（NCE）作為損失函式，在TensorFlow中使用tf.nn.nce_loss()即可

實現

載入庫和語料，一共254419行

# -*- coding: utf-8 -*-

import pickle
import numpy as np
import tensorflow as tf
import collections
from tqdm import tqdm

with open('wiki.zh.word.text', 'rb') as fr:
    lines = fr.readlines()
print('共%d行' % len(lines))
print(lines[0].decode('utf-8'))

一共有148134974個詞

lines = [line.decode('utf-8') for line in lines]
words = ' '.join(lines)
words = words.replace('\n', '').split(' ')
print('共%d個詞' % len(words))

定義詞典

vocab_size = 50000
vocab = collections.Counter(words).most_common(vocab_size - 1)

詞頻統計

count = [['UNK', 0]]
count.extend(vocab)
print(count[:10])

詞和id之間的相互對映

word2id = {}
id2word = {}
for i, w in enumerate(count):
    word2id[w[0]] = i
    id2word[i] = w[0]
print(id2word[100], word2id['數學'])

將語料轉為id序列，一共有22385926個UNK

data = []
for i in tqdm(range(len(lines))):
    line = lines[i].strip('\n').split(' ')
    d = []
    for word in line:
        if word in word2id:
            d.append(word2id[word])
        else:
            d.append(0)
            count[0][1] += 1
    data.append(d)
print('UNK數量%d' % count[0][1])

準備訓練資料

X_train = []
Y_train = []
window = 3
for i in tqdm(range(len(data))):
    d = data[i]
    for j in range(len(d)):
        start = j - window
        end = j + window
        if start < 0:
            start = 0
        if end >= len(d):
            end = len(d) - 1
        
        while start <= end:
            if start == j:
                start += 1
                continue
            else:
                X_train.append(d[j])
                Y_train.append(d[start])
                start += 1
X_train = np.squeeze(np.array(X_train))
Y_train = np.squeeze(np.array(Y_train))
Y_train = np.expand_dims(Y_train, -1)
print(X_train.shape, Y_train.shape)

定義模型引數

batch_size = 128
embedding_size = 128
valid_size = 16
valid_range = 100
valid_examples = np.random.choice(valid_range, valid_size, replace=False)
num_negative_samples = 64

定義模型

X = tf.placeholder(tf.int32, shape=[batch_size], name='X')
Y = tf.placeholder(tf.int32, shape=[batch_size, 1], name='Y')
valid = tf.placeholder(tf.int32, shape=[None], name='valid')

embeddings = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0))
embed = tf.nn.embedding_lookup(embeddings, X)

nce_weights = tf.Variable(tf.truncated_normal([vocab_size, embedding_size], stddev=1.0 / np.sqrt(embedding_size)))
nce_biases = tf.Variable(tf.zeros([vocab_size]))

loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights, biases=nce_biases, labels=Y, inputs=embed, num_sampled=num_negative_samples, num_classes=vocab_size))

optimizer = tf.train.AdamOptimizer().minimize(loss)

將詞向量歸一化，並計算和給定詞之間的相似度

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), axis=1, keep_dims=True))
normalized_embeddings = embeddings / norm

valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid)
similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)

訓練模型

sess = tf.Session()
sess.run(tf.global_variables_initializer())

offset = 0
losses = []
for i in tqdm(range(1000000)):
    if offset + batch_size >= X_train.shape[0]:
        offset = (offset + batch_size) % X_train.shape[0]
        
    X_batch = X_train[offset: offset + batch_size]
    Y_batch = Y_train[offset: offset + batch_size]
    
    _, loss_ = sess.run([optimizer, loss], feed_dict={X: X_batch, Y: Y_batch})
    losses.append(loss_)
    
    if i % 2000 == 0 and i > 0:
        print('Iteration %d Average Loss %f' % (i, np.mean(losses)))
        losses = []
        
    if i % 10000 == 0:
        sim = sess.run(similarity, feed_dict={valid: valid_examples})
        for j in range(valid_size):
            valid_word = id2word[valid_examples[j]]
            top_k = 5
            nearests = (-sim[j, :]).argsort()[1: top_k + 1]
            s = 'Nearest to %s:' % valid_word
            for k in range(top_k):
                s += ' ' + id2word[nearests[k]]
            print(s)
            
    offset += batch_size

儲存模型、最終詞向量、對映字典

saver = tf.train.Saver()
saver.save(sess, './tf_128')

final_embeddings = sess.run(normalized_embeddings)
with open('tf_128.pkl', 'wb') as fw:
    pickle.dump({'embeddings': final_embeddings, 'word2id': word2id, 'id2word': id2word}, fw, protocol=4)

在單機上使用訓練好的模型和詞向量

載入庫和得到的詞向量、對映字典

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import pickle

with open('tf_128.pkl', 'rb') as fr:
    data = pickle.load(fr)
    final_embeddings = data['embeddings']
    word2id = data['word2id']
    id2word = data['id2word']

獲取頻次最高的前200個非單字詞，對其詞向量進行tSNE降維視覺化

word_indexs = []
count = 0
plot_only = 200
for i in range(1, len(id2word)):
    if len(id2word[i]) > 1:
        word_indexs.append(i)
        count += 1
        if count == plot_only:
            break

tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000)
two_d_embeddings = tsne.fit_transform(final_embeddings[word_indexs, :])
labels = [id2word[i] for i in word_indexs]

plt.figure(figsize=(15, 12))
for i, label in enumerate(labels):
    x, y = two_d_embeddings[i, :]
    plt.scatter(x, y)
    plt.annotate(label, (x, y), ha='center', va='top', fontproperties='Microsoft YaHei')
plt.savefig('詞向量降維視覺化.png')

可以看到，語義相關的詞確實都處於相近的位置

詞向量降維視覺化

可以載入TensorFlow模型，給valid指定一些詞對應的id以獲取相似詞

sess = tf.Session()
sess.run(tf.global_variables_initializer())

saver = tf.train.import_meta_graph('tf_128.meta')
saver.restore(sess, tf.train.latest_checkpoint('.'))
graph = tf.get_default_graph()
valid = graph.get_tensor_by_name('valid:0')
similarity = graph.get_tensor_by_name('MatMul_1:0')

word = '數學'
sim = sess.run(similarity, feed_dict={valid: [word2id[word]]})
top_k = 10
nearests = (-sim[0, :]).argsort()[1: top_k + 1]
s = 'Nearest to %s:' % word
for k in range(top_k):
    s += ' ' + id2word[nearests[k]]
print(s)

和數學最相關的10個詞

Nearest to 數學: 理論 物理學 應用 物理 科學 化學 定義 哲學 生物學 天文學

使用詞向量完成其他語義任務

# 計算相關度
def cal_sim(w1, w2):
    return np.dot(final_embeddings[word2id[w1]], final_embeddings[word2id[w2]])
print(cal_sim('男人', '女人'))

# 相關詞
word = '數學'
sim = [[id2word[i], cal_sim(word, id2word[i])] for i in range(len(id2word))]
sim.sort(key=lambda x:x[1], reverse=True)
top_k = 10
for i in range(top_k):
    print(sim[i + 1])

# 不相關詞
def find_mismatch(words):
    vectors = [final_embeddings[word2id[word]] for word in words]
    scores = {word: np.mean([cal_sim(word, w) for w in words]) for word in words}
    scores = sorted(scores.items(), key=lambda x:x[1])
    return scores[0][0]
print(find_mismatch(['早餐', '午餐', '晚餐', '手機']))

參考

視訊講解課程

深度有趣 | 13 詞向量的訓練

簡介使用TensorFlow實現中文詞向量的訓練，並完成一些簡單的語義任務回顧在全棧課程中介紹過如何使用gensim訓練中文詞向量，即詞嵌入（Word Embedding）如果沒有gensim則安裝 pip install gensim 準備好語料，

極簡使用︱Gemsim-FastText 詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練word2vec及相關函式與功能理解 glove可見：極簡使用

極簡使用︱Glove-python詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函式與功能理解）官方glove教程比較囉嗦，可能還得設定一些引數表，操作不是特別方便。筆

比賽必備︱省力搞定三款詞向量訓練 + OOV詞向量問題的可性方案

本篇為資源彙總，一些NLP的比賽在抽取文字特徵的時候會使用非常多的方式。傳統的有：TFIDF/LDA/LSI等偏深度的有：word2vec/glove/fasttext等還有一些預訓練方式：elmo / bert 1 之前的幾款詞向量介紹與訓練

[未完] 深度學習之詞向量(Word Embedding)篇：word2vec

歡迎參觀一> 個人小站一. 詞向量表示形式在使用神經網路模型進行文字分類或者機器翻譯時，前提工作是要對整理好的文字資料進行詞向量化 (Word Embedding) ，既使用向量形式代表詞。 1.1 One-hot represen

word2vec詞向量訓練及gensim的使用

一、什麼是詞向量詞向量最初是用one-hot represention表徵的，也就是向量中每一個元素都關聯著詞庫中的一個單詞，指定詞的向量表示為：其在向量中對應的元素設定為1，其他的元素設定為0。採

python中使用Word2Vec多核技術進行新聞詞向量訓練

from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups(subset='all') X,y=news.data,news.target from bs4 import Beaut

Windows下使用Word2vec繼續詞向量訓練

2. 下載word2vec，下載地址為：http://word2vec.googlecode.com/svn/trunk/ 將下載的所有檔案放入word2vec資料夾下。補充： word2vec的原版程式碼是google code上的，也有改寫的其他兩個版本： (1) c++11版本：（jdeng/wo

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

python下word2vec詞向量訓練與載入方法

專案中要對短文字進行相似度估計，word2vec是一個很火的工具。本文就word2vec的訓練以及載入進行了總結。word2vec的原理就不描述了，word2vec詞向量工具是由google開發的，輸入為文字文件，輸出為基於這個文字文件的語料庫訓練得到的詞向量模型。通過該模型

極簡使用︱Gemsim-FastText 詞向量訓練以及OOV（out-of-word）問題有效解決

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練word2vec及相關函式與功能理解

PaddlePaddle | 深度學習 101- 詞向量

本人僅以 PaddlePaddle 深度學習 101 官網教程為指導，添加個人理解和筆記，僅作為學習練習使用，若有錯誤，還望批評指教。–ZJ 環境： - Python 2.7 - Ubuntu 16.04 詞向量本教程原始碼目錄在bo

使用Keras和預訓練的詞向量訓練新聞文字分類模型

from __future__ import print_function import os import sys import numpy as np from keras.preprocessing.text import Tokenizer from keras.p

【深度學習】120G+訓練好的word2vec模型（中文詞向量）

很多人缺少大語料訓練的word2vec模型，在此分享下使用268G+語料訓練好的word2vec模型。訓練語料：百度百科800w+條，26G+ 搜狐新聞400w+條，13G+ 小說：229G+ image.png 模型引數： window=5

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec詞向量模型

www. 頻率 cbo homepage 算法文章有一個 tro 概率閱讀目錄 1. 詞向量 2.Distributed representation詞向量表示 3.詞向量模型 4.word2vec算法思想 5.doc2vec算法思

Python Word2Vec使用訓練好的模型生成詞向量

https 一起失效 com mode 密碼 pytho ID list # 文本文件必須是utf-8無bom格式 from gensim.models.deprecated.word2vec import Word2Vec model = Word2Vec.lo

訓練詞向量

1 def word_vector_gener(): 2 """ 3 幾種不同的方法來生成詞向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第二課詞向量（word vector）

課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化：梯度下降法一、單詞含義含義（meaning）指的是由單詞表達的觀點。我們一般使用單詞含義的方法是，使用像WordNet那樣的分類詞典，給每個單詞對應的上下義關係以及同義

Elmo詞向量中文訓練過程雜記

1 elmo是什麼？ ELMo的特點： 2 Elmo訓練有哪些好專案？有訓練過程的專案預訓練模型：

深度有趣 | 13 詞向量的訓練

簡介

回顧

原理

實現

參考

視訊講解課程

相關推薦