極簡使用︱Glove-python詞向量訓練與使用

阿新 • • 發佈：2018-11-12

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函式與功能理解）

官方glove教程比較囉嗦，可能還得設定一些引數表，操作不是特別方便。
筆者使用的時候，用的是一款比較省力/封裝的。

官方glove:https://github.com/stanfordnlp/GloVe
筆者使用：https://github.com/maciejkula/glove-python

1 安裝：

pip install glove_python

2 訓練：

具體函式細節可參考：github

生成嵌入是一個兩步過程：從語料庫中生成一個匹配矩陣，然後用它生成嵌入矩陣。 Corpus 類有助於從令牌的interable構建一個語料庫。
還支援基本的pagragraph向量。在word空間vector段落向量是在單詞向量空間中嵌入段落，這樣段落表示就接近於它所包含的單詞，因為在語料庫中的單詞的頻率調整。在訓練模型上通過呼叫 transform_paragraph 方法來訓練單詞嵌入後，可以得到這些結果。

其中段落向量是詞向量的平均可見(該模組沒有教程，筆者就不做過多分析了)：

paragraph_vector = np.mean(self.word_vectors[word_ids], axis=0)

（1）準備資料集

from __future__ import print_function
import argparse
import pprint
import gensim
from glove import Glove
from glove import Corpus

sentense = [['你','是','誰'],['我','是','中國人']]
corpus_model = Corpus()
corpus_model.fit(sentense, window=10)
#corpus_model.save('corpus.model')
print('Dict size: %s' % len(corpus_model.dictionary))
print('Collocations: %s' % corpus_model.matrix.nnz)

其中corpus_model.fit(corpus, window=10, ignore_missing=False)
ignore_missing代表如果出現OOV的詞，該如何處理。

（2）訓練

glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus_model.matrix, epochs=10,
          no_threads=1, verbose=True)
glove.add_dictionary(corpus_model.dictionary)

>>> Performing 10 training epochs with 1 threads
>>> Epoch 0
>>> Epoch 1
>>> Epoch 2
>>> Epoch 3
>>> Epoch 4
>>> Epoch 5
>>> Epoch 6
>>> Epoch 7
>>> Epoch 8
>>> Epoch 9

維度no_components，可以與word2vec一起使用。
模型得儲存為：glove.save('glove.model')

（3）使用：模型得儲存與載入

glove模型儲存與載入：

glove.save('glove.model')
glove = Glove.load('glove.model')

corpus儲存與載入：

corpus_model.save('corpus.model')
corpus_model = Corpus.load('corpus.model')

（4）使用：求相似詞

根據glove求相似詞。

glove.most_similar('我', number=10)

>>> [('中國人', 0.15130809810072138),
>>>  ('你', 0.0739901044877504),
>>>  ('誰', -0.05137569131012555),
>>>  ('是', -0.08668606334919005)]

（5）使用：詞向量矩陣

詞向量矩陣

# 全部詞向量矩陣
glove.word_vectors
# 指定詞條詞向量
glove.word_vectors[glove.dictionary['你']]

語料協同矩陣 corpus coocurrence matrix

corpus_model.matrix.todense().tolist()

>>>     [[0.0, 1.0, 0.5, 0.0, 0.0],
		 [0.0, 0.0, 1.0, 1.0, 1.0],
		 [0.0, 0.0, 0.0, 0.0, 0.0],
		 [0.0, 0.0, 0.0, 0.0, 0.5],
		 [0.0, 0.0, 0.0, 0.0, 0.0]]

由corpus_model引出得語料協同矩陣

極簡使用︱Glove-python詞向量訓練與使用

1 安裝：

2 訓練：

（1）準備資料集

（2）訓練

（3）使用：模型得儲存與載入

（4）使用：求相似詞

（5）使用：詞向量矩陣

極簡使用︱Glove-python詞向量訓練與使用

極簡使用︱Gemsim-FastText 詞向量訓練與使用

python下word2vec詞向量訓練與載入方法

極簡使用︱Gemsim-FastText 詞向量訓練以及OOV（out-of-word）問題有效解決

Ubuntu下GloVe中文詞向量模型訓練

python中使用Word2Vec多核技術進行新聞詞向量訓練

比賽必備︱省力搞定三款詞向量訓練 + OOV詞向量問題的可性方案

word2vec詞向量訓練及gensim的使用

Windows下使用Word2vec繼續詞向量訓練

word2vec詞向量訓練及中文文字相似度計算

使用Keras和預訓練的詞向量訓練新聞文字分類模型

Python Word2Vec使用訓練好的模型生成詞向量

極簡機器學習課程：使用Python構建和訓練一個完整的人工神經網

基於python的gensim word2vec訓練詞向量

NLP︱高階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實現、相關應用）

Python Word2Vec訓練和測試詞向量

機器學習之路： python 實踐 word2vec 詞向量技術

Python第三方庫jieba（結巴-中文分詞）入門與進階（官方文檔）

訓練詞向量

NER -- 詞向量與標註預處理階段

極簡使用︱Glove-python詞向量訓練與使用

1 安裝：

2 訓練：

（1）準備資料集

（2）訓練

（3）使用：模型得儲存與載入

（4）使用：求相似詞

（5）使用：詞向量矩陣

相關推薦