用gensim的word2vector實現詞嵌入
阿新 • • 發佈:2019-02-11
準備輸入
Gensim的word2vec的輸入是句子的序列. 每個句子是一個單詞列表
>>> # import modules & set up logging
>>> import gensim, logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
>>>
>>> sentences = [['first', 'sentence'], ['second' , 'sentence']]
>>> # train word2vec on the two sentences
>>> model = gensim.models.Word2Vec(sentences, min_count=1)
將輸入視為Python的內建列表很簡單, 但是在輸入很大時會佔用大量的記憶體. 所以Gensim只要求輸入按順序提供句子, 並不將這些句子儲存在記憶體, 然後Gensim可以載入一個句子, 處理該句子, 然後載入下一個句子.
訓練
Word2vec有很多可以影響訓練速度和質量的引數.
第一個引數可以對字典做截斷. 少於min_count次數的單詞會被丟棄掉, 預設值為5
model = Word2Vec(sentences, min_count=10) # default value is 5
另外一個是神經網路的隱藏層的單元數:
model = Word2Vec(sentences, size=200) # default value is 100
大的size需要更多的訓練資料, 但是效果會更好. 推薦值為幾十到幾百.
最後一個主要的引數控制訓練的並行:
model = Word2Vec(sentences, workers=4) # default = 1 worker = no parallelization
Gensim也支援相同的評測集:
model.accuracy('/tmp/questions-words.txt')
-02-01 22:14:28,387 : INFO : family: 88.9% (304/342)
-02-01 22:29:24,006 : INFO : gram1-adjective-to-adverb: 32.4% (263/812)
-02-01 22:36:26,528 : INFO : gram2-opposite: 50.3% (191/380)
-02-01 23:00:52,406 : INFO : gram3-comparative: 91.7% (1222/1332)
-02-01 23:13:48,243 : INFO : gram4-superlative: 87.9% (617/702)
-02-01 23:29:52,268 : INFO : gram5-present-participle: 79.4% (691/870)
-02-01 23:57:04,965 : INFO : gram7-past-tense: 67.1% (995/1482)
-02-02 00:15:18,525 : INFO : gram8-plural: 89.6% (889/992)
-02-02 00:28:18,140 : INFO : gram9-plural-verbs: 68.7% (482/702)
-02-02 00:28:18,140 : INFO : total: 74.3% (5654/7614)
儲存和載入模型
>>> model.save('/tmp/mymodel')
>>> new_model = gensim.models.Word2Vec.load('/tmp/mymodel')
線上訓練
可以在載入模型之後使用另外的句子來進一步訓練模型
model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)
但是不能對C生成的模型進行再訓練.
使用模型
Word2vec支援數種單詞相似度任務:
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
[('queen', 0.50882536)]
model.doesnt_match("breakfast cereal dinner lunch".split())
'cereal'
model.similarity('woman', 'man')
.73723527
可以通過以下方式來得到單詞的向量:
model['computer'] # raw NumPy vector of a word
array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)