1. 程式人生 > >gensim中word2vec的使用

gensim中word2vec的使用

一、遇見的坑:

1、Word2Vec和word2vec不是一個東西,word2vec包含了所有的方法,Word2Vec是word2vec檔案下的一個類,用於模型相關的方法

2、word2vec匯入資料集只能用word2vec.Text8Corpus(path)的方式去匯入

3、儲存、載入訓練好的模型最好採用自帶的方法:

model.save('abc.txt')

model2=word2vec.Word2Vec.load('abc.txt')

 

二、簡單操作

from gensim.models import word2vec

path='D:\中文語料庫\中文語料庫/分詞@13萬_未知.txt'         #分好的詞

with open(path,'r',encoding = 'utf-8') as f:         #只做展示用,沒有任何用處
    seg = f.readlines()
    
sentences = word2vec.Text8Corpus(path)               #載入資料集

model = word2vec.Word2Vec(sentences,min_count=0)     #構建模型,直接訓練了,min_count是最小詞頻,低於這個詞頻的詞被忽略,預設為5
model.save('abc.txt')                                #儲存模型

model2=word2vec.Word2Vec.load('abc.txt')             #載入模型

y = model2.similarity(u'阿爸',u'阿媽')                #計算兩個詞的相似度