gensim中word2vec的使用
阿新 • • 發佈:2018-12-21
一、遇見的坑:
1、Word2Vec和word2vec不是一個東西,word2vec包含了所有的方法,Word2Vec是word2vec檔案下的一個類,用於模型相關的方法
2、word2vec匯入資料集只能用word2vec.Text8Corpus(path)的方式去匯入
3、儲存、載入訓練好的模型最好採用自帶的方法:
model.save('abc.txt')
model2=word2vec.Word2Vec.load('abc.txt')
二、簡單操作
from gensim.models import word2vec
path='D:\中文語料庫\中文語料庫/分詞@13萬_未知.txt' #分好的詞
with open(path,'r',encoding = 'utf-8') as f: #只做展示用,沒有任何用處
seg = f.readlines()
sentences = word2vec.Text8Corpus(path) #載入資料集model = word2vec.Word2Vec(sentences,min_count=0) #構建模型,直接訓練了,min_count是最小詞頻,低於這個詞頻的詞被忽略,預設為5
model.save('abc.txt') #儲存模型model2=word2vec.Word2Vec.load('abc.txt') #載入模型
y = model2.similarity(u'阿爸',u'阿媽') #計算兩個詞的相似度