gensim中doc2vec調參
阿新 • • 發佈:2019-01-23
在文字分類中,需要把文字轉換成向量。官方文件
https://radimrehurek.com/gensim/models/doc2vec.html
doc2vec演算法是基於word2vec演算法。
model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)
documents是訓練文件,訓練文件必須是一行一個文字,並且進行過分詞。
file = open(u'/home/ubuntu/file/資料平衡無分類', encoding='utf-8')
documents = gensim.models.doc2vec.TaggedLineDocument(file)
引數有三個size,window,workers.
size表示生成的向量的維度,一般為100維。
window表示訓練的視窗的大小也就是訓練資料周圍讀取了幾個資料。
min_count是參與訓練的詞語的最小詞頻。
for i in range(20,100):
for j in range(10,100):
print('引數值:'+str(i)+":"+str(j))
fileresult.write('引數值:'+str(i)+":"+str(j)+'\n')
model = gensim.models.Doc2Vec(documents, size =i, window=9, min_count=j, workers=8)