1. 程式人生 > >gensim中doc2vec調參

gensim中doc2vec調參

在文字分類中,需要把文字轉換成向量。官方文件

https://radimrehurek.com/gensim/models/doc2vec.html

doc2vec演算法是基於word2vec演算法。

model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)

documents是訓練文件,訓練文件必須是一行一個文字,並且進行過分詞。

file = open(u'/home/ubuntu/file/資料平衡無分類', encoding='utf-8')
documents = gensim.models.doc2vec.TaggedLineDocument(file)

引數有三個size,window,workers.
size表示生成的向量的維度,一般為100維。
window表示訓練的視窗的大小也就是訓練資料周圍讀取了幾個資料。
min_count是參與訓練的詞語的最小詞頻。

for i in range(20,100):
    for j in range(10,100):
     print('引數值:'+str(i)+":"+str(j))
     fileresult.write('引數值:'+str(i)+":"+str(j)+'\n')
     model = gensim.models.Doc2Vec(documents, size
=i, window=9, min_count=j, workers=8)