1. 程式人生 > >【深度學習】120G+訓練好的word2vec模型(中文詞向量)

【深度學習】120G+訓練好的word2vec模型(中文詞向量)

很多人缺少大語料訓練的word2vec模型,在此分享下使用268G+語料訓練好的word2vec模型。

訓練語料

image.png

模型引數

  • window=5
  • min_count=10
  • size=128
  • hs=1
  • negative=0
  • iter=5
  • ps:其它引數見gensim庫,執行程式碼為:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)

其它相關

  1. 分詞詞典使用了130w+詞典。分詞程式碼:jieba.lcut(sentence),預設使用了HMM識別新詞;
  2. 剔除了所有非中文字元;
  3. 最終得到的詞典大小為6115353;
  4. 模型格式有兩種bin和model,使用方式:

a. bin模型:


import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.bin',binary=True)
print(model['love'])

b. model模式:model = gensim.models.Word2Vec.load(model_path)

檔案壓縮後大小與未壓縮相近,因此未壓縮。

下載連結
連結:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密碼:9aza

 

轉載自:https://www.jianshu.com/p/ae5b45e96dbf