【深度學習】120G+訓練好的word2vec模型(中文詞向量)
阿新 • • 發佈:2019-01-10
很多人缺少大語料訓練的word2vec模型,在此分享下使用268G+語料訓練好的word2vec模型。
訓練語料:
- 百度百科800w+條,26G+
- 搜狐新聞400w+條,13G+
- 小說:229G+
image.png
模型引數:
- window=5
- min_count=10
- size=128
- hs=1
- negative=0
- iter=5
- ps:其它引數見gensim庫,執行程式碼為:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)
其它相關:
- 分詞詞典使用了130w+詞典。分詞程式碼:jieba.lcut(sentence),預設使用了HMM識別新詞;
- 剔除了所有非中文字元;
- 最終得到的詞典大小為6115353;
- 模型格式有兩種bin和model,使用方式:
a. bin模型:
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.bin',binary=True)
print(model['love'])
b. model模式:model = gensim.models.Word2Vec.load(model_path)
檔案壓縮後大小與未壓縮相近,因此未壓縮。
下載連結:
連結:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密碼:9aza