1. 程式人生 > >使用Google word2vec訓練我們自己的詞向量模型

使用Google word2vec訓練我們自己的詞向量模型

主要內容

這篇文章主要內容是介紹從初始語料(文字)到生成詞向量模型的過程。

詞向量模型

詞向量模型是一種表徵詞在整個文件中定位的模型。它的基本內容是詞以及它們的向量表示,即將詞對映為對應的向量,這樣就可以被計算機識別和計算。它的檔案字尾名是.bin。

過程

1.分詞

即將文字分詞,分詞工具有很多,比如哈工大的分詞工具和結巴分詞工具,具體如何使用這些工具,請參考相關的文章。
分詞的時候,請將各個詞以一個空格隔開。

2.訓練詞向量

在word2vec的trunk目錄下開啟終端, 定義下面內容,以適用於你的語料

./word2vec -train 產科語料合併版_分詞結果.txt -output vectors11.bin -cbow 0 -size 100 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

具體的
1. –size:向量維數
2. –window:上下文視窗大小
3. –sample:高頻詞亞取樣的閾值
4. –hs:是否採用層次 softmax
5. –negative:負例數目
6. –min-count:被截斷的低頻詞閾值
7. –alpha: 開始的 learning rate

最終生成的vectors11.bin檔案就是我們模型檔案,它在trunk目錄下。

3.驗證詞的相似度

在命令列在輸入 ./distance vectors11.bin
然後輸入詞,檢視它的相似詞語列表,如下圖:

這裡寫圖片描述

完畢。