word2vec模型評估方案

阿新 • • 發佈：2018-11-02

1、word2vec引數詳解

· sentences：可以是一個·ist，對於大語料集，建議使用BrownCorpus,Text8Corpus或·ineSentence構建。
· sg：用於設定訓練演算法，預設為0，對應CBOW演算法；sg=1則採用skip-gram演算法。
· size：是指特徵向量的維度，預設為100。大的size需要更多的訓練資料,但是效果會更好. 推薦值為幾十到幾百。
· window：表示當前詞與預測詞在一個句子中的最大距離是多少
· alpha: 是學習速率
· seed：用於隨機數發生器。與初始化詞向量有關。
· min_count: 可以對字典做截斷. 詞頻少於min_count次數的單詞會被丟棄掉, 預設值為5
· max_vocab_size: 設定詞向量構建期間的RAM限制。如果所有獨立單詞個數超過這個，則就消除掉其中最不頻繁的一個。每一千萬個單詞需要大約1GB的RAM。設定成None則沒有限制。
· sample: 高頻詞彙的隨機降取樣的配置閾值，預設為1e-3，範圍是(0,1e-5)
· workers引數控制訓練的並行數。
· hs: 如果為1則會採用hierarchica·softmax技巧。如果設定為0（defau·t），則negative sampling會被使用。
· negative: 如果>0,則會採用negativesamp·ing，用於設定多少個noise words
· cbow_mean: 如果為0，則採用上下文詞向量的和，如果為1（defau·t）則採用均值。只有使用CBOW的時候才起作用。
· hashfxn： hash函式來初始化權重。預設使用python的hash函式
· iter：迭代次數，預設為5
· trim_rule：用於設定詞彙表的整理規則，指定那些單詞要留下，哪些要被刪除。可以設定為None（min_count會被使用）或者一個接受()並返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函式。
· sorted_vocab：如果為1（defau·t），則在分配word index 的時候會先對單詞基於頻率降序排序。
· batch_words：每一批的傳遞給執行緒的單詞的數量，預設為10000

比較有用的

· sg：用於設定訓練演算法，預設為0，對應CBOW演算法；sg=1則採用skip-gram演算法。

· size：是指特徵向量的維度，預設為100。大的size需要更多的訓練資料,但是效果會更好. 推薦值為幾十到幾百

· window：表示當前詞與預測詞在一個句子中的最大距離是多少

alpha: 是學習速率

min_count: 可以對字典做截斷. 詞頻少於min_count次數的單詞會被丟棄掉, 預設值為5

hs: 如果為1則會採用hierarchica·softmax技巧。如果設定為0（defau·t），則negative sampling會被使用。

· iter：迭代次數，預設為5

word2vec模型評估方案

word2vec模型評估方案

R語言︱機器學習模型評估方案（以隨機森林演算法為例）

機器學習第二章：模型評估與選擇-總結

【機器學習筆記】第二章：模型評估與選擇

機器學習：模型評估和選擇

機器學習（西瓜書）模型評估與選擇

Word2Vec模型參數詳解

模型評估方法

性能優化-使用 RAIL 模型評估性能

【深度學習】常用的模型評估指標

模型的性能評估(二) 用sklearn進行模型評估

機器學習總結之第二章模型評估與選擇

模型評估與模型選擇

word2vec模型cbow與skip-gram的比較

模型評估與選擇

模型評估

模型評估【PR|ROC|AUC】

python 機器學習中模型評估和調參

Classification： Precision/Recall ,ROC, AUC等分類模型評估方法，Multilabel and Multioutput Classification

機器學習演算法模型評估

word2vec模型評估方案

相關推薦