1. 程式人生 > >word2vec 負取樣思路

word2vec 負取樣思路

詞典中的每個詞在語料庫中出現的頻次有高有低,理論上來說,對於那些高頻詞,被選為負樣本的概率較大,對於那些低頻詞,被選為負樣本的概率較小。
基於這個基本事實,可以通過帶權取樣方法來實現,假設每個詞的詞頻表示為單位線段上的一小分段,對於詞典大小為 NN 的語料庫,可以將詞典中所有的詞表示為單位線段上的一點,再在單位線段上等距離劃分 MM 個等分, M>>NM>>N , 具體取樣過程就是隨機得到一個數 i