【轉】漫談Word2vec之skip-gram模型
word2vec是Google研究團隊的成果之一,它作為一種主流的獲取分散式詞向量的工具,在自然語言處理、資料探勘等領域有著廣泛的應用。達觀資料的文字挖掘業務有些地方就使用了該項技術。本文從以下幾個方面簡要介紹Word2vec的skip-gram模型:
第一部分對比word2vec詞向量和one-hot詞向量,引出word2vec詞向量的優勢所在;第二部分給出skip-gram模型的相關內容;第三部分簡單介紹模型求解時優化方面的內容;第四部分通過例子簡單給出詞向量模型的效果;第五部分作出總結。
優勢
word2vec詞向量與傳統的one-hot詞向量相比,主要有以下兩個優勢。
1.低維稠密
一般來說分散式詞向量的維度設定成100-500就足夠使用,而one-hot型別的詞向量維度與詞表的大小成正比,是一種高維稀疏的表示方法,這種表示方法導致其在計算上具有比較低效率。
Fig.1. one-hot詞向量
2.蘊含語義資訊
one-hot這種表示方式使得每一個詞對映到高維空間中都是互相正交的,也就是說one-hot向量空間中詞與詞之間沒有任何關聯關係,這顯然與實際情況不符合,因為實際中詞與詞之間有近義、反義等多種關係。Word2vec雖然學習不到反義這種高層次語義資訊,但它巧妙的運用了一種思想:“具有相同上下文的詞語包含相似的語義”,使得語義相近的詞在對映到歐式空間後中具有較高的餘弦相似度。
Fig.2. word2vec詞向量
skip-gram模型
1.訓練樣本
怎麼把“具有相同上下文的詞語包含相似的語義”這種思想融入模型是很關鍵的一步,在模型中,兩個詞是否出現在一起是通過判斷這兩個詞在上下文中是否出現在一個視窗內。例如,原始樣本“達觀資料是一家做人工智慧的公司”在送入模型前會經過圖3所示處理(這裡為了繪圖簡單假設視窗為2,一般視窗是設定成5)。
如圖3所示,skip-gram模型的輸入是當前詞,輸出是當前詞的上下文,雖然我們訓練模型的時候喂的是一個個分詞好的句子,但內部其實是使用一個個word pair來訓練。同樣是之前的case“達觀資料是一家做人工智慧的公司”,假如視窗改為5,則(達觀資料,人工智慧)這個word pair會成為一個訓練樣本。
假如再過來一個case“Google是一家人工智慧公司”,則(Google,人工智慧)也會成為一個訓練樣本。如果用來訓練的語料庫中會產生多個(達觀資料,人工智慧)、(Google,人工智慧)這種的訓練樣本,則可以推測“達觀資料”和“Google”會有較高的相似度,因為在訓練樣本中這兩個詞具有相同的輸出,推而廣之,也就是說這兩個詞具有相同的上下文。一言以蔽之“假如兩個詞具有相同的輸出,則可反推出作為輸入的兩個詞之間具有較高相似性”,接下來就是如何使用模型來實現上述目標。
Fig.3. 訓練樣本
2.skip-gram模型
skip-gram模型與自編碼器(Autoencoder)類似,唯一的區別在於自編碼器的輸出等於輸入,而skip-gram模型的輸出是輸入的上下文。那麼,作為訓練樣本的word pair應該以什麼樣的方式輸入給模型? 答案是one-hot向量,為了得到one-hot向量,必須首先知道訓練語料中包含了多少詞。因此,在訓練之前會首先對語料進行統計,得到詞表。假設詞表長度為10000,詞向量為300維,則skip-gram模型可表示為圖4。
Fig.4. skip-gram 模型
如圖4所示,假設輸入的word pair為(ants, able),則模型擬合的目標是,同時也需要滿足,這裡利用的是對數似然函式作為目標函式。上述表述中可表示為:
根據和,可構建似然函式:
則:
將 代入有:
式中{*}表示如果表示式*為true,則{*}=1,否則{*}=0。接下來要做的是最大化似然函式,也即:
要實現上述目標,可利用梯度上升法,首先對引數求偏導:
接下來根據學習率對進行更新:
現在問題來了,模型訓練完成後詞向量在哪呢?隱藏層的引數矩陣就包含了所有詞的詞向量,該矩陣的行為詞表長度,列為詞向量維度,矩陣中的每一行表示一個詞的詞向量。由於輸入層是one-hot向量,與隱藏層點乘後其實是選中了該矩陣中的一行,如圖5所示,這一行表示的是ants的詞向量,而輸出層其實是以ants的詞向量為特徵,以ants的上下文詞作為類別來訓練softmax分類器。
Fig.5.詞的one-hot向量點乘隱藏層權值矩陣得到該詞的詞向量
回到上文,為什麼說(達觀資料,人工智慧)、(Google,人工智慧)這種樣本多了之後會得出達觀資料和Google的相似度會比較高?當時解釋的是因為這兩個詞有相同的輸出,更深一步講是因為輸出層引數矩陣是所有詞向量共享的。具體來說,模型訓練完成後會達到類似下面的效果:
由上面可直接看出來,其中表示*的詞向量,約等於是指兩個向量所指的方向在空間中比較接近。
模型優化
1.欠取樣 subsample
圖3中的例子中“是”、“的”這種詞在任何場景中都可能出現,它們並不包含多少語義,而且出現的頻率特別高,如果不加處理會影響詞向量的效果。欠取樣就是為了應對這種現象,它的主要思想是對每個詞都計算一個取樣概率,根據概率值來判斷一個詞是否應該保留。概率計算方法為:
其中f(*)表示*出現的概率,0.001為預設值,具體函式走勢如圖6所示,可以看出,詞語出現的概率越高,其被取樣到的概率就越低。這裡有一點IDF的味道,不同的是IDF是為了降低詞的特徵權重,欠取樣是為了降低詞的取樣概率。
2.負取樣 negative sample
以圖4所示的模型為例,對每一個訓練樣本需要更新的引數個數有三百萬(準確的說是三百萬零三百,由於輸入是one-hot,隱藏層每次只需要更新輸入詞語的詞向量),這還是假設詞表只有一萬的情況下,實際情況會有五十萬甚至更多,這時候引數就達到了億級。訓練過程中要對每個引數計算偏導,然後進行更新,這需要很大的計算資源。
負取樣是加快訓練速度的一種方法,這裡的負可以理解為負樣本。針對訓練樣本(ants, able),able這個詞是正樣本,詞表中除able外的所有詞都是負樣本。負取樣是對負樣本進行取樣,不進行負取樣時,對每一個訓練樣本模型需要擬合一個正樣本和九千九百九十九個負樣本。加入負取樣後,只需要從這九千九百九十九個負樣本中挑出來幾個進行擬合,大大節省了計算資源。那麼應該挑幾個負樣本,根據什麼進行挑呢?Google給出的建議是挑5-20個,怎麼挑是根據詞在語料中出現的概率,概率越大越有可能被選中,具體計算公式為:
其中f(*)表示*出現的概率。
3.層次softmax
層次softmax的目的和負取樣一樣,也是為了加快訓練速度,但它相對複雜,沒有負取樣這種來的簡單粗暴。具體來說,使用層次softmax時圖4中的模型輸出層不再是使用one-hot加softmax迴歸,而是使用Huffman樹加softmax迴歸。在模型訓練的時候首先統計語料中詞語的詞頻,然後根據詞頻來構建Huffman樹,如圖7所示,樹的根節點可理解為輸入詞的詞向量,葉子節點表示詞表中的詞,其它節點沒有什麼實際含義,僅起到輔助作用。
Fig.7.Huffman樹
為什麼使用Huffman樹可以加快訓練速度?答案是輸出層不使用one-hot來表示,softmax迴歸就不需要對那麼多0(也即負樣本)進行擬合,僅僅只需要擬合輸出值在Huffman樹中的一條路徑。假設詞表大小為N,一條路徑上節點的個數可以用來估計,就是說只需要擬合次,這給計算量帶來了指數級的減少。此外,由於Huffman編碼是不等長編碼,頻率越高的詞越接近根節點,這也使計算量有所降低。
怎麼對樹中的節點進行擬合呢?如圖7所示,假設訓練樣本的輸出詞是,則從根節點走到經過了這兩個節點。由於Huffman樹是二叉樹,這意味著只需要判斷向左還是向右就可以從根節點走到,判斷向左還是向右其實就是進行二分類。圖7中的例子,“root(input)->left->left->right()”這條路徑的概率可表示為:
其中表示路徑中第i個節點的權值向量。注意一點,softmax regression 做二分類的時候就退化為了logistic regression,因此雖然叫層次softmax但公式中其實用的是logistic function。根據上述公式就可構建根據Huffman樹來進行softmax迴歸的cost function,進而根據梯度下降對模型進行訓練求解。
word2vec應用
Google開源了word2vec原始碼,可以很方便的訓練詞向量,這裡不再贅述。簡單看個例子:
可以看出,當輸入北京這個詞時,與之相似的詞語有“上海、廣州、杭州、深圳…”,模型幾乎學習到了一線城市的概念,效果還是可以的。
1.達觀應用案例
特徵降維:特徵維度過高的時候,很容易出現特徵之間具有較高的相關性。這種情況下可以利用詞向量工具對特徵進行聚類,將相關的特徵歸到一個維度裡面。
特徵擴充套件:針對短文字處理時,一個case往往提不出很多表意較強的特徵,導致類別間區分度不強。這種情況下可以利用詞向量工具對主要特徵進行擴充套件,在不損失精度的前提下提高召回。
總結
本文從例子出發,簡單介紹了Word2vec的skip-gram模型,只作拋磚引玉。文中若有不當之處,歡迎指正。