word2Vec之Hierarchical Softmax理解

阿新 • • 發佈：2019-01-01

Hierarchical Softmax理解

word2vec是2013年google提出的一個獲取詞向量的演算法包，其中Hierarchical Softmax模型是推導的一個重要步驟，所以本文對其進行梳理，也加深自己的理解。

1、Skip-Gram模型

1.1 Skip-Gram網路結構

word2vec中有兩個較為重要的網路模型：CBOW，Skip-Gram。其建模方式又有：Negative Sampling（負取樣）、Hierarchical Softmax。在這裡我們選擇Skip-Gram模型，講解Hierarchical Softmax。

skip-gram 網路示意圖
從圖中可以看出skip-gram中共包含三部分：輸入層、隱藏層、輸出層。
輸入層：只含當前樣本中心詞的詞向量， $v (w) ϵ R^{m}$
隱藏層：其實在Skip-Gram中這個層是多餘的，用公式表達為 $v (w) \to v (w)$
輸出層：和CBOW類似，輸出層也是一顆haffman樹，如果計算梯度的時候需要做Hierarchical Softmax。

1.2 梯度下降

Hierarchical Softmax是word2vec中用到的一項關鍵技術，在計算之前，根據需要首先得定義一些符號：
1、 $p^{w}$

表示從根節點到詞語 $w$ 節點路徑
2、 $l^{w}$ 表示 $p^{w}$ 途經節點個數
3、 $p_{1}^{w}, p_{2}^{w}, p_{3}^{w} . . . p_{l^{w}}^{w}$ ，其中 $p_{1}^{w}$ 表示根節點， $p_{l^{w}}^{w}$ 表示詞語 $w$ 所對應的節點。
4、 $d_{2}^{w}, d_{3}^{w} . . . d_{l^{w}}^{w}$ ，代表詞語 $w$ 所對應的編碼。其中 $d_{j}^{w}$ 代表節點 $p_{j}^{w}$ 所對應的編碼(根節點不對應任何編碼）。由於是二叉樹，所以 $d_{j}^{w}$ 的取值範圍為0和1。
5、 $θ_{1}^{w}, θ_{2}^{w}, θ_{3}^{w} . . . θ_{l^{w} - 1}^{w}$ 表示 $p^{w}$ 路徑中非葉子節點所對應的詞向量。 $θ_{l^{w}}^{w}$ 表示葉子節點節點所對應的詞向量，即是詞語 $w$ 所對應的詞向量。
有了這些標記後，藉助網上的一個經典例子講解Hierarchical Softmax。

上圖中詞語 $w =" 足球 "$ ，節點號：38，23，9，4，3構成了 $p^{w}$ , $l^{w}$ 的值為5， $θ_{1}^{w}, θ_{2}^{w}, θ_{3}^{w}, θ_{4}^{w}$ 分別對應路徑中非葉子節點的詞向量。 $Θ_{5}^{w}$ 表示根節點的詞向量。 $d_{2}^{w} = 1$