GloVe model

單詞表示模型：GloVe，用於全域性向量，全域性語料的統計資訊直接由模型獲得。

$X$ ：詞共現矩陣
$X_{i j}$

j $X_{ij}$ ：單詞

j

$j$ 出現在單詞

i

$i$ 的上下文中的次數。

X_{i} = \sum_{k} X_{i k}

$X_i=\sum_kX_{ik}$ ：所有出現在單詞

i

$i$ 的上下文中的單詞次數。

P_{i j} = p (j | i) = \frac{X_{i j}}{X_{i}}

$P_{ij}=p(j|i)=\frac{X_{ij}}{X_i}$ ：單詞

j

$j$ 出現在單詞

i

$i$ 的上下文中的概率。

舉例：
這裡寫圖片描述

通過觀察圖中的比率（第三行）可以看出，當結果大於1時，單詞 $k$ 與ice更相關，當結果小於1時，單詞 $k$ 與steam更相關。

上述論點表明，單詞向量學習的適當起點應該是共現概率的比率而不是概率本身。其中，比率 $P_{ik}/P_{jk}$ 取決於單詞 $i$ 、 $j$ 、 $k$ ，我們採用最通用的模型形式：

\begin{matrix} (1) & F (w_{i}, w_{j}, {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F(w_i,w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{1}$

其中， $w\in\mathbb{R}$ 表示單詞向量， $\tilde{w}\in\mathbb{R}^d$ 表示單個的上下文詞向量。
對於F的選擇，由於向量空間本質上是線性結構，因此最自然的方法是使用向量差異。通過僅考慮兩個目標詞的差異可以修改為：

\begin{matrix} (2) & F (w_{i} - w_{j}, {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F(w_i-w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{2}$

採用引數點積來防止 $F$ 函式以不和需要的方式進行向量維度混合：

\begin{matrix} (3) & F ((w_{i} - w_{j})^{T} {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F((w_i-w_j)^T\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{3}$

對於單詞共現矩陣，單詞和上下文單詞之間的區別是任意的，我們可以自由地交換這兩個角色。我們的最終模型在這種重新標記下應該是不變的，因此我們通過兩步驟來回復對稱性。
首先要求 $F$ 函式在 $(\mathbb{R},+)$ 和 $(\mathbb{R},×)$ 之間應該是同態的。

\begin{matrix} (4) & F ((w_{i} - w_{j})^{T} {\tilde{w}}_{k}) = \frac{F (w_{i}^{T} {\tilde{w}}_{k})}{F (w_{j}^{T} {\tilde{w}}_{k})} \end{matrix}

$F((w_i-w_j)^T\tilde{w}_k)=\frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}\tag{4}$

\begin{matrix} (5) & F (w_{i}^{T} {\tilde{w}}_{k}) = P_{i k} = \frac{X_{i k}}{X_{i}} \end{matrix}

【論文閱讀】《GloVe: Global Vectors forWord Representation》