Word Embedding模型: 詞、短語及它們的組合的分散式表示

摘要

　　最近引入的連續Skip-gram模型是學習可以高質量分散式向量表示的有效方法，而這種分散式向量表示可以刻畫大量精確的句法和語義關係。本文我們介紹了Skip-gram模型的多種擴充套件，它們可以提升向量的質量和訓練速度。通過對頻繁詞進行重複取樣我們可以極大地提升學習速度，學習到更有規律的單詞表示。我們還描述了一種分層softmax的簡單代替方案稱作負抽樣。
　　單詞表示的內在侷限是它們對單詞順序的無差異化以及不能表示慣用短語。例如，在單詞表示中，難以簡單地將“Canada”和“Air”結合得到“Air Canada”。受此例所激發，我們給出了一種找到文字中的短語的簡單方法，並且表明為百萬級的短語學習到好的向量表示是可能的。

引言

　　在自然語言處理任務中，向量空間中單詞的分散式表示通過對相似的詞分類可以幫助學習演算法取得更好的效果。單詞表示的最早使用可以追溯到1986年[Rumelhart, Hinton and Williams]。此後該思想便被應用於統計語言模型中，獲得了極大的成功。後續的工作包括將其應用到自動語音辨識，機器翻譯以及大量的自然語言處理任務中。
　　最近，Mikolov等人引入了Skip-gram模型[8]，這是一種從大量分結構化的文字資料中學習高質量的向量表示的有效方法。與之前大量使用的用神經網路結構學習單詞向量的架構不同，訓練Skip-gram模型（如圖1）不涉及密集的矩陣乘法。這就使得訓練非常有效：經過優化的單機訓練可以在一天訓練1000億個單詞。
　　使用神經網路計算得到的單詞表示非常有趣，因為學習到的向量可以顯式編碼很多語言規律和模式。有點驚人的是，很多這些模式可以表示成linear translations（線性變換）。例如，v

ec(‘‘Madrid")−vec(‘‘Spain")+vec(‘‘France")的向量計算比任何詞向量都更接近於‘‘vec("Paris")。
　　本文我們給出了原始Skip-gram模型的若干擴充套件。我們的研究表明在模型訓練時對頻繁詞進行子抽樣可以極大提升訓練速度（2-10倍），並且提升了欠頻繁詞的表示精度。此外，我們介紹了用Noise Contrastive Estimation(噪音對比估計)的簡單變體來訓練Skip-gram模型，實驗表明我們的方法相比於之前工作中使用的更加複雜的分層softmax方法，可以得到更好的頻繁詞的向量表示，訓練速度更快。
　　單詞表示受限於它們不能表示慣用語，慣用語不是單個詞的簡單組合。例如波士頓環球報是一家報紙，但它不是波士頓和環球兩個單詞組合在一起的意思。因此，使用向量來表示整個短語使得Skip-gram模型更具有表達力。其它的通過構成詞向量來表示句子意思的技術也可以受益於短語向量而不是詞向量。
　　將基於詞的模型擴充套件到基於短語的模型相當簡單。首先我們使用資料驅動的方法識別大量的短語，然後在訓練階段我們將短語視作單個符號。為了評價短語向量的質量，我們生成了包含單詞和短語的類比推理任務的測試集。我們測試集中一個典型的類比對是蒙特利爾：蒙特利爾加拿大人隊，多倫多：多倫多楓葉隊（二者都是北美冰球聯盟的俱樂部）。因此如果vec(Montreal Canadiens)-vec(Montreal)+vec(Toronto)的最近表示為vec(Toronto Maple Leafs)，那麼我們就認為是一個正確的短語表示。

Skip-gram模型

　　Skip-gram模型的訓練目標是發現可以用於預測句子或者文件中附近的詞(surrounding words)的單詞表示。更正式地講，給定一個訓練詞w1,w2,w3,⋯,wT序列，Skip-gram模型的目標是最大化平均對數概率
　　

1T∑t=1T∑−c≤j≤c,j≠0logp(wt+j|wt)
其中c是訓練環境的規模（可以是中心詞center wordwt的函式）。大c會得到更多的訓練樣本從而能得到更高的精度，當然也會有著更多的訓練時間。基本的Skip-gram模型使用下面的softmax函式定義p(wt+j|wt)：
p(wO|wI)=exp(v′⊤wOvwI)∑Ww=1exp(v′⊤wvwI)
其中vw和v′w是w的輸入和輸出的向量表示，W是詞典中的單詞個數。這種方式不太實際，因為計算∇logp(wO|wI)正比於W，而W通常非常大（105−107）。

分層Softmax

　　完全softmax的有效近似計算是分層Softmax。在神經網路語言模型環境中，首先由Morin和Bengio引入。主要優勢在於在神經網路中不需要評估W個輸出節點而是log2(W)個節點來得到概率分佈。
　　分層Softmax使用一種輸出層的二元樹表示（有W個詞）作為它的葉子節點，而且對於每個節點，顯式地表示它的子節點的相關概率。這些定義了一個將概率分配到單詞的隨機遊走模型。
　　更精確的是，我們可以通過一個從樹根的合適路徑到達每個單詞w。令n(w,j)為從根到w的路徑上的第j個節點，令L(w)為這條路徑的長度，所以n(w,1)=root且n(w,L(w))=w。此外，對於任何內部節點n，令ch(n)為n的一個任意固定的子代，若x為真令[x]為1，否則為-1。那麼用分層softmax定義的p(wO|wI)如下：

p(w|wI)=∏j=1L(w)−1σ([n(w,j+1)=ch(n(w,j))]⋅v′⊤n(w,j)vwI)
其中σ(x)=1/(1+exp(−x))。可以證明∑Ww=1p(w|wI)

Word Embedding模型: 詞、短語及它們的組合的分散式表示

摘要

引言

Skip-gram模型

分層Softmax

Word Embedding模型: 詞、短語及它們的組合的分散式表示

基於騰訊AI Lab詞向量進行未知詞、短語向量補齊與域內相似詞搜尋

“什麼是Word Embedding（詞嵌入）”的個人理解

canvas save、restore及圖片組合

使用CSocket、CSocketFile及CArchive組合接收不到資料的一種原因

詞袋模型（BOW，bag of words）和詞向量模型（Word Embedding）概念介紹

詞嵌入 word embedding

Hbase架構及工作原理、資料及物理模型、Hbase優化

LeNet-5模型prototxt檔案描述及各層含義、註釋

Keras入門（二）模型的儲存、讀取及載入

二、Elastic5.5.2安裝中文分詞器教程及簡單測試

網頁爬蟲、中文分詞、全文搜尋及自動定時排程

java 介面、抽象類、具體類、內部類、匿名內部類的區別及它們之間的關係

DevOps 能力模型、演進及案例剖析

[未完] 深度學習之詞向量(Word Embedding)篇：word2vec

無監督學習：詞嵌入or詞向量（Word Embedding）

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

「地址、密碼、私鑰、助記詞、Keystore 」釋義及生成KeyStore

word embedding的模型與測試

詞嵌入向量（Word Embedding）的原理和生成方法

Word Embedding模型: 詞、短語及它們的組合的分散式表示

摘要

引言

Skip-gram模型

分層Softmax

相關推薦