word2vec——高效word特徵求取

阿新 • • 發佈：2019-01-08

繼上次分享了經典統計語言模型，最近公眾號中有很多做NLP朋友問到了關於word2vec的相關內容，本文就在這裡整理一下做以分享。本文分為

概括word2vec
相關工作
模型結構
Count-based方法 vs. Directly predict

幾部分，暫時沒有加實驗章節，但其實感覺word2vec一文中實驗還是做了很多工作的，希望大家有空最好還是看一下~

概括word2vec

要解決的問題：在神經網路中學習將word對映成連續（高維）向量，其實就是個詞語特徵求取。

特點：
1. 不同於之前的計算cooccurrence次數方法，減少計算量
2. 高效
3. 可以輕鬆將一個新句子/新詞加入語料庫

主要思想：神經網路語言模型可以用兩步進行訓練：1. 簡單模型求取word vector; 在求取特徵向量時，預測每個詞周圍的詞作為cost 2. 在word vector之上搭建N-gram NNLM，以輸出詞語的概率為輸出進行訓練。

模型結構

首先回顧NNLM，RNNLM，然後來看Word2Vec中提出的網路——CBOW，skip-gram Model。

1 . NNLM[3]

NNLM的目標是在一個NN裡，求第t個詞的概率，即

其中f是這個神經網路, 包括 input，projection， hidden和output。將其分解為兩個對映：C和g，C是word到word vector的特徵對映(通過一個|V|*D的對映矩陣實現)，也稱作look-up table， g是以word特徵為輸入，輸出|V|個詞語概率的對映：

如下圖所示：
輸入： n個之前的word（其實是他們的在詞庫V中的index）
對映：通過|V|*D的矩陣C對映到D維
隱層：對映層連線大小為H的隱層
輸出：輸出層大小為|V|，表示|V|個詞語的概率

用parameter個數度量網路複雜度，則這個網路的複雜度為：

O=N∗D+N∗D∗H+H∗V

其中複雜度最高的部分為H*V, 但通常可以通過hierarchical softmax或binary化詞庫編碼將|V|降至log2V，這樣計算瓶頸就在於隱層N∗D∗H了。在word2vec中，為了避免隱層帶來的高計算複雜度而去掉了隱層。

2 . RNNLM

RNN在語言模型上優於其他神經網路，因為不用像上面NNLM中的輸入要定死前N個詞的N。（具體RNN的結構我會在下篇中講）簡單地說， RNN就是一個隱層自我相連的網路，隱層同時接收來自t時刻輸入和t-1時刻的輸出作為輸入，這使得RNN具有短期記憶能力，所以RNNLM的複雜度為：

O=H∗H+H∗V

同樣地，其中H∗V也可以降至log2V，瓶頸就在於H∗H了。

由於複雜度最大的部分都在hidden layer, 而且我們的中級目標是提特徵（而不是生成語言模型），文中就想能不能犧牲hidden layer的非線性部分，從而高效訓練。這也是Word2vec中速度提升最多的部分。這也就是一個Log linear model。所以本質上， word2vec並不是一個深度模型。文中提出了兩種log linear model，如下面所述。

3 . Proposed Method 1 - Continuous Bag-of-Words(CBOW) Model

CBOW的網路結構和NNLM類似，變化：

CBOW去掉了NNLM的非線性部分
CBOW不考慮word之間的先後順序，一起放進bag，也就是在上面NNLM的projection層將對映後的結果求和/求平均（而非按照先後順序連線起來）
輸入不止用了歷史詞語，還用了未來詞語。即，用t-n+1…t-1,t+1,…t+n-1的word作為輸入，目標是正確分類得到第t個word。
PS: 實驗中得到的best n=4

CBOW的複雜度為：

O=N∗D+D∗log2V

CBOW結構圖：

3 . Proposed Method 2 - Continuous Skip-gram Model

與CBOW相反，Continuous Skip-gram Model不利用上下文。其輸入為當前word，經過projection的特徵提取去預測該word周圍的c個詞，其cost function為：

如下圖所示。這裡c增大有利於模型的完備性，但過大的c可能造成很多無關詞語相關聯，因此用隨機取樣方法，遠的詞少採，近的多采。

比如定義最大周圍距離為C，則對於每個詞w(t)，就選擇距離為R=range(1,C)，選前後各R個詞作為預測結果。
所以，Continuous Skip-gram Model的複雜度為：

O=2C∗(D+D∗log2V)

具體來說，最簡單的情況下， P(wt+j|wt)的表示式可以為：

其中v和v’分別為輸入和輸出中的word特徵向量。所以說， word2vec方法本質上是一個動態的邏輯迴歸。

Count-based方法 vs. Directly predict

最後我們看一下之前我們講過的幾個基於統計的傳統語言模型與word2vec這種直接預測的方法的比較：

圖片摘自Stanford CS244。

參考文獻：

NNLM: Y. Bengio, R. Ducharme, P. Vincent. A neural probabilistic language model, JMLR 2003
類似工作：T. Mikolov. Language Modeling for Speech Recognition in Czech, Masters thesis
類似工作：T. Mikolov, J. Kopecky´, L. Burget, O. Glembek and J. Cˇ ernocky´. Neural network based language models for higly inflective languages, In: Proc. ICASSP 2009.]
類似工作：Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[J]. Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014, 12.

word2vec——高效word特徵求取

概括word2vec

相關工作

模型結構

Count-based方法 vs. Directly predict

word2vec——高效word特徵求取

Opencv（Python）教程-輪廓（2）輪廓特徵求取

java學習--高效的除模取餘運算(n-1)&hash

淺析如何檢測高效肖特基二極體和超快恢復肖特基二極體的效能

word2vec和word embedding有什麼區別?

斯特林公式-Stirling公式（取N階乘近似值）-HDU1018-Big Number 牛客網NowCoder 2018年全國多校算法寒假訓練營練習比賽（第三場）A.不凡的夫夫

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

python3 學習1（搜尋關鍵字爬取一頁word格式的百度文庫並下載成文字）

別讓速度限制了你的工資！這5個實用高效的Word技巧趕快學起來！

Python陣列取一個或幾個元素值的例子，word[0:2]，從第0個字元到第2個字元（不包括第2個字元）

型別萃取---模板類的特化的應用

Word中使用正則表示式進行查詢和替換（高效進行文書處理）

Python + selenium 爬取百度文庫Word文字

Python + selenium 爬取百度文庫Word文本

輕鬆高效！簡單四步法完成PDF轉Word！

微信拉取使用者資訊是使用者暱稱存在特符時過濾

Java裸寫爬蟲技術，運用多執行緒技術，高效爬取某個醫療機構網站資料

神經網路中embedding層作用——本質就是word2vec，資料降維，同時可以很方便計算同義詞（各個word之間的距離），底層實現是2-gram（詞頻）+神經網路

【NLP CS224N筆記】Lecture 2 - Word Vector Representations: word2vec

爬取大半導體網新聞內容儲存到word（基於python3.6）

word2vec——高效word特徵求取

概括word2vec

相關工作

模型結構

Count-based方法 vs. Directly predict

相關推薦