word2vec 學習和理解

阿新 • • 發佈：2018-11-28

這裡先按吳恩達老師的課程講解的softmax做一個筆記，和之前看的一個大神的文章，相對比，來方便我對word2vec的理解。

目的：學習一個詞嵌入矩陣E。

手段：構建一個語言模型。

最老的方法：

預測一個句子（4個詞）之後的下一個詞是什麼。

例如，下面是一個樣本：

a glass of orange (juice).

樣本輸入： a glass of orange

樣本輸出：juice

實際上，我們會遍歷一篇文章，然後文章中如果有這麼一句話a glass of orange (juice).

它就可以作為一個樣本了。

I want a glass of orange juice.

這樣的句子，按照視窗為4來處理的話，可能會有如下的樣本：

樣本輸入（樣本輸出）

want a glass of (orange)

want a glass of (apple)

want a glass of (mango)

這樣，經過訓練之後，orange apple mango等詞彙就會有相近的詞向量。

（為什麼？以後可以再思考解釋一下。暫時沒想通）

訓練的模型為：

詞嵌入矩陣E，隨機初始化。假設one-hot表示有10000個詞（實際更多），詞向量維度是300，那麼E大小為300*10000

開始：

(1)->4個詞的one-hot

(2)-> 乘以E，得到4個詞的詞向量表示，合併成一個大的向量

(3)-> 輸入到一個隱藏層

(4)-> 輸出到一個softmax

(5)-> 輸出為樣本輸出。

輸入層：詞向量維度為300，那麼(2)得到的向量長度為4*300 = 1200，即輸入層有1200個特徵。

隱藏層：假設隱藏層的啟用項有500個（可能沒那麼少，這裡打個比方），那麼隱藏層權重矩陣W1 是 1200*500的。不過這層的引數我們不關注。

softmax層：為了獲得一個詞庫總量（本例為10000詞）的分類器。所以softmax的權重為W2 = 500*10000.

分類器如下：

e_Vi是隱藏層的輸出，i表示one-hot的第一個詞。Si是樣本輸出表示的單詞。

可以看到，分母有一個超大的求和，大小為one-hot詞向量大小，這個例子是10000。

為了計算得到一個樣本的損失函式，需要進行10000次求和。

這個計算簡直不能忍的。

於是後面會有其他的模型來解決這個求和量過大的問題（還會解決這個模型的其他缺陷，這裡不做過多討論）。

第二部分

上面，語言模型是根據前面4個詞，預測最後一個詞。

但實際，我們的目標不是語言模型本身，所以可以用另一種方法來預測詞的關係。

比如，用上下文。

I want a glass of orange juice to go ...

還是orange這個詞，這時候，我們的樣本就不一定是前面4個詞了。可以是左邊取幾個，右邊取幾個。

比如如下是一個樣本：(左右視窗是2)

glass of (orange) juice to

此外，還有其他方式，比如取上一個詞作為輸入，預測下一個詞。

of (orange)

之類的。這個就是skip-gram的思路。

接下來的例子，模型為：

一個上文->預測一個下文

開始：

(1)->one-hot 乘以詞嵌入矩陣E，得到詞向量

(2)->詞嵌入矩陣輸入到一個softmaxt，直接預測下文

(3)沒有了。

我們看到，吳恩達課程裡，講softmax層的計算公式時，為：

$P(t|C) = \frac{e^{\theta _t^T \cdot e_c}}{\sum_{j=1}^{10000} e^{ \theta _j^T \cdot e_c}}$

這個公式是直接把前面層所做的東西合併了。

這裡的θ，就是softmax層的權重。小寫t表示單詞t在one-hot裡的下表序號。

這個公式，實際上就是將softmax的輸出做一個歸一化，求得t分類的相對概率。

word2vec 學習和理解

這裡先按吳恩達老師的課程講解的softmax做一個筆記，和之前看的一個大神的文章，相對比，來方便我對word2vec的理解。目的：學習一個詞嵌入矩陣E。手段：構建一個語言模型。最老的方法：預測一個句子（4個詞）之後的下一個

FWORK-數據存儲篇 -- 範式與反模式（學習和理解）

str -- 計數查詢空間取數據重點保持數據 -s 理解 1、第二範式的側重點是非主鍵列是否完全依賴於主鍵，還是依賴於主鍵的一部分。第三範式的側重點是非主鍵列是直接依賴於主鍵，還是直接依賴於非主鍵列。 2、反模式範式可以避免數據冗余，減少數據庫的

Java Annontation 註解的學習和理解

Diff 演算法的原理是什麼, 怎樣學習和理解?

https://neil.fraser.name/writing/diff/myers.pdf http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.4.6927 http://citeseerx.ist.psu.e

File類ListFIles()中的過濾器學習和理解包含自定義過濾器實現FileFilter

package day180206; import java.io.File; /* * File類的檔案過濾器 * 遍歷目錄時可以根據自己需要只遍歷自己需要的檔案。 * 遍歷目錄方法listFiles()過載形式 * 在listFiles(FileFilter f

angular 引入編輯器以及控制器的學習和理解。。。

class dex 報錯 callback 1.5.0 ide color 卡住就是在angular中引入編輯器的時候花了很長時間，然後發現自己以前根本就沒好好用過angular，因為項目是接手的學姐的，學姐又是接手的學姐的，到我這裏就只是寫寫頁面的事了。引入編輯器

QueryRunner類的查詢三種方式的學習和理解

/*QueryRunner資料查詢操作：呼叫QueryRunner類方法Query(Connection con,String sql,ResultSetHandler r,Object...params)ResultSetHandler r 結果集的處理方式，傳遞Resul

java之JVM學習--簡單理解編譯和運行的過程之概覽

層次概覽聲明是否 class 異常處理器語義 net ots java代碼編譯流程圖： java字節碼執行由JVM執行引擎完成 Java代碼編譯和執行的整個過程包含了以下三個重要的機制： Java源碼編譯機制類加載機制類執

深度學習深刻理解和應用--必看知識

3.1 講解 target 社區 github flow deep 卷積 work 1.深層學習為何要“Deep” 1.1 神經網絡：從數學和物理兩視角解釋，見：https://zhuanlan.zhihu.com/p/22888385 1.2 網絡加深

【IM】關於稀疏學習和魯棒學習的理解

主要是理解L1和L2正則化，魯棒學習中也是圍繞L1殘差和L2方差損失來提出模型。關於魯棒學習，對於異常值的魯棒性有兩方面：一是對現有樣本中異常點的魯棒性；二是對新增異常點的魯棒性。關於L1和L2正則化，參考如下博文理解： https://blog.csdn.net/fjssharpsw

有監督學習和無監督學習的簡單理解

文章轉載自：http://blog.sina.com.cn/s/blog_4d7c97a00102w958.html 有監督學習和無監督學習的區別是什麼？這個問題可以回答得很簡單：是否有監督（supe

機器學習雜記，主要記錄學習過程中的一些疑問和理解

一、最近看tensorflow，試著寫 cnn 程式碼，其中的一個介面 : def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=True, data_format="NHWC", dilations=[1, 1, 1,

C++學習筆記 — 理解標頭檔案(.h)和原始檔(.cpp)

原始檔根據#include來關聯檔案系統自帶的檔案用尖括號括起來，編譯器會在系統檔案目錄下查詢 #include <> 使用者自定義的檔案用雙括號括起來，編譯器首先在使用者目錄下查詢，然

談談我對java的BIO和NIO的學習的理解

首先io是人機互動的前提是非常重要滴 java在早期只有bio 後面更新出來了nio nio的作用越來越重要有的人稱nio為阻塞式io 這點我覺得很不嚴謹而且對於阻塞與非阻塞的概念我看很多人的說法也不一致在此我只說說我自己的認識畢竟認知也是一個不斷提升和完善的

理解機器學習和深度學習的核心思想與實現思路（入門與總結）[圖文 + 詳細思路]

本文講解涉及到的核心思想：機器學習與深度學習： 1：線性迴歸問題。 2：優化搜尋時，步長選取的重要性。 3：為什麼神經網路可以擬合任意的曲線函式。 4：影象識別網路中，為什麼淺層網路只能識別出一些簡單的線，面，隨著網路的加深可以識別出十分複雜的圖案。 1：線性迴歸

Python3學習筆記（二）：repr和str的思考和理解

最近一下子學了很多的知識點，導致我有點沒反應過來，粗略的在草稿紙記了點自己的想法，趁休息的時間將它敲到部落格裡面去，免得丟失，這一篇寫的挺廢話的，有點囉嗦，本篇的重點是第二段程式後開始的總結和後面的幾個細節問題。關於__repr__和__str__這連個東西，

機器學習兩種方法——監督學習和無監督學習（通俗理解）

前言機器學習分為：監督學習，無監督學習，半監督學習（也可以用hinton所說的強化學習）等。在這裡，主要理解一下監督學習和無監督學習。監督學習（supervised learning）從給定的訓練資料集中學習出一個函式（模型引數），當新的資料到來時，可以根據這個函式

[6]深度學習和Keras---- 深度學習中的一些難理解的基礎概念：softmax， batch，min-batch，iterations，epoch，SGD

在進行深度學習的過程中，我們經常會遇到一些自己不懂的概念和術語，比如，softmax， batch，min-batch，iterations，epoch，那麼如何快速和容易的理解這些術語呢？因為筆者也是深度學習的初學者，所以筆者在學習和瀏覽文章的過程中，把一些自己不太容易和

重磅福利！！機器學習和深度學習學習資料合集

best from pytho robert article 我會 you sandbox lob 比較全面的收集了機器學習的介紹文章，從感知機、神經網絡、決策樹、SVM、Adaboost到隨機森林、Deep Learning。《機器學習經典論文/survey合

OpenCv關於灰度積分圖的SSE代碼學習和改進。

row 關於分代移動運用別了增加字節數需要　　最近一直沈迷於SSE方面的優化，實在找不到想學習的參考資料了，就拿個筆記本放在腿上翻翻OpenCv的源代碼，無意中看到了OpenCv中關於積分圖的代碼，仔細研習了一番，覺得OpenCv對SSE的靈活運用真的做的很

word2vec 學習和理解

第二部分

相關推薦