[DeeplearningAI筆記]序列模型2.7負取樣Negative sampling

阿新 • • 發佈：2019-01-09

5.2自然語言處理

覺得有用的話,歡迎一起討論相互學習~Follow Me

2.7 負取樣 Negative sampling

Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2013:3111-3119.

skip-gram模型可以構造一個監督學習任務，把上下文對映到目標詞上，以學習一個實用的詞嵌入，但是他的缺點是softmax計算起來很慢。本節將會介紹了一個經過優化的學習問題叫做 負取樣

，其能夠做到和 skip-gram 相似的功能但是使用起來更加高效。

樣本生成方法

例句： I want a glass of orange juice to go along with my cereal 構造一個新的監督學習問題，給定一對單詞 orange 和 juice ,預測這是否是一對 上下文詞-目標詞 (context-target) ,在這個樣本中，orange 和 juice 就是一個正樣本。然而對於 orange 和 king 就是一個負樣本。
- 正樣本 的生成是取樣得到一個上下文詞和一個目標詞。其中先在句中隨機均勻的選取一個單詞作為上下文詞。然後在其左右兩邊一定詞距內隨機選擇一個單詞作為目標詞。並且將標籤
  
  設定為1.
- 負樣本 的生成是使用和正樣本一樣的上下文詞，然後從字典中隨機選取一個單詞構成一個組合。並且將標籤設定為0. 其中同一 上下文詞 生成 K個負樣本

context	word	target
orange	juice	1
orange	king	0
orange	book	0
orange	the	0
orange	of	0

注意：正負樣本 的區別僅取決於單詞對的來源，即是 of 也在 orange 的設定詞距之內，但是作為隨機從字典中選取的單詞， of - orange 單詞對仍然被標記為負樣本。

在本次提出的演算法中 輸入資料x 將被設定為 context-word 的單詞對，預測結果y 將被設定為 target 演算法的目的即是區分 樣本取樣的來源
論文作者推薦，小資料集的話 K 被設定為5-20，而對於較大的資料集， K 被設定為2-5.即資料集越小 K 值被設定的越大。

模型學習原理

Skip-grams 中softmax函式定義:

$P (t a r g e t | c o n t e n t) = \frac{e^{θ_{t}^{T} e_{c}}}{\sum_{j = 1}^{10000} e^{θ_{j}^{T} e_{c}}}$
本節演算法定義 輸入Context為c,Word為t,定義輸出Target為y

context	word	target
c	t	y
$x_{1}$	$x_{2}$	y
orange	juice	1
orange	king	0
orange	book	0
orange	the	0
orange	of	0

損失函式 定義為給定 樣本單詞對 的情況下，的概率:
- 使用 $e_{c}$ 表示context的詞嵌入向量其中 $θ_{t}$ 表示每個樣本對應的引數.
- $P (y = 1 | c, t) = σ (θ_{t}^{T} e_{c})$
- 對於每個正樣本都有 K 個負樣本來訓練一個類似logisitic迴歸的模型。

神經網路演算法流程

如果輸入詞是 orange ，即詞典中的第6257個詞，將其使用one-hot向量表示 $o_{6257}$ ,
再傳遞給E(詞嵌入向量矩陣)，通過兩者相乘得到 orange 的嵌入向量 $e_{6357}$
$e_{6357}$ 是一個1W維(字典中總單詞數量)的向量，可以看成是1W個可能的logistic迴歸分類問題，其中一個是用來判斷目標詞是否是 juice 的分類器，當然也有用來判斷 king,book,the… 等詞彙是否是目標詞的分類器。但是每次迭代不都是訓練所有的樣本， 每次迭代只會訓練一個正樣本和隨機選取的 K 個負樣本
- 此演算法將需要計算10000個維度的softmax問題轉化為10000個二分類問題，每一個都易於計算，每次迭代要做的只是訓練其中的 K+1 個樣本，其中一個正樣本和隨機選取的同一個Context的 K 個負樣本。
- 此演算法被稱為 負取樣 ，因為在挑選一個 正樣本 的同時，隨機生成 K個負樣本

負樣本取樣方法

僅考慮單詞在 語料庫 中出現的頻率，會導致負樣本中 the, of, and … 等介詞出現的頻率過高
僅考慮單詞在 詞彙表 中出現的頻率，即在 詞彙表 中隨機取樣，分母是詞彙表中的總詞數，這樣取樣十分沒有代表性。
論文提出取樣公式為:
$P (w_{i}) = \frac{f (w_{i})^{3 / 4}}{\sum_{j = 1}^{10000} f (w_{j})^{3 / 4}}$ 其中 $f (w_{i})$ 表示單詞在語料庫中的詞頻。

[DeeplearningAI筆記]序列模型2.7負取樣Negative sampling

5.2自然語言處理覺得有用的話,歡迎一起討論相互學習~Follow Me 2.7 負取樣 Negative sampling Mikolov T, Sutskever I, Chen

[DeeplearningAI筆記]序列模型2.7負采樣Negative sampling

叠代的區別 text rep 新的 -h 表示 form 監督學習 5.1循環序列模型覺得有用的話,歡迎一起討論相互學習~Follow Me 2.7 負采樣 Negative sampling Mikolov T, Sutskever I, Chen K, et al

深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

目錄: 深度學習語言模型(1)-word2vec的發展歷程深度學習語言模型(2)-詞向量，神經概率網路模型(keras版本) 深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本) 程式碼參考了:https://spaces.a

[DeeplearningAI筆記]序列模型1.1-1.2序列模型及其數學符號定義

5.1迴圈序列模型覺得有用的話,歡迎一起討論相互學習~Follow Me 1.1什麼是序列模型在進行語音識別時，給定了一個輸入音訊片段X，並要求輸出片段對應的文字記錄Y，這個例子中的

[DeeplearningAI筆記]序列模型3.9-3.10語音辨識/CTC損失函式/觸發字檢測

5.3序列模型與注意力機制覺得有用的話,歡迎一起討論相互學習~Follow Me 3.9語音辨識 Speech recognition 問題描述對於音訊片段(audio clip)x

[DeeplearningAI筆記]序列模型3.6Bleu得分/機器翻譯得分指標

5.3序列模型與注意力機制覺得有用的話,歡迎一起討論相互學習~Follow Me 3.6Bleu得分在機器翻譯中往往對應有多種翻譯，而且同樣好，此時怎樣評估一個機器翻譯系統是一個難題

SpringMVC學習筆記(1)——模型2和MVC模式

SpringMVC框架可以幫助開發人員快速地開發MVC應用。 JavaWeb應用開發中有兩種設計模型，為了方便，分別稱為模型1和模型2。模型1是頁面中心，適合於小應用開發。而模型2基於MVC模式，是JavaWeb應用的推薦架構。模型2 模型2基於模型-檢視-控制器(M

筆記猿課2.6-2.7

linux2.6 linux環境變量which ls 查看ls位置/bin/ls --color=auto /var/ == ls /var/ 可以理解為ls的小名alias s=‘ls -alt /var/’啟小名vi .bashrc讓別的終端也可以用自定義快捷鍵echo $PATH 看which找哪裏 P

吳恩達 DeepLearning.ai 課程提煉筆記（4-2）卷積神經網絡 --- 深度卷積模型

mes and shift abd actual 應用比賽特征通道 1. 經典的卷積網絡介紹幾種經典的卷積神經網絡結構，分別是LeNet、AlexNet、VGGNet。 LeNet-5： LeNet-5主要是針對灰度設計的，所以其輸入較小，為，其結構如下：

【吳恩達機器學習】學習筆記——2.7第一個學習算法=線性回歸+梯度下降

com 梯度 .com 局部最優 alt ima 實現梯度下降 width 梯度下降算法：　　　　　　　　　　　　　　線性回歸模型：　　　　　　線性假設：　　　　　　　　　　　　　　　　　　　　　平方差成本函數：將各個公式代入，對θ0、θ1分別求偏導得：再將偏

[DeeplearningAI筆記卷積神經網絡1.6-1.7構造多通道卷積神經網絡

結果一起步驟 mar ref deep 右移最終 inline 4.1卷積神經網絡覺得有用的話,歡迎一起討論相互學習~Follow Me 1.6多通道卷積原理對於一個多通道的卷積操作，可以將卷積核設置為一個立方體，則其從左上角開始向右移動然後向下移動，這裏設

[DeeplearningAI筆記]卷積神經網絡2.3-2.4深度殘差網絡

.com 殘差網絡效率 info cti 所有網絡 com 調整 4.2深度卷積網絡覺得有用的話,歡迎一起討論相互學習~Follow Me 2.3殘差網絡Residual Networks(ResNets) 非常非常深的網絡是很難訓練的，因為存在梯度消失和梯度爆炸的

【論文閱讀筆記3】序列模型入門之LSTM和GRU

本文只是吳恩達視訊課程關於序列模型一節的筆記。參考資料：吳恩達深度學習工程師微專業之序列模型博文——理解LSTM 吳恩達本來就是根據這篇博文的內容來講的，所以個人認為認真學習過吳恩達講的那個課程後可以不用再看那篇博文了，能獲得的新的知識不多，另外網上的博文基本也都是根據那篇

DeepLearning.ai筆記:(5-3) -- 序列模型和注意力機制

title: ‘DeepLearning.ai筆記:(5-3) – 序列模型和注意力機制’ id: dl-ai-5-3 tags: dl.ai categories: AI Deep Learning date: 2018-10-18 18:39:10

高手讀書筆記-2-7章

前言 1.天才和瘋子的一線之隔 2.巨人的工具 3.決策的藝術 4.資料統治世界 5.智識的尺度 6.洞見未來 7.總結一.天才和瘋子的一線之隔追逐者，追逐心態的三個來源第一個來源是跟別人比第二個來源是，我們總認為要想辦成更多的事，就得動用更多的資源第三個來源是，我們單純就是

迴圈序列模型——05.序列模型第一週課程筆記

一、為什麼使用序列模型能處理非固定大小輸入的問題，例如語音識別，DNA序列分析，機器翻譯這種是一串序列的問題。二、數學符號表示以自然語言處理為例： x: Harry Potter and Hermione Granger invented a new spell. 以

序列模型（2）-----迴圈神經網路RNN

一、RNN的作用： RNN可解決的問題：訓練樣本輸入是連續的序列,且序列的長短不一，比如基於時間的序列：一段段連續的語音，一段段連續的手寫文字。這些序列比較長，且長度不一，比較難直接的拆分成一個個獨立的樣本來通過DNN/CNN進行訓練。二、RNN模型：上圖中左邊是RNN模型沒

吳恩達序列模型學習筆記--迴圈神經網路（RNN）

1. 序列模型的應用序列模型能解決哪些激動人心的問題呢？語音識別：將輸入的語音訊號直接輸出相應的語音文字資訊。無論是語音訊號還是文字資訊均是序列資料。音樂生成：生成音樂樂譜。只有輸出的音樂樂譜是序列資料，輸入可以是空或者一個整數。情感分類：將輸入的評論句子轉換

輸入某二叉樹的前序遍歷和中序遍歷的結果，請重建出該二叉樹。假設輸入的前序遍歷和中序遍歷的結果中都不含重複的數字。例如輸入前序遍歷序列{1,2,4,7,3,5,6,8}和中序遍歷序列{4,7,2,1,5

思路：前序遍歷的第一個元素就是根節點，在中序遍歷中找到根節點的位置，根節點前面的元素就二叉樹的左子樹，根節點後面的元素就是二叉樹中的右子樹，在找出左子樹和右子樹的前序遍歷和中序遍歷，然後遞迴呼叫，再找根節點和左子樹、右子樹 /** * Definition for bi

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達DeepLearning.ai筆記（5-1）– 迴圈序列模型 1.一些序列資料例子 2.數學符號 x<1>x<1>輸入序列X第一個單詞，TixTxi輸入序列X的單詞個數，X（i）<t>X（i）&l

[DeeplearningAI筆記]序列模型2.7負取樣Negative sampling

5.2自然語言處理

覺得有用的話,歡迎一起討論相互學習~Follow Me

2.7 負取樣 Negative sampling

樣本生成方法

模型學習原理

神經網路演算法流程

負樣本取樣方法

相關推薦