Candidate sampling：NCE loss和negative sample

阿新 • • 發佈：2018-12-07

在工作中用到了類似於negative sample的方法，才發現我其實並不瞭解candidate sampling。於是看了一些相關資料，在此簡單總結一些相關內容。

主要內容來自tensorflow的candidate_sampling和卡耐基梅隆大學一個學生寫的一份notesNotes on Noise Contrastive Estimation and Negative Sampling，還有一部分參考了tensorflow的nce_loss和sampled_softmax_loss的文件。

What is Candidate Sampling

首先，什麼是candidate sampling呢？假設我們有這樣一個問題，給定一個樣本集，其中每個樣本由 $(x_i, T_i)$

，其中 $x_i$ 是輸入特徵， $T_i$ 是一個target小集合，滿足 $T \subset L, |T| << |L|$ 。我們的目標是學習一個 $F(x, y)$ ，使得給定一個 $x$ ，我們可以預測出類別 $y$ 為正的可能性。

如果我們使用正常的softmax方法，那麼在計算每一個sample時，我們都需要遍歷整個集合 $|L|$ ，對每一個可能的 $y$ 計算一次 $F(x, y)$ ，這是非常昂貴的操作。尤其是在NLP的相關預測中，這一操作代價更加高昂。所以candidate sampling的方法被提了出來：在計算每一個sample時，我們從整個標籤集合或者負標籤集合中隨機取樣出一個小的candidate集合 $S$ ，將 $S$ 和 $T$ 一起組成當前的candidate集合 $C = S \cup T$ ，並在 $C$ 上計算 $F(x, y)$ 。

常見的candidate sampling方法的特性可以見下表：

在這個表中， $K(x)$ 是一個不依賴於候選類的任意函式。由於Softmax涉及歸一化，因此新增這樣的函式不會影響計算的概率。 $Q(y|x)$ 是 $S_i$ 中類y的期望概率或者期望個數。

NCE和nagetive sample可以適應於 $T_i$ 是multiset的情況，在這種情況下， $P(y|x)$ 等於 $T_i$ 中類y的期望個數。NCE，negative sampling和sampled logistic可以適應於 $S_i$ 是multiset的情況，在這種情況下， $Q(y|x)$ 等於 $S_i$ 中類y的期望個數。

Noise Contrastive Estimation (NCE)

我們考慮一種簡單的也是最常用的情況， $|T| = 1$ 。以經典的word預測為例，此時 $T= {t_i}$ 。我們給定經驗分佈 $\widetilde{P}(x)$ 和 $\widetilde{P}(t|x)$ ，則每一個訓練集中的正樣本都相當於從 $\widetilde{P}(x)$

取樣出一個 $x_i$ ，並在這個 $x$ 的基礎上在 $\widetilde{P}(t|x)$ 上取樣出 $t_i$ ，並標定label $d = 1$ 。同時我們從分佈 $Q(x)$ 中取樣出 $k$ 個noise samples，則

P(d, t|x)=
\begin{cases}
\frac{k}{1 + k}Q(x) & \text{d=0}\\
\frac{1}{1 + k}\widetilde{P}(t|x)& \text{d=1}
\end{cases}

那麼使用條件概率公式，我們就可以寫出:

$P(d = 0| t, x) = \frac{k * Q(x)}{\widetilde{P}(t|x) + k * Q(x)}$

$P(d = 1| t, x) = \frac{\widetilde{P}(t|x)}{\widetilde{P}(t|x) + k * Q(x)}$

在神經網路演算法中，我們使用 $P_\theta(t,x)$ 來代替 $\widetilde{P}(t|x)$ ，並試圖用梯度下降法來訓練 $\theta$ 。

Negative Sampling

Negative Sampling是NCE的一種近似，比較值得注意的是，negative sampling對於分佈Q有強依賴，NCE則沒有這個問題。

tensorflow實現

NCE loss在tensorflow中的文件可以參考tf.nn.nce_loss。要注意的是，使用這種方法時，標籤必須按照frequency的降序排序，因為預設的取樣方法是tf.nn.log_uniform_candidate_sampler。當然我們也可以實現自己的取樣方法。

Negative sampling則用sampled_softmax_loss來實現，注意sampled_softmax_loss只能處理一個正label的情況。

Candidate sampling：NCE loss和negative sample

在工作中用到了類似於negative sample的方法，才發現我其實並不瞭解candidate sampling。於是看了一些相關資料，在此簡單總結一些相關內容。主要內容來自tensorflow的candidate_sampling和卡耐基梅隆大學一個學生寫的一份notesNotes on Noise

nce loss 和

regress 易懂 gpo 實現 gist 可能 gis max http 今天在訓練word vec的時候，用的是nce_loss. 官方sample和我寫的可視化示例裏面，都用的這個 nce_loss。今天找了一下解釋，找到這個頁面： https://www.z

人臉識別：Contrastive loss和梯度推到

Contrastive loss 最初源於 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2016。該損失函式主要是用於降維中，即本來相似的樣本，在經過降維（特徵提

Tensorflow的取樣方法：candidate sampling

取樣介紹假如我們有一個多分類任務或者多標籤分類任務，給定訓練集(xi,Ti)，其中xi表示上下文，Ti表示目標類別(可能有多個).可以用word2vec中的negtive sampling方法來舉例，使用cbow方法，也就是使用上下文xi來預測中心詞(單個t

人臉識別：損失函式之softmax loss和cross entropy Loss

轉載blog：http://blog.csdn.net/u014380165/article/details/77284921 我們知道卷積神經網路（CNN）在影象領域的應用已經非常廣泛了，一般一個CNN網路主要包含卷積層，池化層（pooling），全連線層，損失層等。

cs231n-(5)神經網路-2：設定資料和Loss

資料預處理神經網路輸入的資料往往要經過預處理。假設資料X大小為[N x D]，其中N表示元素個數，D表示維度。減去均值最長用的就是減去每個特徵的均值（均值常常有訓練集計算得到），減去均值的幾何意義是將資料中心大致移到零點。。使用python時，可以用X-=np.mean(X,

YII框架分析筆記2：組件和事件行為管理

reac 設置有變相關 article class ces col cal Yii是一個基於組件、用於開發大型 Web 應用的高性能 PHP 框架。CComponent幾乎是所有類的基類，它控制著組件與事件的管理，其方法與屬性如下，私有變量$_e數據存放事件(evnet

mysql5.7：mysql安裝和基於SSL加密的主從復制（詳細剖析）

mysql ssl db 數據加密傳輸小生博客：http://xsboke.blog.51cto.com 小生 Q Q：1770058260 -------謝謝您的參考，如有疑問，歡迎交流目錄：--------my

解析：用 CSS3 和 JavaScript 制作徑向動畫菜單

select webkit on() making 它的 text tran 表示 har 原作者的解析（英文）：http://creative-punch.net/2014/02/making-animated-radial-menu-css3-javascript

2017-05-06隨記：基礎命令和符號

基礎命令2017-05-06基礎命令：1.mkdir 創建目錄 make directory -p 遞歸創建2.ls 顯示目錄中的內容，列表 list -l （小寫字母L) 顯示詳細的信息 3.pwd 顯示當前你所在的位置

javascript學習：閉包和prototype原型使用基礎

c# 作用 cnblogs public return rem 聲明 pre 都是閉包 function Person(name) { this.Username = name; var Userage = 18;

初識Socket通信：基於TCP和UDP協議學習網絡編程

auth bsp servers 客戶 name 本地監聽 max ava 學習筆記： 1.基於TCP協議的Socket網絡編程：　　（1）Socket類構造方法：在客戶端和服務器端建立連接　　　　Socket s = new Socket(hostName,port

iptables實用教程（二）：管理鏈和策略

否則命令顯示 accept 目的 number cep 存在當前末尾概念和原理請參考上一篇文章“iptables實用教程（一）”。本文講解如果管理iptables中的鏈和策略。下面的代碼格式中，下劃線表示是一個占位符，需要根據實際情況輸入參數，不帶下劃線的表示是

java基礎：標識符和組成規則

規則字母方法 java基礎 font clas 本質 java class 標識符的概念：就是給類，接口，方法，變量等起名字的字符序列標識符的組成規則： A:英文大小寫字母 B:數字 C:$和_ 註意事項： A:不能以數字開頭 B:不能是java中的關鍵字 C

銀行卡卡號識別：C#版本和iOS版本

及其 emgucv ria topic ext 網址整體 link 比較（一）圖像采集首先我們要取得待識別的圖像。這項工作可以通過數碼相機、DV機、工業攝像機、電腦數字攝像頭、手機攝像頭等設備采集，並從中取得我們要分析的圖像信息。（二）版面分析

C++ Primer高速入門之六：數組和指針

borde ott 1.5 del word ans 12px 關聯 bre 更新：勘誤，delete [] 豬我們知道，C語言以及早期的面向結構的語言差點兒都支持數組定義。比方整形數組int 女神[2]。表示有倆數: 女神[0], 女神[1]。她們都是

深入理解php內核編寫擴展 I：介紹PHP和Zend

保持理論 ifd gem counter 被調用 builds 讀取添加內容: 編寫擴展I - PHP和Zend起步原文：http://devzone.zend.com/public/view/tag/Extension Part I: Introduction

考研學生應該知道：研究方向和開發技術

應用計算機軟件 blog 科研移動應用設計嵌入 targe ack 我自己的一位大二學生，由參加ACM不安心。後來體會了應用的核心在算法，能在競賽中坐住了。但如今，又有新問題了。　　【來信】　　賀老師，我想問一下，假設打算考研，在這四年裏僅僅搞算法不搞應用，或者說

Setting up a EDK II build environment on Windows and Linux：搭建Windows和Linux開發環境[2.2]

set clu cto 無法安裝 urn ems water 了解源代碼管理 Setting up a EDK II build environment on Windows and Linux：搭建Windows和Linux開發環境[2.2] 2015-07 北

Hibernate（十五）：QBC檢索和本地SQL檢索

page eight _id div dpa like where sel ati QBC檢索 QBC查詢就是通過使用Hibernate提供的Query By Criteria API來查詢對象，這種API封裝了SQL語句的動態拼裝，對查詢提供了更加面向對象的功能