1. 程式人生 > >Notes on Noise Contrastive Estimation and Negative Sampling

Notes on Noise Contrastive Estimation and Negative Sampling

call spec 沖突 note RM sibling tps models ted

Notes on Noise Contrastive Estimation and Negative Sampling

## 生成負樣本

在常見的關系抽取應用中,我們經常需要生成負樣本來訓練一個好的系統。如果沒有負樣本,系統會趨向於把所有的變量分類成正類。但是,在關系抽取中,並不容易找到足夠的高質量的負樣本(ground truth)。這種情況下,我們通常需要使用distant supervision來生成負樣本。

負樣本的生成多少可看成是一種藝術。以下討論了幾種常用的方法,還有些方法沒有列出。
- random sampling
- incompatible relations
- domain-specific knowledge


## 隨機抽樣 Random samples
另一種產生負面證據的方法是在所有變量中隨機抽取一小部分(people mention pairs in our spouse example),並將其標記為負面證據。
這可能會產生一些錯誤的負面例子,但是如果統計變量更有可能是錯誤的,那麽隨機抽樣就會起作用。
例如,大多數人在句子中提到成對,但他們不是配偶,我們就可以在提及成對的人群中,隨機抽取一小部分的,並把它們標記為錯誤的配偶關系的例子。

## 不相容關系
不相容關系總是或常常是與我們想要抽取的關系沖突的。比如我們有2個實體,x & y. 我們想抽取A關系,而B是與A不相容關系,我們有:

>> B(x,y) => not A(x,y)
比如,我們要為"spouse"(配偶)關系生成負樣本,我們可以使用非配偶關系來作為與之不相容的關系,比如parents, children, or siblings: 如果 x 是 y 的父母,那麽x和y不能是夫妻。

## 特定領域規則
有時,我們可以利用其他領域特定的知識來生成負樣本。這些規則的設計很大程度上依賴於應用場景。例如,對於配偶關系,一個使用時間信息的領域特定規則是“不同時活著的人不可能是配偶”。Specifically, if a person x has birth_date later than y‘s death_date, then x and y cannot be spouses.


This is the video of Negative Sampling in Natural Language Process Course in Coursea.com:
https://www.coursera.org/learn/nlp-sequence-models/lecture/Iwx0e/negative-sampling

[Noise-Contrastive Estimation of Unnormalized Statistical Models with Applications to Natural Image Statistics]

[Word2vec Parameter Learning Explained]

[Efficient Estimation of Word Representation in Vector Space]

[Distributed Representations of Words and Phrases and their Compositionality]

[Notes on Noise Contrastive Estimation and Negative Sampling]

Notes on Noise Contrastive Estimation and Negative Sampling