Notes on Noise Contrastive Estimation and Negative Sampling

## 生成負樣本

在常見的關系抽取應用中,我們經常需要生成負樣本來訓練一個好的系統。如果沒有負樣本,系統會趨向於把所有的變量分類成正類。但是,在關系抽取中,並不容易找到足夠的高質量的負樣本(ground truth)。這種情況下,我們通常需要使用distant supervision來生成負樣本。

- random sampling
- incompatible relations
- domain-specific knowledge

## 隨機抽樣 Random samples
另一種產生負面證據的方法是在所有變量中隨機抽取一小部分(people mention pairs in our spouse example),並將其標記為負面證據。

## 不相容關系
不相容關系總是或常常是與我們想要抽取的關系沖突的。比如我們有2個實體,x & y. 我們想抽取A關系,而B是與A不相容關系,我們有:

>> B(x,y) => not A(x,y)
比如,我們要為"spouse"(配偶)關系生成負樣本,我們可以使用非配偶關系來作為與之不相容的關系,比如parents, children, or siblings: 如果 x 是 y 的父母,那麽x和y不能是夫妻。

## 特定領域規則
有時,我們可以利用其他領域特定的知識來生成負樣本。這些規則的設計很大程度上依賴於應用場景。例如,對於配偶關系,一個使用時間信息的領域特定規則是“不同時活著的人不可能是配偶”。Specifically, if a person x has birth_date later than y‘s death_date, then x and y cannot be spouses.

This is the video of Negative Sampling in Natural Language Process Course in Coursea.com:

