Notes on Noise Contrastive Estimation and Negative Sampling
## 生成負樣本
在常見的關系抽取應用中,我們經常需要生成負樣本來訓練一個好的系統。如果沒有負樣本,系統會趨向於把所有的變量分類成正類。但是,在關系抽取中,並不容易找到足夠的高質量的負樣本(ground truth)。這種情況下,我們通常需要使用distant supervision來生成負樣本。
負樣本的生成多少可看成是一種藝術。以下討論了幾種常用的方法,還有些方法沒有列出。
- random sampling
- incompatible relations
- domain-specific knowledge
## 隨機抽樣 Random samples
另一種產生負面證據的方法是在所有變量中隨機抽取一小部分(people mention pairs in our spouse example),並將其標記為負面證據。
這可能會產生一些錯誤的負面例子,但是如果統計變量更有可能是錯誤的,那麽隨機抽樣就會起作用。
例如,大多數人在句子中提到成對,但他們不是配偶,我們就可以在提及成對的人群中,隨機抽取一小部分的,並把它們標記為錯誤的配偶關系的例子。
## 不相容關系
不相容關系總是或常常是與我們想要抽取的關系沖突的。比如我們有2個實體,x & y. 我們想抽取A關系,而B是與A不相容關系,我們有:
比如,我們要為"spouse"(配偶)關系生成負樣本,我們可以使用非配偶關系來作為與之不相容的關系,比如parents, children, or siblings: 如果 x 是 y 的父母,那麽x和y不能是夫妻。
## 特定領域規則
有時,我們可以利用其他領域特定的知識來生成負樣本。這些規則的設計很大程度上依賴於應用場景。例如,對於配偶關系,一個使用時間信息的領域特定規則是“不同時活著的人不可能是配偶”。Specifically, if a person x has birth_date later than y‘s death_date, then x and y cannot be spouses.
This is the video of Negative Sampling in Natural Language Process Course in Coursea.com:
https://www.coursera.org/learn/nlp-sequence-models/lecture/Iwx0e/negative-sampling
Related Papers
[Noise-Contrastive Estimation of Unnormalized Statistical Models with Applications to Natural Image Statistics]
[Word2vec Parameter Learning Explained]
[Efficient Estimation of Word Representation in Vector Space]
[Distributed Representations of Words and Phrases and their Compositionality]
[Notes on Noise Contrastive Estimation and Negative Sampling]
Notes on Noise Contrastive Estimation and Negative Sampling