筆記:Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification
Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification
作者:Tianyu Gao et al., AAAI 2019.
目錄
- Introduction
- Methodology
- Experiments
- Conclusion
1 Introduction
正如paper題目,Hybrid--混合,本文主要在Prototypical Networks(Jake Snell et al., NIPS 2017\(^{[2]}\))的基礎之上,將DS(distant supervision)任務的噪聲問題放到few-shot任務中,使用類似DS任務常用的:sentence-level、word-level的attention方法,處理噪聲問題,做Few-Shot的RC任務。
前置few-shot基本概念見參考[6]。
2 Methodology
一圖以蔽之,如下圖Figure 1 (a),清晰明瞭。主要分三個步驟,instance encoder(句子編碼器)、Feature-level attention、Instance-level attention,最後得到d類似Prototypical Networks中的歐氏距離--衡量query set中的instance與經過support set訓練得到的每個類別的prototype vector之間的距離(相似度)--之後對\(d = d_1,...,d_N\)做softmax後預測類別(直接取softmax後概率最大的)。
2.1 Instance Encoder
Zeng et al., 2014 \(^{[3]}\)/ Zeng et al.,2015\(^{[4]}\)的CNN/PCNN句子編碼器,沒什麼好說的。
2.2 Feature-level Attention
如上圖Figure 1 (b),就是對support set中的隨機選取的每個類別的所有instance做多層卷積處理得到最終的\(z\)。不就類似attention based muti-instance RE麼,support set中每個類別的所有句子,就是一個小型bag,所謂feature-level attention就是類似sentence-level attention(Lin et al.,2016\(^{[5]}\)
考慮到原Prototypical Networks中用的簡單的歐氏距離不足以處理由於few-shot的support set資料很少所帶來的特徵稀疏的問題以及具體對比較具有區分性的特徵關注不足的問題,本文作者設計了新的距離的計算如下公式Eq (11)。如圖Figure 1 (a),z是feature-level attention Figure 1 (b)所得到的,\(s_1,s_2\)就是經過instance-level attetion得到的原型\(c\)和query set中的instance,兩者做差之後element-wise取平方,再乘\(z\)內積得到最終的相似度--距離。
2.3 Instance-level Attention
原Prototypical Networks中每個類別的原型vector的獲取就是簡單的對support set中每個類別的所有instance取個平均,得到每個類別的原型,如下公式Eq (7),\(i\)為relation類別,\(j\)為每個類別中第\(j\)個句子。
作者採用了新的attention的方式獲取原型,作者原因有兩點(對比original 方法):首先對於每個類別原型的獲取,若是有一個instance的表示(即\(x_i^j\))偏離很多就會很大程度影響整體,因為平均即給所有句子分配的權重都一致。其次,原始的方法只根據support set中的instances,並沒有看過query set中的instance(這裡還都是training set所以看query應該是可以的,query感覺就有點像驗證作用),所以普通的模型提取的特徵對query set中instance的分類可能幫助有限。具體如下Eq (9) Eq (10)以及Figure 1 (a)。
其中,\(c_i\)為第i類relation,\(\mathbf{x_i^j}\)為第i類關係在support set中所對應的第j個instance,\(\mathbf{x}\)為query ,\(\alpha_j\)為權重,\(k\)為類別,\(g(\cdot)\)為線性層。\(\bigodot\)是element-wise product相乘,\(\sigma{(\cdot)}\)是啟用函式,\(sum{\{\cdot\}}\)表示對vector裡的所有元素求和,正如Figure 1所描述的一樣。
3 Experiments
沒細看,感興趣可以看看原文。
4 Conclusion
本文除了距離計算有點創新改進之外,其它的就是把DS噪聲問題引入到few-shot任務了,且噪聲確實對少樣本的情況影響更大,模型整體的組合還是可以值得參考參考的。
參考
[1] Tianyu Gao,∗ Xu Han,∗ Zhiyuan Liu,† Maosong Sun.Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification.AAAI 2019.
[2] Jake Snell.Kevin Swersky.Richard Zemel.Prototypical Networks for Few-shot Learning.NIPS 2017.
[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.
[4] Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao.Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks.EMNLP 2015.
[5] Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, Maosong Sun.Neural Relation Extraction with Selective Attention over Instances.ACL 2016.
[6] 羽_羊.小樣本學習(few-shot learning)之——原形網路(Prototypical Networks).CSDN 2018.https://blog.csdn.net/m0_38031488/article/details/85274890.
[7] Matt_sh.論文筆記:Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification.CSDN 2020.06.https://blog.csdn.net/Matt_sh/article/details/106986467.