筆記:Enriching Pre-trained Language Model with Entity Information for Relation Classification
Enriching Pre-trained Language Model with Entity Information for Relation Classification
作者:Shanchan Wu、Yifan He
目錄:
- Introduction
- Method
- Experiments
- Conclusion
1 Introduction
自從Bert問世以來,再多個NLP任務中都有不錯的表現,大多為分類和序列標註任務。那麼本文嘗試使用Bert做關係抽取--主要是關係分類。
2 Method
R-BERT的整體結構如圖Figure 1所示。
首先,與其他關係分類一致,輸入為標識了兩個實體的一條語句。同時由於關係分類任務與其他多分類任務以及序列標註任務不同,我們不僅需要考慮輸入語句的語義資訊,同時還要考慮語句中兩個實體的資訊。因此,作者為了讓BERT能夠識別兩個標識的實體,分別再兩個實體前後加入了一個特殊符號,使得BERT能夠提取兩個實體的區域性資訊。同時類似BERTpaper中的輸入也加入了[CLS]符號再句首,標識句子的開始以及若是輸入為兩個語句加了個[SEP]分隔符,用於分隔兩個句子。如實體為“kitchen”、“house”的一條語句:“[CLS] The $ kitchen $ is the last renovated
part of the # house # . ”。
其次,輸入給BERT後得到對應的輸出,假設BERT最後一層的hidden state 輸出為H,那麼如圖其中\(H_i\)到\(H_j\)代表第一個實體最後一層的hidden state輸出,同理\(H_k\)到\(H_m\)代表第二個實體最後一層的hidden state輸出,對於這兩個實體的hidden state,我們採用average的方法分別將每個實體的hidden state都轉換為對應的一個hidden state 的vector,之後經過tanh非線性變換以及dense層線性變換,得到最終的兩個實體各自的表示,\(H'_1\)和\(H'_2\),如下公式Eq (1)。
對於特殊符號[CLS],同樣做線性非線性變換得到\(H'_0\)
最後,我們將這三個H拼接為一個vector即一維張量,餵給softmax全連線層做分類,如下公式Eq (3)所示,其中\(W_3\)為\(L\times{3d}\)的權重矩陣,L為關係類別數,p為最終關係預測的概率。
3 Experiments
作者與其他多個關係分類方法做了對比,詳見原文。
同時還做了定量分析,分析除了BERT以外到底那部分元件對整個模型的效能貢獻叫較大,文中主要做了三組對比,BERT-NO-SEP-NO-ENT、BERTNO-SEP和BERT-NO-ENT。分別去掉實體前後的特殊符號以及實體的hidden state。結果表明特殊分隔符和實體的hidden state都很重要,究其原因,作者認為這個特殊識別符號能夠使得BERT確認兩個實體的位置,這樣就會將關係抽取中比較重要的兩個實體及其區域性的資訊遷移到BERT模型中,使得BERT輸出中包含兩個實體的位置資訊。同時,作者還認為將三個H拼接結合的操作會更進一步的豐富資訊使得模型會做出更加準確的預測。
4 Conclusion
未來可以考慮把這個模型進行擴充套件,將其用在distant supervision上。
因為本文的訓練集中的資料是不含噪聲的也就是說資料不是通過DS方法得到的,同時本文也只是針對一個句子而非mutil-instances。
參考
[1] Shanchan Wu and Yifan He. 2019. Enriching pre-trained language model with entity information for relation classification. arXiv preprint arXiv:1905.08284.