筆記:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
作者:Zhou P.ACL 2016.
目錄
- Abstract
- Model
- Experiments
- Conclusion
1 Abstract
論文的產出首先就要發現問題,接著針對問題分析產生idea,進而解決問題出成果。那麼本文作者主要針對兩個問題:(1) 之前的關係抽取/分類,如Zeng D et al.2014.\(^{[3]}\)仍然依賴一些人工特徵,如lexical features、position features。(2) 對於句子中的重要資訊的位置具有隨機性,可能出現在任意一個位置。
提出基於attension的模型,不在依賴人工特徵,且attention能夠提取句子中的重要資訊。
2 Model
結構如圖Figure1. 這篇paper所提出的模型主要包含五個部分:(1) 輸入層:本文作者僅使用一個帶有位置標識(e.g. The
2.1 Word Embeddings
直接用預訓練的word embedding,復現時用的是glove.6B.100d.txt。
2.3 Attention
如下公式清晰明瞭,就是一個典型的Soft-Attention,相似度計算採用點積的方式即\(K\cdot{Q}\), H為LSTM輸出hidden state、w為權重矩陣、r為句子標識即對H的加權attention求和之後r又做了個非線性變換餵給dense層通過使用softmax分類器做分類。
3 Experiments
paper結果:F1 score = 0.840,具體引數配置詳見原文
4 Conclusion
“該模型利用了典型的注意力機制對 BiLSTM 的輸出進行了注意力加權求和,在僅利用了詞向量的情況下效果接近加入人工特徵的模型,可見注意力機制的作用也是十分強大的。從論文的結果來看,不進行特徵工程,僅僅將整個句子作為模型輸入,並加入注意力機制,模型效果得到了非常大的提高,一方面說明必要的特徵工程還是有效的,另一方面表明注意力機制也起到了十分明顯的作用\(^{[2]}\)
參考
[1] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.ACL 2016.
[2] 西多士NLP.資訊抽取-關係抽取.部落格園 2019.https://www.cnblogs.com/sandwichnlp/p/12020066.html.
[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.