1. 程式人生 > 其它 >筆記:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

筆記:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

作者:Zhou P.ACL 2016.

目錄

  • Abstract
  • Model
  • Experiments
  • Conclusion

1 Abstract

論文的產出首先就要發現問題,接著針對問題分析產生idea,進而解決問題出成果。那麼本文作者主要針對兩個問題:(1) 之前的關係抽取/分類,如Zeng D et al.2014.\(^{[3]}\)仍然依賴一些人工特徵,如lexical features、position features。(2) 對於句子中的重要資訊的位置具有隨機性,可能出現在任意一個位置。

提出基於attension的模型,不在依賴人工特徵,且attention能夠提取句子中的重要資訊。

2 Model

結構如圖Figure1. 這篇paper所提出的模型主要包含五個部分:(1) 輸入層:本文作者僅使用一個帶有位置標識(e.g. The founderof the Mircrosoft is BiilGates)的原生句子作為輸入,沒有依賴其他任何人工特徵或外部資訊。(2) embedding層:把每個word對映到低維向量空間中。(3) LSTM層:利用BLSTM通過步驟(2) 得到更高維的特徵提取。(4) Attention 層:產生一個權重向量並且通過hidden state序列與att_weight矩陣相乘將詞級別的特徵整合為句子級別的特徵向量。(5) 輸出層:句子級別的特徵向量最終被用於關係分類。

2.1 Word Embeddings

直接用預訓練的word embedding,復現時用的是glove.6B.100d.txt。

2.3 Attention

如下公式清晰明瞭,就是一個典型的Soft-Attention,相似度計算採用點積的方式即\(K\cdot{Q}\), H為LSTM輸出hidden state、w為權重矩陣、r為句子標識即對H的加權attention求和之後r又做了個非線性變換餵給dense層通過使用softmax分類器做分類。

3 Experiments

paper結果:F1 score = 0.840,具體引數配置詳見原文

4 Conclusion

“該模型利用了典型的注意力機制對 BiLSTM 的輸出進行了注意力加權求和,在僅利用了詞向量的情況下效果接近加入人工特徵的模型,可見注意力機制的作用也是十分強大的。從論文的結果來看,不進行特徵工程,僅僅將整個句子作為模型輸入,並加入注意力機制,模型效果得到了非常大的提高,一方面說明必要的特徵工程還是有效的,另一方面表明注意力機制也起到了十分明顯的作用\(^{[2]}\)

。”

參考

[1] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.ACL 2016.

[2] 西多士NLP.資訊抽取-關係抽取.部落格園 2019.https://www.cnblogs.com/sandwichnlp/p/12020066.html.

[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.