【論文筆記】Neural Relation Extraction with Multi-lingual Attention
一、概要
該paper發於ACL2017上,作者主要基於關係事實通常在各種語言中存在某種模式表達,並且不同語言之間的模式是不同的這兩個動機,針對於當前存在的單語言關係抽取的方法,從而存在忽略不同語言中存在大量資訊的問題,作者提出了一個基於多語言交叉Attention機制實體關係抽取方法,可以充分不同語言中的關係模式,從而增強關係模式的學習,文中提出的Multi-lingual Attention-based Neural Relation Extraction (MNRE)模型相對單語言模型有較好地提升。
二、模型方法
2.1 模型結構
2.2 Sentence Encoder
作者對比的CNN、GRU,以及LSTM對句子進行編碼為distributed representation,在計算效率即效果上發現CNN最好,所以使用CNN對輸入句子進行Encoder。
這裡同樣使用了word embedding與position embedding作為Input Representation,具體可以檢視
2.3 Multi-lingual Attention
①Mono-lingual Attention
對於第j種語言對應的句子集合
其中
其中
其中
②Cross-lingual Attention
整篇文章的重點就在這裡了!!!假設j與k分別代表兩種不同語言,那麼cross-lingual representation
其中
其中
其中
是不是很簡單???ACL!ACL!ACL!怎麼自己想不到?
2.4 Prediction
對於每一個實體對以及對應的句子集在m中語言中,我們通過multi-lingual attention可以獲得m*m的向量{
最後把這些向量經過全連線層即softmax函式,然後分別相加即可得到每個關係的概率,為了更好的考慮不同語言的特點,可以在全連線層時在共享權值的基礎上加上每種語言特有的權值矩陣,如
三、實驗結果
作者做得對比實驗就不細講的,雖然這些對比實驗某種程度上是這篇論文價值的重要體現,但不是本次學習模型的目的,所以跳過,簡單貼出一些實驗結果。
四、結論與思考
該文章提出了多語言Attention關係提取方法,以考慮多種語言之間的模式一致性和互補性。 結果表明,其模型可以有效地建立語言之間的關係模式,實現很好地效果。
五、個人思考:
①作者文末提到此次只是針對句子級別的多語言Attention,可能還可以考慮詞和字的多語言Attention,以及本次只是使用的中文和英文兩種語言。
②本篇文章方法很簡單,但是卻能做出結果,並中ACL,一個方面是作者做了很多的對比實驗,其並進行深入的討論對比,這是值得學習的地方,另一方面是方法思路符合我們的常理,idea簡單實用。
參考文獻:
①Yankai Lin1, Zhiyuan Liu1,Maosong Sun.Neural Relation Extraction with Multi-lingual Attention
②程式碼連結:https://github.com/thunlp/MNRE。