關係抽取總結
出現的知乎的連結筆記部分是我寫的,也有我的同學寫的。知乎id: WhiteAndWhite
(本人是北郵研究生,畢設的方向是實體關係抽取,在這裡總結一下我看過的關於這個task的文獻,肯定有很多錯誤,還請大家指出。知乎上有我實驗室的專欄,我在上面會每隔三個禮拜釋出一篇文章,一般都是關於本task的。本人才疏學淺,程式碼能力接近0,大家見笑了。)
傳統的關係抽取方法總結:
基於句法解析增強的方法,Milleret al. 2000
基於邏輯迴歸的方法,Kambhatla 2004
基於核函式的方法,Zhao and Grishman 2005; Bunescu and Mooney 2006
基於條件隨機場的方法,Culotta et al. 2006
遠端監督,Distant supervision,Mintz et al. 2009
基於無向圖模型的關係抽取方法,Yao et al. 2010
增強遠端監督的假設,Riedel et al. 2010
改進實體對齊,Takamatsuet al. 2012
多例項多標籤,Hoffmann etal. 2011
多標籤多例項+貝葉斯網路,Surdeanu etal. 2012
基於深度學習的關係抽取方法(2015年之前的,CNN剛剛火起來):
RNN,Socher et al. 2012
[Socher et al. 2012] 提出使用遞迴神經網路來解決關係抽取問題。該方法首先對句子進行句法解析,然後為句法樹上的每個節點學習向量表示。通過遞迴神經網路,可以從句法樹最低端的詞向量開始,按照句子的句法結構迭代合併,最終得到該句子的向量表示,並用於關係分類。該方法能夠有效地考慮句子的句法結構資訊,但同時該方法無法很好地考慮兩個實體在句子中的位置和語義資訊。
CNN,Zeng et al. 2014
他們採用詞彙向量和詞的位置向量作為卷積神經網路的輸入,通過卷積層、池化層和非線性層得到句子表示。通過考慮實體的位置向量和其他相關的詞彙特徵,句子中的實體資訊能夠被較好地考慮到關係抽取中。
CNN,新的損失函式,Santos et al. 2015
後來,[Santos et al. 2015]還提出了一種新的卷積神經網路進行關係抽取,其中採用了新的損失函式,能夠有效地提高不同關係類別之間的區分性。
CNN,擴充套件至遠端監督,Zeng et al. 2015
理解遠端監督 a glance at Distant Supervision
什麼是遠端監督呢?一開始是因為覺得人工標註資料比較費時費力,那麼就有人想來個自動標註的方法。遠端監督就是幹這個事兒的。
假設知識庫KB當中存在實體與實體的關係,那麼將KB當中的關係引入到正常的自然語言句子當中進行訓練,例如‘蘋果’和’喬布斯’在KB中的關係是CEO,那麼我們就假設類似於“【喬布斯】釋出了【蘋果】的新一代手機”的句子上存在CEO的關係,如此,利用KB對海量的文字資料進行自動標註,得到標註好的資料(正項),再加入一些負項,隨後訓練一個分類器,每個分類是一個關係,由此實現關係抽取。
09年的文章就是這個思想:在KB中有一個triplet,那麼在corpus中凡是有這個entity pair的sentence全都當成含有這個relation的instance
下面是我閱讀過的文獻,幾乎都是基於深度學習的。這些文章有些很有新意,也有一些是在單純灌水。
論文總結 paper reading
論文名稱:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
論文資訊:Zeng et al. 2015 EMNLP
模型名稱:PCNN
論文內容:非常經典的文章,分段式的max pooling。後面做的文章都要引用這篇文章。
原文地址:http://aclweb.org/anthology/D/D15/D15-1203.pdf
論文名稱:Bidirectional Recurrent Convolutional Neural Network for Relation Classification
作者資訊:Rui Cai 2016 ACL
模型名稱:BRCNN
論文內容:本文提出了一個基於最短依賴路徑(SDP)的深度學習關係分類模型,文中稱為雙向遞迴卷積神經網路模型(BRCNN)
原文地址:http://www.aclweb.org/anthology/P/P16/P16-1072.pdf
論文名稱:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
作者資訊:Miwa et al. 2016
模型名稱:BiLSTM SPTree
論文內容:用了一種樹形的結構
原文地址:http://www.aclweb.org/anthology/P/P16/P16-1105.pdf
論文名稱:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
作者資訊:中科大自動化所 Zhou ACL 2016
模型名稱:BLSTM + ATT
論文內容:簡單有效。使用BLSTM對句子建模,並使用word級別的attention機制。
原文地址:http://www.aclweb.org/anthology/P16-2034
論文名稱:Neural Relation Extraction with Selective Attention over Instances
作者資訊:清華 Lin et al. 2016
模型名稱:CNN+ATT / PCNN+ATT
論文內容:使用CNN/PCNN作為sentence encoder, 並使用句子級別的attention機制。近幾年標杆的存在,國內外新論文都要把它拖出來吊打一遍。
原文地址:http://www.aclweb.org/anthology/P16-1200
論文名稱:NUERAL RELATION EXTRACTION WITH MULTI-LINGUAL ATTENTION
作者資訊:清華 Lin et al. 2017
模型簡稱:MNRE
論文內容:很有意思也很有用。單語言語料的資訊如果不夠,就要用到多語言的語料。NLP任務中多語言之間的資訊利用是今年研究比較多的一個。不過實際做起來難度是比較大的,最主要原因還是資料比較難以採集。本文使用
(P)CNN+ATT(上面那篇)擴充套件到多語言語料庫上,利用多語言之間的資訊 https://zhuanlan.zhihu.com/p/29970617。效能提升比較客觀。應該也只有一些大公司才有能力將這種演算法落地使用。
論文名稱:Deep Residual Learning forWeakly-Supervised Relation Extraction
作者資訊:Yi Yao Huang 臺灣國立大學 EMNLP 2017
模型名稱:ResCNN-9
論文內容:本文使用淺層(9)ResNet作為sentence encoder, 在不使用piecewise pooling 或者attention機制的情況下,效能和PCNN+ATT 接近。這就證明使用更fancy的CNN網路作為sentence encoder完全是有可能有用的。不光光可以在本任務中驗證,其他的NLP任務同樣可以使用。本文在github上有原始碼,強烈推薦。我寫的知乎筆記: https://zhuanlan.zhihu.com/p/31689694。 順帶一提的是,本文的工程實現還存在可以改進的地方。
論文名稱:Overcoming Limited Supervision in Relation Extraction: A Pa‚ttern-enhanced Distributional Representation Approach
作者資訊:ACM 2016
模型名稱:REPEL
論文內容:這篇文章思路比較有意思,非常值得一看。沒有用深度學習,而是兩個樸素的模型互相迭代,運用了半監督學習的思想。不過沒有程式碼,如果實驗結果可以復現,那麼意義還是比較大的。https://zhuanlan.zhihu.com/p/32364723。
論文名稱:Cross-Sentence N-ary Relation Extraction with Graph LSTMs
作者資訊:ACL 2017
模型名稱:Graph LSTM
論文內容:這個就是提出了一種圖形LSTM結構,本質上還是利用了SDP等可以利用的圖形資訊。別的部分沒有什麼特別的。https://zhuanlan.zhihu.com/p/32541447
論文名稱:Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
作者資訊:Ji 2017 中科院自動化所 AAAI 2017
模型名稱:APCNNs(PCNN + ATT) + D
論文內容:引入實體描述資訊,個人認為沒什麼亮點,引入外部資訊固然有效,但是很多時候實際問題中遇到的實體大多是找不到實體描述資訊的。 https://zhuanlan.zhihu.com/p/35051652
論文名稱:Large Scaled Relation Extraction with Reinforcement Learning
作者資訊: Zeng 2018 中科院自動化所 AAAI 2018
模型名稱:PE + REINF
論文內容:提出強化學習用於RE任務,個人感覺挺牽強的,效果也很一般。文中提到的PE不知道是不是我程式碼寫錯了,試出來就是沒什麼用。 https://zhuanlan.zhihu.com/p/34811735
論文名稱: Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
作者資訊: ACL 2017 Luo 北大
模型名稱:CNN + ATT + TM (這名字是我給起的)
論文內容:文章出發點很好。既然遠端監督資料集最大的問題在於噪音非常之多,那麼對於噪音進行描述則是非常有意義的。本文創新點有兩個。第一個是,我們讓模型先學習從輸入空間到真實標籤空間的對映,再用一個轉移矩陣學習從真實標籤空間到資料集標籤空間的錯誤轉移概率矩陣。這不是本文提出的方法,本文在此基礎之上進行改進,將該矩陣從全域性共享轉化為跟輸入相關的矩陣,也就是文中提到的動態轉移矩陣,效能有提升。第二個出創新點在於使用了課程學習。課程學習的出發點在於模型如果先學習簡單樣本再學習難樣本,這樣一種先易後難的學習方式比隨機順序學習更好。最終在NYT資料集上有小小的提升,但是本文的思路非常值得借鑑。可只可惜沒有原始碼。建議讀博的大佬們嘗試一下,我覺得很好玩。 https://zhuanlan.zhihu.com/p/36527644
論文名稱: Effectively Combining RNN and CNN for Relation Classification and Extraction
作者資訊: SemEval 2018 四項任務 三項第一,一項第二 ETH Zurich
模型名稱:作者沒起名字
論文內容:這是一篇打比賽的文章,工程性的內容很多。核心技巧在於使用CNN, RNN模型整合。文中還提到了多種方法,不擇手段提升最終模型的效能。雖然該模型訓練速度可以說是非常慢了,但是還是有很多地方可以借鑑。 https://zhuanlan.zhihu.com/p/35845948
以上介紹的是關係抽取,建立在NER的基礎上,接下來討論joint模型。聯合抽取個人認為是比較難做的一個任務。
論文名稱:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
作者資訊:Ren2017
模型名稱:CoType
論文名稱: Joint Extractions of Entities and Relations Based on a Novel Tagging Scheme
作者資訊: Zheng 2017 中科院自動化所
模型名稱:LSTM-CRF, LSTM-LSTM,LSTM-LSTM-Bias