1. 程式人生 > 其它 >3種基於深度學習的有監督關係抽取方法

3種基於深度學習的有監督關係抽取方法

摘要:本文對幾種基於深度學習的有監督關係抽取方法進行了介紹,包括CNN關係抽取、BiLSTM關係抽取以及BERT關係抽取。

本文分享自華為雲社群《基於深度學習的有監督關係抽取方法簡介》,作者: 一枚搬磚工。

隨著網際網路的快速發展,大資料、資訊化時代悄然來臨,如何從海量資料中挑選出有利用價值的資訊,是十分具有挑戰性的。本文將對基於深度學習的有監督關係抽取方法進行介紹。

1、任務定義

關係抽取是資訊抽取的重要子任務之一,其目標在於從文字中抽取出兩個或多個實體之間的語義關係。根據關係事實中涉及的實體數量,又可以進一步細分為二元關係抽取和多元關係抽取。本文中,關係抽取特指二元關係抽取。

輸入:句子、目標實體對(頭實體+尾實體)
輸出:目標實體對之間的語義關係

------------------------------------------------ 例1: 輸入:建安二十五年,曹操去世,葬於高陵,其子曹丕繼位魏王。 - 頭實體:曹操 - 尾實體:曹丕 輸出:兒子

在上述例子中,給定輸入文字“建安二十五年,曹操去世,葬於高陵,其子曹丕繼位魏王。“,其中”曹操“是頭實體,”曹丕“是尾實體,兩者之間的語義關係為”兒子“,即可抽取關係三元組<曹操,兒子,曹丕>。

2、關係抽取方法

在有監督的關係抽取中,關係抽取任務通常被建模成一個多分類任務,大多數研究工作也圍繞著如何提取文字特徵用於關係分類展開。本節將介紹三種用於關係抽取的常用方法。

2.1、CNN關係抽取

論文:Relation Classification via Convolutional Deep Neural Network

主要思想:

使用CNN結構提取文字的句子級特徵用於關係分類。與文字分類任務不同的是,在關係抽取任務中,頭實體和尾實體對關係的預測和判斷有著重要的影響。例如,在例1中,如果頭實體是“曹丕”,尾實體是“曹操”,則實體對之間的關係變成了“父親”,即<曹丕,父親,曹操>。因此,在提取文字特徵時考慮實體對的位置是十分有必要的。在這篇文章中,通過引入位置向量的方法來指明頭實體和尾實體。如下圖所示,詞“高陵” 與頭實體“曹操” 和尾實體“曹丕” 的相對位置距離分別為4 和-3,可分別在頭實體和尾實體對應的位置向量表中查詢得到對應的位置向量,再拼接得到詞“高陵” 的全部位置向量。最後,拼接上詞的原本向量表示,得到最後的詞向量化表示。最後,使用一個卷積神經網路提取句子級的文字特徵,用於關係分類。

2.2、BiLSTM關係抽取

論文:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

主要思想:

使用BiLSTM作為特徵提取器提取文字特徵,並結合注意力機制捕捉文字中的重要特徵。在這篇文章中,對文字進行編碼時,使用了四個位置指示符(<e1>,</e1>,<e2>,</e2>)標記實體的位置。例如,在例1中,輸入文字就變成了“建安二十五年,<e1>曹操</e1>去世,葬於高陵,其子<e2>曹丕</e2>繼位魏王。”,表明“曹操”是頭實體,“曹丕”是尾實體。通過位置指示符,可以使模型感知實體的位置,強化模型對於實體關係的理解。然後,使用BiLSTM提取深層次的文字特徵。在關係抽取中,區域性特徵常常足以推測判斷實體對的關係。在例1中,“其子” 一詞就是預測“曹操” 和“曹丕” 之間人物關係的最重要特徵。在這篇文章中,使用句間注意力機制對BiLSTM提取的文字特徵進行組合,提取其中最重要的語義特徵資訊。具體如下:

其中,H \in R^{d^\omega\times T}HRdω×T​是BiLSTM的輸出, d^\omega​ 是隱層維度,TT​ 是句子長度, \omegaω​ 、 \alphaα​ 、rr​的維度分別為 d^\omega​ 、TT​、d^\omega​。最後使用特徵向量rr進行關係分類。

2.3、BERT關係抽取

論文:Enriching Pre-trained Language Model with Entity Information for Relation Classification

主要思想:

使用BERT抽取句子的文字特徵用於關係分類。與上節相似,在這篇文章中,也是用特殊符號標記實體的位置,在頭實體和尾實體周圍分別插入“$”和“#”,並在每個句子的開始位置新增“[CLS]”,然後將目標文字輸入到BERT中。關係分類的特徵來自於三個部分:句子的整體特徵,頭實體特徵以及尾實體特徵。在BERT 預訓練時, “[CLS]”被NSP任務用來判斷句子對的關係,從而能夠學習到對整個句子的表達。因此,句子的整體特徵通過 “[CLS]”來獲取:

其中,H_0 \in R^dH0​∈Rd是BERT的CLS輸出向量,dd是BERT的隱層維度。

而實體對特徵則通過對實體的BERT輸出做均值化處理獲取。具體如下:

最後,將獲取的句子特徵及實體特徵拼接得到最後的特徵向量,進行關係分類。

3、小結

本文對幾種基於深度學習的有監督關係抽取方法進行了介紹,包括CNN關係抽取、BiLSTM關係抽取以及BERT關係抽取。

想了解更多的AI技術乾貨,歡迎上華為雲的AI專區,目前有AI程式設計Python等六大實戰營供大家免費學習。(六大實戰營link:http://su.modelarts.club/qQB9)

點選關注,第一時間瞭解華為雲新鮮技術~