《A Joint Neural Model for Information Extraction with Global Features》論文筆記

阿新 • • 發佈：2020-10-20

2020 ACL會議《A Joint Neural Model for Information Extraction with Global Features》

論文地址

該論文提出一個名為ONEIE的資訊抽取框架，增加一個全域性特徵，在例項之間和子任務之間進行聯合決策。

1. Introduction

大多數的資訊抽取的聯合學習模型使用task-specific分類對獨立實體進行標記而不是使用實體之間的互動資訊。論文提出名為ONEIE的端到端資訊抽取框架，整個過程分為四個操作階段：

對輸入語句進行編碼（Embedding）；
識別句中的實體（Entity）和事件（Event）並用結點（Node）進行表示；

使用句內資訊（Local classifier）計算所有結點及其連線（Link）的標籤分數（Label Score）；
解碼（Decoding）時使用束搜尋（Beam search）找到全域性最優圖。

在解碼階段加入全域性特徵（Global Feature）捕捉例項之間（cross-instance）和子任務之間（cross-subtask）的聯絡（Interaction）。同時ONEIE框架沒有使用任何特定語言的語法特徵（Language-specific feature），所以很容易適應新語言。

框架示意圖

2. Task

Entity Extraction

根據提前定義（Pre-defined）的實體分類識別語句中提及的實體。
Relation Extraction

對給定的實體對分配關係型別。
Event Extraction

涉及識別非結構語句中的事件觸發語（Event trigger: the word or phrases that most clearly express event occurrences）及這些詞語和短語的論據（Arguments: the words and phrases for participants in those events），並將這些短語根據型別和語法規則進行分類。

一個Argument可以是一個實體、時間表達式或數值等。

對資訊抽取的任務作如下規定：
對於給定的句子，目的是提取一個資訊表示圖： G = ( V , E ) G=(V,E)

G=(V,E)，其中 V V V和 E E E分別表示結點集和邊集。

對於任意結點 v i = < a i , b i , l i > ∈ V v_i=<a_i, b_i, l_i>\in V vi=<ai,bi,li>∈V表示一個實體（Entity）或事件觸發器（Event trigger），其中 a a a和 b b b分別表示結點起始和結束詞語的索引（indices）， l l l表示結點型別標籤（Node type label）。

對於任意邊 e i j = < i , j , l i j > ∈ E e_{ij}=<i,j,l_{ij}>\in E eij=<i,j,lij>∈E表示兩個結點之間的關係，其中 i i i和 j j j分別表示兩個相關結點的索引， l i j l_{ij} lij表示關係型別。

3. Approach

ONEIE框架對給定的語句進行資訊網路提取，分為以下四步：encoding，identification，classification和decoding。我們使用預訓練的BERT模型進行編碼，然後對語句中的實體和事件觸發器進行識別。之後計算所有的結點和相關的邊的型別標籤分數（Type label scores）。在解碼階段，我們使用束搜尋（Beam Search）探索輸入語句可能的資訊網路。

3.1 Encoding

輸入一句包含 L L L個詞的語句，使用預訓練的BERT模型將每個詞表示為 x i x_i xi。實驗發現使用最後三層BERT在大多數的子任務上表現較好。

3.2 Identification

這一階段將識別句中的實體提及和事件觸發器，並表示為資訊網路中的結點。我們使用前饋神經網路FFN計算每個詞的分數向量 y ^ i = F F N ( x i ) \hat{y}_i=FFN(x_i) y^i=FFN(xi)， y ^ i \hat{y}_i y^i表示一個標籤在目標標籤集（Target tag set）中的分數。

之後使用CRF層捕捉標籤之間的聯絡，計算tag path z ^ = { z 1 ^ , . . . , z ^ L } \hat{z}=\{\hat{z_1},...,\hat{z}_L\} z^={z1^,...,z^L}的分數:
s ( X , z ^ ) = ∑ i = 1 L y ^ i , z i ^ + ∑ i = 1 L + 1 A z ^ i − 1 , z ^ i s(X,\hat{z})=\sum_{i=1}^{L}{\hat{y}_{i,\hat{z_i}}}+\sum_{i=1}^{L+1}{A_{\hat{z}_{i-1},\hat{z}_{i}}} s(X,z^)=i=1∑Ly^i,zi^+i=1∑L+1Az^i−1,z^i

其中 X = { x 1 , . . . , x L } X=\{x_1,...,x_L\} X={x1,...,xL}是輸入語句中每個詞的向量表示， y ^ i , z i ^ \hat{y}_{i,\hat{z_i}} y^i,zi^是分數向量 y ^ i \hat{y}_i y^i在第 z ^ i \hat{z}_i z^i條路徑的組合， A z ^ i − 1 , z ^ i A_{\hat{z}_{i-1},\hat{z}_{i}} Az^i−1,z^i是矩陣A中 z ^ i − 1 \hat{z}_{i-1} z^i−1到 z ^ i \hat{z}_i z^i的轉移分數。同時，我們在A中新增兩個特殊的標籤 < s t a r t > , < e n d > <start>,<end> <start>,<end>分別作為 z ^ 0 \hat{z}_0 z^0和 z ^ L + 1 \hat{z}_{L+1} z^L+1來表示詞語序列的開始和結束。

訓練階段時，我們最大化標準標籤路徑的對數似然估計：
log ⁡ p ( z ∣ X ) = s ( X , z ) − l o g ∑ z ^ ∈ Z e s ( X . z ^ ) \log{p(z|X)}=s(X,z)-log{\sum_{\hat{z}\in Z}{e^{s(X.\hat{z})}}} logp(z∣X)=s(X,z)−logz^∈Z∑es(X.z^)
其中 Z Z Z是輸入語句中所有可能標籤路徑的集合。

所以我們定義實體識別階段的損失函式為：
L I = − log ⁡ p ( z ∣ X ) L^I=-\log{p(z|X)} LI=−logp(z∣X)

3.3 Classification

將每個識別出的結點表示為 v i v_i vi，之後使用分離的針對特定任務的前饋神經網路來計算每個結點的標籤分數：
y ^ i t = F F N t ( v i ) \hat{y}_{i}^{t}=FFN^t(v_i) y^it=FFNt(vi)
其中 t t t表示一個特定的任務。

為了獲得 i − t h i-th i−th和 j − t h j-th j−th結點之間邊的標籤分數，我們連線它們的跨度表示（Span Representation），將向量表示為：
y ^ k t = F F N t ( v i , v j ) \hat{y}_{k}^{t}=FFN^t(v_i,v_j) y^kt=FFNt(vi,vj)
對於每個任務，訓練目標是最小化以下交叉熵損失：
L t = − 1 N t ∑ i = 1 N t y i t log ⁡ y ^ i t L^{t}=-\frac{1}{N^t}\sum_{i=1}^{N^t}{y_i^{t}\log{\hat{y}^{t}_{i}}} Lt=−Nt1i=1∑Ntyitlogy^it
其中， y i t y_i^{t} yit是向量的正確標籤， N t N^t Nt是任務 t t t中的實體數量。

如果忽略結點和邊的內在依賴關係（Inter-dependencies），我們可以直接通過每個任務的最高分數來預測標籤，之後生成區域性的最佳圖 G ^ \hat{G} G^。最佳圖 G ^ \hat{G} G^分數的計算方法為：
s ′ ( G ^ ) = ∑ t ∈ T ∑ i = 1 N t max ⁡ y ^ i t s'(\hat{G})=\sum_{t\in T}\sum_{i=1}^{N^t}{\max{\hat{y}_i^t}} s′(G^)=t∈T∑i=1∑Ntmaxy^it
其中， T T T是任務的集合，將 s ′ ( G ^ ) s'(\hat{G}) s′(G^)作為 G ^ \hat{G} G^的區域性分數參考。

3.4 Global Features

我們考慮框架中的兩種型別的內部依賴：

子任務間的作用 Cross-subtask interactions

這種依賴關係存在於實體、關係和事件之間；
實體之間的作用 Cross-instance interactions

這種依賴存在於一個句子中多個事件和/或關係的例項之間。

全域性特徵型別模板（Event schemas）

我們設計一套全域性特徵型別模板（Event schemas）來捕捉以上兩類相互作用，模型填充所有可能的型別來生成特徵，並在訓練過程中學習每個特徵的權重。對於給定的一張圖，我們將它的全域性特徵向量描述為：
f G = { f 1 ( G ) , . . . , f M ( G ) } f G = { f 1 ( G ) , . . . , f M ( G ) } f_G=\{f_1(G),...,f_M(G)\}f_G=\{f_1(G),...,f_M(G)\} fG={f1(G),...,fM(G)}fG={f1(G),...,fM(G)}
其中， M M M是全域性特徵的數量， f i ( ⋅ ) f_i(\cdot) fi(⋅)是一個函式，對某個特徵求值並返回標量。比如：
f i ( G ) = { 1 , G h a s m u l t i p l e A T T C K e v e n t s 0 , o t h e r w i s e f_i(G)=\begin{cases} 1,G\,has\,multiple\,ATTCK\,events\\ 0,otherwise \end{cases} fi(G)={1,GhasmultipleATTCKevents0,otherwise
之後，ONEIE框架學習到一個權重向量 u ∈ R M u\in \R^{M} u∈RM並且將 f ( G ) f(G) f(G)和 u u u的點乘作為圖G的全域性特徵分數。將圖G的區域性分數和全域性特徵分數之和作為G的全域性分數：
s ( G ) = s ′ ( G ) + u f ( G ) s(G)=s'(G)+\bold{u}\bold{f}(G) s(G)=s′(G)+uf(G)
我們假定一條語句的最佳（Gold-standard）圖應該擁有最高的全域性分數。所以，我們最小化該損失函式：
L G = s ( G ^ ) − s ( G ) L^{G}=s(\hat{G})-s(G) LG=s(G^)−s(G)
其中， G ^ \hat{G} G^是區域性分類得到的圖， G G G是最佳圖。

最終，我們在訓練中最優化如下的聯合目標函式：
L = L I + ∑ t ∈ T L t + L G L=L^I+\sum_{t\in{T}}{L^t}+L^{G} L=LI+t∈T∑Lt+LG

3.5 Decoding

ONEIE對所有的結點和成對的邊進行聯合決策，得到全域性的最優圖。最基本的方法是計算所有候選圖的全域性分數，選擇分數最高的作為最終結果。為了優化複雜度，我們設計了一個以束搜尋為基礎的解碼器（Beam search-based decoder）。

解碼演算法示例

對於給定的識別出的結點集 V V V、所有結點的標籤分數（label scores）和他們之間的成對聯絡執行解碼，初始束集（initial beam set）為 B = { K 0 } B=\{K_{0}\} B={K0}， K 0 K_0 K0是一個零階圖。每一步 i i i分為兩小步，分別對結點和邊進行擴充套件：

Node Step

選擇 v i ∈ V v_i\in V vi∈V，定義候選集為 V i = { < a i , b i , l i ( k ) > ∣ 1 ≤ K ≤ β v } V_i=\{<a_i,b_i,l_i^{(k)}>|1\le K\le\beta_v\} Vi={<ai,bi,li(k)>∣1≤K≤βv}，其中 l i ( k ) l_i^{(k)} li(k)表示 v i v_i vi中分數第 k k k高的區域性標籤分數， β v \beta_v βv是控制候選標籤數量的超引數（hyper-parameter）。通過如下公式更新束集（beam set）：
B ← { G + v ∣ ( G , v ) ∈ B × V i } B\leftarrow\{G+v|(G,v)\in B\times V_i\} B←{G+v∣(G,v)∈B×Vi}
Edge Step

迭代地選擇一個 i i i之前的結點 v j ∈ V , j < i v_j\in V,j<i vj∈V,j<i，同時在 v j v_j vj和 v i v_i vi之間新增可能的邊。如果 v i v_i vi和 v j v_j vj都是觸發器（trigger）則跳過 v j v_j vj。每一次迭代中，我們構造一個候選邊集 E i j = { < j , i , l i j ( k ) > ∣ 1 ≤ k ≤ β e } E_{ij}=\{<j,i,l_{ij}^{(k)}>|1\le k\le \beta_e\} Eij={<j,i,lij(k)>∣1≤k≤βe}，其中 l i j ( k ) l_{ij}^{(k)} lij(k)是 e i j e_{ij} eij中分數第 k k k高的標籤， β e \beta_e βe是候選標籤數量的閾值。之後，通過如下函式更新束集：
B ← { G + e ∣ ( G , e ) ∈ B × E i j } B\leftarrow \{G+e|(G,e)\in B\times E_{ij}\} B←{G+e∣(G,e)∈B×Eij}
在每次edge step的最後，如果 ∣ B ∣ |B| ∣B∣超過束的寬度 θ \theta θ，我們對候選物件按全域性分數從高到低進行排序，只保留分數最高的 θ \theta θ個。

最後一步之後，返回全域性分數最高的圖，作為輸入語句中提取的資訊網路。

《A Joint Neural Model for Information Extraction with Global Features》論文筆記

2020 ACL會議《A Joint Neural Model for Information Extraction with Global Features》論文地址該論文提出一個名為ONEIE的資訊抽取框架，增加一個全域性特徵，在例項之間和子任務之間進行聯合決策。

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

論文閱讀： A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

[CVPR 2020] 3DRegNet: A Deep Neural Network for 3D Point Registration

零、概要論文: 3DRegNet: A Deep Neural Network for 3D Point Registrationtag: CVPR 2020; Registration程式碼: https://github.com/3DVisionISR/3DRegNet作者: G. Dias Pais, Srikumar Ramalingam, Ven

《A Lexicon-Based Graph Neural Network for Chinese NER》思維導圖筆記

A Lexicon-Based Graph Neural Network for Chinese NER 基於詞典的圖神經網路解決中文命名實體識別作者: Tao Gui , Yicheng Zou等單位:復旦大學發表會議及時間: EMNLP2019

關於Training deep neural networks for binary communication with the Whetstone method的程式碼實現

技術標籤：文獻閱讀脈衝神經網路 GitHub網址如下： https://github.com/SNL-NERL/Whetstone/blob/master/examples/adaptive_mnist.py 實現過程中解決的問題： 1.Ubuntu下，python+TensorFlow+Keras版本問題經檢

《A Unified MRC Framework for Named Entity Recognition》ACL2020論文閱讀

技術標籤：論文閱讀深度學習自然語言處理論文aclmrc 機構為浙江大學、香儂科技。

A Natural Language Interface for Querying General and Individual Knowledge論文學習

研究目的 To make the joint analysis of general and individual knowledge accessible to the public, it is desirable to provide an interface that translates the user questions, posed in natural language

Disentangling User Interest and Conformity for Recommendation with Causal Embedding論文筆記

因為之前看過的一些論文動機本文是2021年WWW上的一篇論文。現在的推薦系統模型大多是基於使用者與物品的互動訓練的，然而使用者與物品的互動可能是因為使用者對該物品感興趣，亦或是該物品具有很高的流行度，使用

讀書筆記-多工學習-A Novel Multi-task Deep Learning Model for Skin Lesion Segmentation and Classification

一篇2017年的論文，A Novel Multi-task Deep Learning Model for Skin Lesion Segmentation and Classification，基於多工學習的面板病變分割與分類。

[論文解讀]A Quantitative Analysis Framework for Recurrent Neural Network

A Quantitative Analysis Framework for Recurrent Neural Network 文章目錄 A Quantitative Analysis Framework for Recurrent Neural Network簡介摘要動機THE DeepStellar FRAMEWORK抽象模型構建應用

TARGETDROP: A TARGETED REGULARIZATION METHOD FOR CONVOLUTIONAL NEURAL NETWORKS

TARGETDROP: A TARGETED REGULARIZATION METHOD FOR CONVOLUTIONAL NEURAL NETWORKS Dense Object Detection 一. 論文簡介

讀論文啦！相關性匹配經典論文A Deep Relevance Matching Model for Ad-hoc Retrieval

我們知道:語義匹配可分為兩大類，基於表示的和基於互動的。基於表示的：學習 query 和 doc ( 放在推薦裡就是 user 和 item ) 的 representation 表示，然後通過定義 matching score 函式。

論文筆記_S2D.21_Deep Convolutional Neural Fields for Depth Estimation from a Single Image

本篇論文的優勢： ①我們不採用任何這些啟發式方法改進我們的結果，但我們就相對誤差而言取得了更好的結果。 ②為了克服過擬合，其他方法必須收集數以百萬計的帶有附加標籤的影象訓練他們的模型。一個可能的

【論文閱讀】iSAM: Personalizing an Artificial Intelligence Model for Emotion with Pleasure-Arousal-Dominance in Immersive Virtual Reality

1.這篇文章究竟講了什麼問題？使用人工智慧和沉浸式虛擬環境來學習和適應使用者的情感模型

《A Joint Neural Model for Information Extraction with Global Features》論文筆記

1. Introduction

2. Task

3. Approach

3.1 Encoding

3.2 Identification

3.3 Classification

3.4 Global Features

3.5 Decoding

《A Joint Neural Model for Information Extraction with Global Features》論文筆記

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

[CVPR 2020] 3DRegNet: A Deep Neural Network for 3D Point Registration

《A Lexicon-Based Graph Neural Network for Chinese NER》思維導圖筆記

關於Training deep neural networks for binary communication with the Whetstone method的程式碼實現

《A Unified MRC Framework for Named Entity Recognition》ACL2020論文閱讀

A Natural Language Interface for Querying General and Individual Knowledge論文學習

Disentangling User Interest and Conformity for Recommendation with Causal Embedding論文筆記

讀書筆記-多工學習-A Novel Multi-task Deep Learning Model for Skin Lesion Segmentation and Classification

[論文解讀]A Quantitative Analysis Framework for Recurrent Neural Network

TARGETDROP: A TARGETED REGULARIZATION METHOD FOR CONVOLUTIONAL NEURAL NETWORKS

讀論文啦！相關性匹配經典論文A Deep Relevance Matching Model for Ad-hoc Retrieval

論文筆記_S2D.21_Deep Convolutional Neural Fields for Depth Estimation from a Single Image

【論文閱讀】iSAM: Personalizing an Artificial Intelligence Model for Emotion with Pleasure-Arousal-Dominance in Immersive Virtual Reality

筆記：Neural Relation Extraction with Selective Attention over Instances

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 論文解讀（SIGMOD 2021 UAE）

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 論文解讀（SIGMOD 2021）

筆記：Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism

筆記：A Frustratingly Easy Approach for Entity and Relation Extraction

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

《A Joint Neural Model for Information Extraction with Global Features》論文筆記

1. Introduction

2. Task

3. Approach

3.1 Encoding

3.2 Identification

3.3 Classification

3.4 Global Features

3.5 Decoding

相關推薦