1. 程式人生 > >NER --關係抽取總結

NER --關係抽取總結

1、關係抽取概述

在這裡插入圖片描述

2、關係抽取分類

在這裡插入圖片描述

3、常用關係抽取方法

在這裡插入圖片描述

關係抽取面臨的挑戰
在這裡插入圖片描述

(1)基於規則的關係抽取
在這裡插入圖片描述

命名實體標籤:
在這裡插入圖片描述
人工規則優缺點:
在這裡插入圖片描述

(2)有監督關係抽取
在這裡插入圖片描述
常用特徵工程:
在這裡插入圖片描述
詞彙特徵:
在這裡插入圖片描述
句法特徵和其他特徵:
在這裡插入圖片描述

**基於Bootstrapping的關係抽取 **
關係抽取可能存在以下問題(大部分情況適用):
1)沒有足夠標註資料
2)可能有一些種子 實體對
3)可能有一些非常好的pattern
基於以上情況,由以下主要流程進行關係抽取:
在這裡插入圖片描述
示例1:
在這裡插入圖片描述
示例2:
在這裡插入圖片描述
主要步驟如下:
步驟一:
在這裡插入圖片描述
步驟二:
在這裡插入圖片描述
在這裡插入圖片描述
步驟三:
在這裡插入圖片描述
步驟四:


在這裡插入圖片描述

Bootstrapping關係抽取中容易出現語義漂移,再迭代過程中會引入噪音例項和模版。所以每一步都需要人工參與。
在這裡插入圖片描述

Bootstrapping-語義漂移解決辦法:
在這裡插入圖片描述

遠端監督概述
基本假設:若一個實體對再知識庫中存在某個關係,那麼包含該實體對的所有句子都以某種方式表達該關係。
如果要用遠端監督的方法,首先看資料庫中的資料是否滿足這樣的前提。
例如:
在這裡插入圖片描述
遠端監督構造過程:
在這裡插入圖片描述
優點:
(1)減少人工標註代價
(2)可擴充套件性:可以使用大量未標記的資料
缺點:
(1)訓練語料庫含有大量標錯的噪聲
(2)沒有嚴格合理的負樣本用於訓練

基於遠端監督的關係抽取方法:
在這裡插入圖片描述
例項一:
在這裡插入圖片描述


例項二:(注意力機制)
在這裡插入圖片描述

4、開放式關係抽取

基本方法:
在這裡插入圖片描述
步驟:(三步)
在這裡插入圖片描述
例項:
在這裡插入圖片描述