NER --關係抽取總結
阿新 • • 發佈:2018-11-12
1、關係抽取概述
2、關係抽取分類
3、常用關係抽取方法
關係抽取面臨的挑戰 :
(1)基於規則的關係抽取
命名實體標籤:
人工規則優缺點:
(2)有監督關係抽取
常用特徵工程:
詞彙特徵:
句法特徵和其他特徵:
**基於Bootstrapping的關係抽取 **
關係抽取可能存在以下問題(大部分情況適用):
1)沒有足夠標註資料
2)可能有一些種子 實體對
3)可能有一些非常好的pattern
基於以上情況,由以下主要流程進行關係抽取:
示例1:
示例2:
主要步驟如下:
步驟一:
步驟二:
步驟三:
步驟四:
Bootstrapping關係抽取中容易出現語義漂移,再迭代過程中會引入噪音例項和模版。所以每一步都需要人工參與。
Bootstrapping-語義漂移解決辦法:
遠端監督概述:
基本假設:若一個實體對再知識庫中存在某個關係,那麼包含該實體對的所有句子都以某種方式表達該關係。
如果要用遠端監督的方法,首先看資料庫中的資料是否滿足這樣的前提。
例如:
遠端監督構造過程:
優點:
(1)減少人工標註代價
(2)可擴充套件性:可以使用大量未標記的資料
缺點:
(1)訓練語料庫含有大量標錯的噪聲
(2)沒有嚴格合理的負樣本用於訓練
基於遠端監督的關係抽取方法:
例項一:
例項二:(注意力機制)
4、開放式關係抽取
基本方法:
步驟:(三步)
例項: