1. 程式人生 > >資訊抽取和關係發現概述

資訊抽取和關係發現概述

自然語言應用

@(自然語言處理)[自然語言處理|資訊檢索]

自然語言發展歷程

  1. 50-60年代,最為人工智慧領域的應用主要是機器翻譯方面尤其是60年代。普遍採用基於原則的方法。
  2. 90年代,大規模詞典和真是語料庫的研製,基於語料庫的統計自然語言成為重要方法。[因此學習統計分析是是多麼重要啊]
  3. 過去20年,隨著網際網路的普及,為自然語言處理領域提供了強有力的應用牽引和海量的語言資源。自然語言處理和資訊檢索系統結合。統計自然語言受限於訓練集的規模,過擬合問題嚴重,推廣能力不足。
  4. 近幾年,深度學習方法,基於分佈學習的詞義語義很好地效果。Web2.0積累了大量的User Generated Content.為自然語言提供了新的資源和技術創新的源泉。基於知識和基於統計的方法融合受到關注。

資訊抽取

系統並不要求能夠對自然語言文字進行深層理解,而是從中抽取有用資訊,作為自然語言部分理解的一種形式。在過載的資訊中,快速準確獲取資訊的技術手段。

定義

1997:從自然語言文字中抽取指定型別的實體文字關係事件等事實資訊。

評測標準

  1. MUC (message understanding conferences)
    實體識別,共指消解,模板關係抽取等
  2. ACE automatic content extraction
    2009年變名為TAC ( Text analysis conference )
    關係抽取,事件抽取
  3. TAC-KBP ( Knowledge Base Population )
    實體連線 屬性抽取

命名實體識別

識別1. 人名 2. 機構名 3. 地名 4. 時間 5. 日期 6. 貨幣 7. 百分比

注意問題

  • 人名地名機構名識別難度大,
  • 上下文密切,不同而實體在不同語義下具有不同的實體型別,如:新世界

Wu EMNLP 2005

主要方法

  1. 通過分析種子實體在查詢中的上下文,利用模板找到同類別的例項。
  2. 構造向量,計算
    Ref: Wang ICDM 2007

系統框架

爬取模組 --> 抽取模組 --> 排序模組

評價指標

使用MAP 進行評測

實體消歧

定義

一個實體指稱項對應多個真實世界的實體。確定一個實體指稱對應真實世界的什麼實體。

常見方法

基於聚類
基於連結

基於聚類消歧方法

  1. 同一指稱項具有近似的上下文
  2. 利用聚類演算法盡心小氣

關鍵問題

選取那些特徵対指稱項進行表示

詞袋模型

  • 利用待消歧詞的實體周邊的詞進行構造向量
  • 利用空間模型來計算兩種實體指稱項的相似度進行聚類
  • 沒有考慮詞的語義資訊

語義特徵

  • 利用SVD挖掘語義特徵

社會化網路

不同的人具有不同的社會,通過社會網路關係挖掘進行消除歧義

維基百科的知識[Han ]

利用實體上下文的維基百科條目對屍體進行向量表示
利用維基百科條目之間的相似度進行計算指稱之間的相似度(解決資料稀疏的問題)

多源異構知識[Han ACL 2010]

僅僅使用wikimadia是有限的,通過結合多種知識庫,形成語義圖進行知識挖掘。

實體消歧:評測-WePS

挑戰

消歧目標難以確定
缺乏實體的顯示錶示

基於連結的消歧

  1. 候選實體發現
    • 利用wikipedia發現實體
    • 利用上下文獲取縮略語候選實體
  2. 候選實體連結

  3. 類別特徵[Bunescu EACL 2006]

    • 實體流行度等特徵
    • 傳統的方法僅僅是計算實體指稱項圖實體的相似度,未考慮實體的背景,先驗知識等問題。
  4. 結構化資料中的實體連結 [Shen SIGKDD 2012]

  5. 社交資料中的實體連結[Shen SIGKDD 2013]

評測標準-TAC-KBP& 總結

實體連結方法主要是如何更有效挖掘實體指稱項資訊,如何更準確地計算溼體質表象和實體概念之間的相似度

實體間關係抽取

定義

自動識別由一堆概念和聯絡這對概念的關係構成的相關三元組

非結構化關係抽取

傳統關係抽取

  1. 基於特徵向量:最大熵 和支援向量機
    獲取有效此詞法句法語義特徵
  2. 基於核函式:淺層樹核和依存樹核 最短依存樹核等等
    挖掘反應語義關係的結構化資訊和計算結構化資訊之間的相似度
  3. 基於神經網路
    如何設計合理的網路結構,從而捕獲更多的資訊,進而更準確地完成關係的抽取
    基於卷積神經網路的關係抽取
    判斷句子中實體之間的語義關係

傳統方法問題

  1. 錯誤累計
  2. 人工設計特徵
    通過CNN學習文字語義特徵
    不需要人工設計特徵

開放域關係抽取


模板生成–> 實體抽取 –>

1. 開放域關係抽取:從NYT中抽取FreeBase的關係類別(Zeng EMNLP 2015)
2. 基於細粒度實體型別特徵發現的弱監督關係抽取Liu Coling 2014

開放關係的發現

關係發現就是利用知識圖譜中現有的知識推斷未知的知識,就是連結預測
1. 歸納邏輯程式設計
* 符合邏輯寶石精確,表達能力強
* 但是很難在大規模語料庫上進行推廣。
2. 概率圖模型
* 馬爾科夫隨機場
* 概率軟邏輯