資訊抽取和關係發現概述
自然語言應用
@(自然語言處理)[自然語言處理|資訊檢索]
自然語言發展歷程
- 50-60年代,最為人工智慧領域的應用主要是機器翻譯方面尤其是60年代。普遍採用基於原則的方法。
- 90年代,大規模詞典和真是語料庫的研製,基於語料庫的統計自然語言成為重要方法。[因此學習統計分析是是多麼重要啊]
- 過去20年,隨著網際網路的普及,為自然語言處理領域提供了強有力的應用牽引和海量的語言資源。自然語言處理和資訊檢索系統結合。統計自然語言受限於訓練集的規模,過擬合問題嚴重,推廣能力不足。
- 近幾年,深度學習方法,基於分佈學習的詞義和語義很好地效果。Web2.0積累了大量的User Generated Content.為自然語言提供了新的資源和技術創新的源泉。基於知識和基於統計的方法融合受到關注。
資訊抽取
系統並不要求能夠對自然語言文字進行深層理解,而是從中抽取有用資訊,作為自然語言部分理解的一種形式。在過載的資訊中,快速準確獲取資訊的技術手段。
定義
1997:從自然語言文字中抽取指定型別的實體、文字、關係和事件等事實資訊。
評測標準
- MUC (message understanding conferences)
實體識別,共指消解,模板關係抽取等 - ACE automatic content extraction
2009年變名為TAC ( Text analysis conference )
關係抽取,事件抽取 - TAC-KBP ( Knowledge Base Population )
實體連線 屬性抽取
命名實體識別
識別1. 人名 2. 機構名 3. 地名 4. 時間 5. 日期 6. 貨幣 7. 百分比
注意問題
- 人名地名機構名識別難度大,
- 上下文密切,不同而實體在不同語義下具有不同的實體型別,如:新世界
Wu EMNLP 2005
主要方法
- 通過分析種子實體在查詢中的上下文,利用模板找到同類別的例項。
- 構造向量,計算
Ref: Wang ICDM 2007
系統框架
爬取模組 --> 抽取模組 --> 排序模組
評價指標
使用
實體消歧
定義
一個實體指稱項對應多個真實世界的實體。確定一個實體指稱對應真實世界的什麼實體。
常見方法
基於聚類
基於連結
基於聚類消歧方法
- 同一指稱項具有近似的上下文
- 利用聚類演算法盡心小氣
關鍵問題
選取那些特徵対指稱項進行表示
詞袋模型
- 利用待消歧詞的實體周邊的詞進行構造向量
- 利用空間模型來計算兩種實體指稱項的相似度進行聚類
- 沒有考慮詞的語義資訊
語義特徵
- 利用SVD挖掘語義特徵
社會化網路
不同的人具有不同的社會,通過社會網路關係挖掘進行消除歧義
維基百科的知識[Han ]
利用實體上下文的維基百科條目對屍體進行向量表示
利用維基百科條目之間的相似度進行計算指稱之間的相似度(解決資料稀疏的問題)
多源異構知識[Han ACL 2010]
僅僅使用wikimadia是有限的,通過結合多種知識庫,形成語義圖進行知識挖掘。
實體消歧:評測-WePS
挑戰
消歧目標難以確定
缺乏實體的顯示錶示
基於連結的消歧
- 候選實體發現
- 利用wikipedia發現實體
- 利用上下文獲取縮略語候選實體
候選實體連結
類別特徵[Bunescu EACL 2006]
- 實體流行度等特徵
- 傳統的方法僅僅是計算實體指稱項圖實體的相似度,未考慮實體的背景,先驗知識等問題。
結構化資料中的實體連結 [Shen SIGKDD 2012]
- 社交資料中的實體連結[Shen SIGKDD 2013]
評測標準-TAC-KBP& 總結
實體連結方法主要是如何更有效挖掘實體指稱項資訊,如何更準確地計算溼體質表象和實體概念之間的相似度
實體間關係抽取
定義
自動識別由一堆概念和聯絡這對概念的關係構成的相關三元組
非結構化關係抽取
傳統關係抽取
- 基於特徵向量:最大熵 和支援向量機
獲取有效此詞法句法語義特徵 - 基於核函式:淺層樹核和依存樹核 最短依存樹核等等
挖掘反應語義關係的結構化資訊和計算結構化資訊之間的相似度 - 基於神經網路
如何設計合理的網路結構,從而捕獲更多的資訊,進而更準確地完成關係的抽取
基於卷積神經網路的關係抽取
判斷句子中實體之間的語義關係
傳統方法問題
- 錯誤累計
- 人工設計特徵
通過CNN學習文字語義特徵
不需要人工設計特徵
開放域關係抽取
模板生成–> 實體抽取 –>
1. 開放域關係抽取:從NYT中抽取FreeBase的關係類別(Zeng EMNLP 2015)
2. 基於細粒度實體型別特徵發現的弱監督關係抽取Liu Coling 2014
開放關係的發現
關係發現就是利用知識圖譜中現有的知識推斷未知的知識,就是連結預測
1. 歸納邏輯程式設計
* 符合邏輯寶石精確,表達能力強
* 但是很難在大規模語料庫上進行推廣。
2. 概率圖模型
* 馬爾科夫隨機場
* 概率軟邏輯