知識圖譜構建技術綜述
阿新 • • 發佈:2018-11-19
《知識圖譜構建技術綜述》(劉 嶠 李 楊 段 巨集 劉 瑤 秦志光,電子科技大學)是博主在入門知識圖譜時所看的綜述文章之一,感謝劉知遠老師在知乎的推薦。本文是讀論文時所做的筆記。
1.知識圖譜的定義和架構
1.1知識圖譜的定義
- 結構化的語義知識庫
- 對物理世界的符號表達
- 構建在當前web基礎之上的一層覆蓋網路
- 優化資訊檢索
- 通過推理實現概念檢索
- 圖形化展示經過分類整理的結構化知識
1.2知識圖譜的架構
- 邏輯結構
- 資料層
- 知識以事實為單位存放在圖資料庫
- 事實的基本表達方式:實體~關係~實體 或 實體~屬性~屬性值
- 模式層
- 儲存經過提煉的知識
- 用本體庫管理,本體庫支援公理、規則和約束條件
- 資料層
- 技術架構
- 自頂向下的構建方式
- 從百科類網站等結構化資料來源提取模式和本體資訊加入知識庫
- 自底向上的構建方式
- 從公開採集的資料中提取資源模式,選擇其中置信度較高的新模式,經人工稽核加入知識庫
- 每一輪加入一條知識,每一輪有三步(見2.1-2.3)
2.知識圖譜的構建技術(自底向上)
2.1資訊抽取
- 從半結構化或無結構資料來源提取結構化資訊即實體、關係、屬性等,形成本體化的知識表達
2.1.1實體抽取(命名實體識別)
- 歷史
- 單一領域知識:啟發式演算法~有監督的統計機器學習~有監督學習+規則即先驗知識(最大熵演算法)
- 開放領域:人工建立命名實體分類體系並對實體自動分類
2.1.2關係抽取
- 歷史:人工構造語法和語義規則+模式匹配~用有監督機器學習對關係進行建模+最大熵演算法~半監督機器學習(以上這些方法都需要預先建立關係的分類系統)~自監督學習(with少量人工標記語料庫)~與單一領域演算法結合~發掘隱含語義關係
2.1.3屬性抽取
- 從不同資訊源中採集特定實體的屬性資訊
- 可將屬性抽取視為關係抽取
- 歷史:利用關係抽取的方法~基於規則的啟發式演算法從百科類網站(半結構化資料)提取
2.2知識融合
消除實體指稱項與實體物件之間的歧義,得到一系列基本的事實表達
2.2.1實體連結
- 把新抽取的實體物件(實體指稱項)連結到知識庫中正確的實體物件
- 基本思路:從知識庫選擇一組候選實體物件,連結到相似度最高的那一個
- 整合實體連結:利用實體的共現關係(即出現在同一文件且實體指稱相同),同時將多個實體連結到知識庫
- 一般流程:
-
- 實體消岐:在知識庫中找到多個與指稱項同名的實體時
- 採用聚類法:以實體物件為聚類中心,將所有指向同一目標實體物件的指稱項聚集到以該物件為中心的類別下。關鍵是定義相似度。
- 如何定義相似度
- 搜尋中處理存在歧義的實體:使用者輸入一個指稱項進行搜尋,在推薦完與該指稱項鍊接的實體相關的網頁後,該優先哪個與該指稱項同名的歧義實體呢?要對實體的重要性進行評估
- 空間向量模型(詞袋模型):由指稱項周邊的文字構成該指稱項的特徵向量,對指稱項進行聚類
- 語義模型:和詞袋模型類似,只是特徵向量還包含一部分語義特徵
- 社會網路模型(物以類聚人以群分,所以指稱項的意義由與其相關聯的實體決定):構建網路,以各指稱項為節點,相關的指稱項連邊,把節點之間的拓撲距離看作指稱項之間的相似度,再對指稱項進行聚類
- 百科知識模型:百科類網站通常會為每個實體(指稱項)分配一個單獨頁面,其中包括指向其他實體頁面的超連結,百科知識模型正是利用這種連結關係來計算實體指稱項之間的相似度
- 實體消岐:在知識庫中找到多個與指稱項同名的實體時
-
- 共指消解:多個指稱項對應於同一個實體時
- 別名:物件對齊、實體匹配、實體同義
- 基於nlp的共指消解
- Hobbs演算法:句法分析+語義分析
- 向心理論:將表達模式(utterance)視為語篇(discourse)的基本組成單元,通過識別表達模式中的實體,可以獲得當前和後續語篇中的關注中心(實體),根據語義的區域性連貫性和顯著性,就可以在語篇中跟蹤受關注的實體
- 基於統計機器學習的共指消解
- 將共指消解視為分類問題
- 將共指消解視為聚類問題
- 共指消解:多個指稱項對應於同一個實體時
2.2.2 知識合併
- 合併外部知識庫
- 資料層的融合
包括實體的指稱、屬性、關係以及所屬類別等,主要問題是如何避免例項以及關係的衝突問題,造成不必要的冗餘
- 模式層的融合
將新得到的本體融入已有的本體庫中
- 知識庫融合的標準化:針對LOD知識庫的開放資料整合框架LDIF
- 獲取知識
- 概念匹配:不同本體庫中的概念表達使用的詞彙可能不同,因此需要對概念表達方式進行統一化處理
- 實體匹配:知識庫中有些實體含義相同但是具有不同的識別符號,因此需要對這些實體進行合併處理
- 知識評估:對新增知識進行驗證和評估,在評估過程中為新加入的知識賦予可信度值以確保知識圖譜的內容一致性和準確性
- 合併關係資料庫:將關係資料庫的資料換成三元組資料
- 資料模型:資料描述框架(RDF)
- 對映語言標準
- Direct mapping:採用直接對映的方式,將關係資料庫表結構和資料直接輸出為RDF圖,在RDF圖中所用到的用於表示類和謂詞的術語與關係資料庫中的表名和欄位名保持一致
- R2RML:允許為給定的資料庫結構定製詞彙表,可以將關係資料庫通過RWRML對映為RDF資料集,其中所用的術語如類的名稱,謂詞均來自定義詞彙表
- 合併半結構化資料:許多以半結構化方式儲存(如XML,CSV,JSON 等格式)的歷史資料也是高質量的知識來源,同樣可以採用RDF資料模型將其合併到知識圖譜當中
2.3 知識加工
事實本身並不等於知識,將事實轉化為結構化、網路化的知識體系
2.3.1 本體構建
- 本體
- 定義:本體是對概念進行建模的規範,是描述客觀世界的抽象模型,以形式化方式對概念及其之間的聯絡給出明確定義,是同一領域內的不同主體之間進行交流的語義基礎
- 特點:它是共享的,反映的知識是一種明確定義的共識
- 結構:樹狀結構,相鄰層次的節點(概念)之間具有嚴格的“IsA”關係
- 本體的構建方法
- 資料驅動的自動化本體構建過程
- 實體並列關係相似度計算
- 相似度越高,表明這2個實體越有可能屬於同一語義類別
- 並列關係:與縱向的概念隸屬關係相對
- 計算方法
- 模式匹配法:預先定義實體對模式,通過模式匹配取得給定關鍵字組合在同一語料單位中共同出現的頻率,據此計算實體對之間的相似度
- 分佈相似度法
- 實體並列關係相似度計算
- 資料驅動的自動化本體構建過程
-
-
- 實體上下位關係抽取
- 用於確定概念之間的隸屬(IsA)關係,這種關係也稱為上下位關係
- 研究方法
- 基於語法模式抽取IsA實體對
- 基於語義的迭代抽取:利用概率模型判定IsA關係和區分上下位詞,通常會藉助百科類網站提供的概念分類知識來幫助訓練模型
- 實體上下位關係抽取
-
-
-
- 本體的生成:對各層次得到的概念進行聚類,並對其進行語義類的標定(為該類中的實體指定1個或多個公共上位詞)
-
- 跨語言知識連結的構建方法
- 面臨的挑戰:經過資訊抽取得到的實體描述非常簡短,缺乏必要的上下文資訊,導致多數統計模型不可用
2.3.2 知識推理
- 定義
從知識庫中已有的實體關係資料出發,經過計算機推理,建立實體間的新關聯,從而拓展和豐富知識網路
- 推理物件:實體間的關係、實體的屬性值、本體的概念層次關係等
- 推理方法
- 基於邏輯的推理
- 一階謂詞邏輯推理
- 基於邏輯的推理
- 命題被分解為個體和謂詞2部分
- 個體是指可獨立存在的客體,可以是具體的事物也可以是抽象的概念
- 謂詞是用來刻畫個體性質及事物關係的詞
- 描述邏輯推理
- 描述邏輯是基於物件的知識表示的形式化工具,是一階謂詞邏輯的子集
- TBox:用於描述概念之間和關係之間的關係的公理集合
- ABox:描述具體事實的公理集合
- 最終歸結為ABox的一致性檢驗問題
- 基於規則的推理
- 基於圖的推理
- 基於神經網路模型
- 基於path ranking演算法
- 處理推理得到的知識
由於推理得到的知識準確性低、冗餘度高,因此在將其加入到知識庫之前,通常需要進行可證明性檢查、矛盾性檢查、冗餘性檢查以及獨立性檢查,以確保推理的知識加入知識庫後不會產生矛盾和冗餘。在實際應用中,知識庫的構建者為保證知識庫應用的時效性,通常僅保留部分與業務密切相關的知識,而放棄其他推理結果
- 發展趨勢:跨知識庫知識推理
- 基於組合描述邏輯的Tableau演算法
2.3.3 質量評估
對知識的可信度進行量化,通過捨棄置信度較低的知識,可以保障知識庫的質量,計算置信度的方法如下:
- Sieve方法
- 基於LDIF框架
- 解決知識庫之間的衝突問題
- 支援使用者根據自身業務需求靈活定義質量評估函式,也可以對多種評估方法的結果進行綜合考評以確定知識的最終質量評分
- 邏輯斯蒂迴歸法
- 谷歌的方法
- 對通過資訊抽取獲得的知識的評估:從全網範圍內抽取結構化的資料資訊,並根據某一資料資訊在整個抽取過程中抽取到的頻率對該資料資訊的可信度進行評分,然後利用從可信知識庫freebase中得到先驗知識對先前的可信度資訊進行修正
- 對使用者貢獻的結構化知識的評估:依據使用者的貢獻歷史和領域,以及問題的難易程度進行自動評估使用者貢獻知識質量
2.4 知識更新
- 概念層的更新
- 新增資料後獲得了新的概念,需要自動將新的概念新增到知識庫的概念層中
- 需藉助專業團隊進行人工稽核
- 資料層的更新
- 新增或更新實體、關係和屬性值
- 方法
- 選擇百科類網站等可靠資料來源,並選擇在各資料來源中出現頻率高的事實和屬性加入知識庫
- 眾包
- 內容更新的方法
- 資料驅動下的全面更新
- 以更新後的全部資料為輸入,從零開始構建知識圖譜
- 簡單,但資源消耗大,而且需要耗費大量人力資源進行系統維護
- 資料驅動下的增量更新
- 以當前新增資料為輸入,向現有知識圖譜中新增新增知識
- 資源消耗小,但目前仍需要大量人工干預
- 資料驅動下的全面更新
3. 跨語言知識圖譜的構建
3.0 跨語言本體構建
可以參照2.3.1介紹的本體構建方法,分別建立各語種的本體庫
3.1 跨語言知識抽取
- 思路:藉助於豐富的源語種知識自動化抽取缺失的目標語種知識
- 方法
- 基於翻譯的跨語言知識抽取模型
- 首先通過跨語言知識連結和屬性對齊的方式將目標語種的相關內容對映到源語種知識庫中所對應的內容,然後將相關知識翻譯為目標語種
- 侷限:
- 受到不同語種間等價物件的數量以及源語種知識庫中結構化資訊(資訊框)數量的限制
- 知識抽取的質量直接受機器翻譯的質量限制
- 基於遷移學習的跨語言知識抽取框架(WikiCiKE)
- 利用源語種知識庫中豐富的無結構文字資訊以及結構化資訊,提高了目標語種知識庫中資訊抽取的數量和質量
- 基於翻譯的跨語言知識抽取模型
3.2 跨語言知識連結
- 思路:將不同語言表示的相同知識連結起來
- 模式層的連結
- 核心:本體對映(對齊)
- 內涵
- 核心:本體對映(對齊)
如果2個本體間如果存在語義上的概念關聯,則通過語義關聯實現二者之間的對映
-
-
- 目的:實現知識的共享和重用
- 方法
- SOCOM方法
- 基於連結因子圖模型的跨語言知識連結方法
- 基於語義標註的增量式跨語言知識連結方法
-
- 資料層的連結
4. 知識圖譜的應用
- 智慧語義搜尋
- 移動個人助理
- 深度問答系統
- 實現方法
- 分類
- 基於資訊檢索的問答系統
-
- 基於語義分析的問答系統
5. 問題與挑戰
- 資訊抽取環節
- 演算法準確性和召回率低、限制條件多、擴充套件性不好
- 開放域資訊抽取,主要的問題包括實體抽取、關係抽取以及屬性抽取
- 多語種、開放領域的純文字資訊抽取問題
- 知識融合環節
- 如何實現準確的實體連結是一個主要挑戰
- 開放域條件下的實體消歧、共指消解、外部知識庫融合和關係資料庫知識融合
- 如何在上下文資訊受限(短文字、跨語境、跨領域等)條件下,準確地將從文字中抽取得到的實體正確連結到知識庫中對應的實體
- 知識加工環節
- 本體的自動構建、知識推理技術、知識質量評估手段以及推理技術的應用
- 建立完善的質量評估技術標準和指標體系
- 知識推理的方法和應用研究
- 知識更新環節
- 增量更新技術
- 提高自動化程度並確保自動化更新的有效性
- 如何解決知識的表達、儲存與查詢問題