1. 程式人生 > >Ontology Understanding Without Tears——本體理解的一篇論文翻譯

Ontology Understanding Without Tears——本體理解的一篇論文翻譯

  1. Introduction

目前為止,還沒有同時利用結構和語義資訊進行本體摘要的方法。基於此,本文將一個RDF/S資料庫看成兩個不同的但是相互連線的圖:模式層圖和資料層圖。這樣做就能在考慮所有資料的前提下給出本體摘要。

具體來說,本文的貢獻主要如下:

  1. 提出了自動生成RDFS摘要的新平臺,通過例項概括出模式層中最具代表性的概念。
  2. 為了構建圖摘要,本系統綜合利用了知識庫中的結構資訊和語義資訊。將模式層和資料層的節點分開,根據屬性的類別(使用者定義或標準RDFS屬性)設定不同權重[d1] ,以選擇本體中最重要的和最相關的概念。
  3. 為了識別重要概念,基於節點的相對基數和入度/出度定義了“相關度”指標。
  4. 我們想建立的摘要是針對原模式圖的子圖,因此,在篩選重要節點的基礎上,我們接下來選擇合適的路徑來連線重要節點。我們通過兩種演算法,選取全域性或區域性最重要的邊。
  5. 我們給出了相關演算法,闡述了其應用細節和複雜度。
  6. 我們的實驗分析結構顯示了我們演算法的優越性。開始,我們將自己的演算法和僅抽取重要概念的演算法結構進行對比,展示了我們演算法的優越性。然後,我們發現通過全域性重要性的子圖選擇演算法在幾乎所有情況下都表現最好。

據我們所知,本文演算法是唯一結合本體模式層和資料層進行摘要的演算法。支援通過高質量摘要模式圖進行知識庫的探索。

我們作品的前身已經在之前的RDF Digest文章裡寫過了。本文擴充套件了我們之前的工作。解決了處理空白節點的問題。本文提出了一種選擇重要概念間連邊的新演算法,並提供了實現細節和複雜度分析。升級後的系統提供了更多元資料,來提升本體理解。提出了一種對帶例項本體的使用者評估方式,並用這種方式評估了本文得到的摘要圖的質量。此外,對比了本文演算法和另外一種演算法的執行時間。

本文架構:第二章介紹了我們之前研究的演算法,第三章描述了我們演算法中用到的用來篩選重要節點和連邊的公式。第四章提出了兩種選擇邊的方法,第五章給出了實現的系統。第六章對結果進行評估,第七章介紹了相關工作。最後,第八章對全文進行總結展望。

  1. Preliminaries

目前還沒有一種標準的選取RDFS圖中重要節點的方法。我們的目標是生成一個簡單且概括性強的摘要,同時兼顧模式層和資料層資訊。我們基於RDFS進行摘要,但我們的方法同樣適用於OWL,只是在操作時只考慮其中的RDFS元素。

RDF資料的表示依賴於三種資源:URIs(U),literals(L)和blank nodes(B)。在本文中我們考慮三種資源:classes(C<U^B), properties(P<U), individuals(I<U^B)。集合C包括所有的類,包括RDFS類和XML資料(string, integer)。集合P包括所有屬性,除了連結例項和類的rdf:type。集合I包括除字面量外的所有例項。

本文將模式層和資料層分成兩個不同的圖(Gs,Gi)。模式層中的屬性可以有多個定義域和值域。屬性的URI作為邊的標籤。這兩個圖通過一個函式聯絡起來,這個函式決定了每個例項對應的上層概念。

定義:RDFS/KB:一個RDFS/KB是一個四元組。V=(Gs,Gi,v,t).其中v是邊到URI的對映,t是實體到概念的對映。

P(v1,v2)表示一條邊,s表示模式層中的節點,c表示類節點。i表示例項節點。dpath(vs->vi)表示兩點之間路徑長度。

  1. Assessment Measures

尋找能高效描述整個模式層,並反映資料層資料分佈的概念。本節給出了模式層摘要需要有的屬性。

    1. 評估模式層節點重要性

已有演算法利用PageRank在xml檔案中計算節點重要性。對於RDFS,其他方法用瞭如度中心性、介數中心性、特徵向量中心性(加權的PageRank和HITS),對各種引數記性整合以表明RDFS的特性。還有人將度中心性和接近中心性結合用來計算節點間的相關度。

在本文中,我們認為模式層節點的重要性應該通過其鄰接點和節點的可達性來計算。節點在資料層和模式層的連線我們都考慮在內。

具體地,我們首先通過節點對應的例項個數決定其重要性。隨後,我們結合節點的相對基數和在模式層的出邊、入邊數量和型別,來估計節點的重要性。最後,模式成節點的相關性通過對比其與鄰接點的中心性決定。

      1. 相對基數

然後就是各種引數的介紹。最後算出節點重要性。

  1. RDFS模式層摘要的構建
    1. 通過coverage maximization選擇子圖

選擇路徑的原則:1)路徑中所含節點的relevance 2)與路徑中節點相關的例項 3)路徑長度。

根據以上三原則,制定了路徑coverage的計算方法。

整個摘要的生成過程如上圖所示。把這種方式生成的摘要成為CM 摘要模式圖。

證明了上述方法生成的摘要確實是CM摘要。所謂的CM摘要滿足以下三個條件:

  1. 所有重要性top n的節點都在摘要中
  2. 所有top n的節點相互可達
  3. 被選中的兩點間path都是兩點間coverage最大的path

分析了演算法複雜度,複雜度小於O(|V|^2)。

    1. 通過relevance maximization選擇子圖

定義了路徑的reference是其中包含的各個節點的reference。

定義了RM摘要需滿足以下條件:

  1. 所有重要性top n的節點都在摘要中
  2. 所有top n的節點相互可達
  3. 被選中的兩點間path都是兩點間reference最大的path

證明了上述方法生成的摘要確實是RM摘要。

分析了演算法複雜度,複雜度小於O(|V|^3)。

  1. Evaluation

總共用了6個本體進行評估:BIOSPHERE, Financial, Aktors Portal, CRM, LUBM, eTMO。

通過3個階段評估演算法的有效性:

階段一:前三個本體用於對比本文演算法和identifying key concepts的演算法和personalized演算法。比較這三個演算法篩選重要概念節點的能力。階段一本體資料都僅有模式層。

階段二:為了給包含例項層的本體做實驗,用了接下來三個本體資料,與Peroni等人的資料進行對比。

階段三:因為我們的系統是唯一返回整個圖作為結果的系統,在最後階段我們將自己生成的結果與標準本體作對比。

最後,我們根據執行時間評估了自己演算法的效率,並與Peroni等人的演算法執行時間對比。所有實驗資料都可以在網上獲得。http://www.ics.forth.gr/~kondylak/SWJ_2016.zip


 [d1]這個權重大小是人為規定的。如何設計一種演算法生成權重?