1. 程式人生 > 其它 >知識圖譜-知識體系構建策略

知識圖譜-知識體系構建策略

知識體系的構建是指採用什麼樣的方式來組織和表達知識,核心是構建一個本體(或 schema)對目標知識進行描述。在這個本體中需要定義:1)知識的類別體系(如:人物類,娛樂人物,歌手等);2)各類別體系下實體間所具有的關係和實體自身所具有的屬性;3)不同關係或者屬性的定義域,值域等約束資訊(如:出生日期的屬性值是 Date 型別,身高屬性值應該是 Float 型別,簡介應該是 String 型別等)。我們構建 Topbase 知識體系主要是以人工構建和自動挖掘的方式相結合,同時我們還大量借鑑現有的第三方知識體系或與之相關的資源,如:Schema.org、Dbpedia、大詞林、百科(搜狗)等。知識體系構建的具體做法:

1. 首先是定義概念類別體系:

我們將知識圖譜要表達的知識按照層級結構的概念進行組織。在構建概念類別體系時,必須保證上層類別所表示的概念完全包含下層類別表示的概念,如娛樂人物是人物類的下層類別,那麼所有的娛樂人物都是人物。在設計概念類別體系時,我們主要是參考 schema.org、DBpedia 等已有知識資源人工確定頂層的概念體系。同時,我們要保證概念類別體系的魯棒性,便於維護和擴充套件,適應新的需求。除了人工精心維護設計的頂層概念類別體系,我們還設計了一套上下位關係挖掘系統,用於自動化構建大量的細粒度概念(或稱之為上位詞),如:《不能說的祕密》還具有細粒度的概念:“青春校園愛情電影”,“穿越電影”。

2. 其次是定義關係和屬性:

定義了概念類別體系之後我們還需要為每一個類別定義關係和屬性。關係用於描述不同實體間的聯絡,如:夫妻關係(連線兩個人物實體),作品關係(連線人物和作品實體)等;屬性用於描述實體的內在特徵,如人物類實體的出生日期,職業等。關係和屬性的定義需要受概念類別體系的約束,下層需要繼承上層的關係屬性,例如所有歌手類實體應該都具有人物類的關係和屬性。我們採用半自動的方式生成每個概念類別體系下的關係屬性。我們通過獲取百科 Infobox 資訊,然後將實體分類到概念類別體系下,再針對各類別下的實體關係屬性進行統計分析並人工稽核之後確定該概念類別的關係屬性。關係屬性的定義也是一個不斷完善積累的過程。

3. 定義約束:

定義關係屬性的約束資訊可以保證資料的一致性,避免出現異常值,比如:年齡必須是 Int 型別且唯一(單值),演員作品的值是 String 型別且是多值。

上下位關係是語言學概念。概括性較強的單詞叫做特定性較強的單詞的上位詞(hypernym),特定性較強的單詞叫做概括性較強的單詞的下位詞(hyponym)。比如我們說,蘋果是一種水果,蘋果就是水果的一個下位詞,也可以稱為一個例項,而水果則是蘋果的一個上位詞,也可以稱為一個類
上下位這種語義關係是整個詞彙語義關係中的一個重要內容,通過上下位關係,可以將世間萬物進行組織和練聯絡起來,對於增進人們對某一實體或概念的認知上具有重要幫助

時刻記著自己要成為什麼樣的人!