科普 | 典型的知識庫/連結資料/知識圖譜專案

阿新 • • 發佈：2019-01-18

從人工智慧的概念被提出開始，構建大規模的知識庫一直都是人工智慧、自然語言理解等領域的核心任務之一。下面首先分別介紹了早期的知識庫專案和以網際網路為基礎構建的新一代知識庫專案。並單獨介紹了典型的中文知識圖譜專案。

1. 早期的知識庫專案

Cyc: Cyc 是持續時間最久，影響範圍較廣，爭議也較多的知識庫專案。Cyc 是在 1984 年由 Douglas Lenat 開始建立。最初的目標是要建立人類最大的常識知識庫。典型的常識知識如 ”Every tree is a plant” ，”Plants die eventually”等。Cyc 知識庫主要由術語 Terms 和斷言 Assertions 組成。Terms 包含概念、關係和實體的定義。Assertions 用來建立 Terms 之間的關係，這既包括事實 Fact 描述，也包含規則 Rule 的描述。最新的 Cyc 知識庫已經包含有 50 萬條 Terms 和 700 萬條 Assertions。 Cyc 的主要特點是基於形式化的知識表示方法來刻畫知識。形式化的優勢是可以支援複雜的推理。但過於形式化也導致知識庫的擴充套件性和應用的靈活性不夠。Cyc 提供開放版本 OpenCyc。

WordNet：WordNet 是最著名的詞典知識庫，主要用於詞義消歧。WordNet 由普林斯頓大學認識科學實驗室從1985年開始開發。WordNet 主要定義了名詞、動詞、形容詞和副詞之間的語義關係。例如名詞之間的上下位關係（如：“貓科動物”是“貓”的上位詞），動詞之間的蘊含關係（如：“打鼾”蘊含著“睡眠”）等。WordNet3.0已經包含超過15萬個詞和20萬個語義關係。

ConceptNet：ConceptNet是常識知識庫。最早源於MIT媒體實驗室的Open Mind Common Sense (OMCS)專案。OMCS專案是由著名人工智慧專家Marvin Minsky於1999年建議創立。ConceptNet主要依靠網際網路眾包、專家建立和遊戲三種方法來構建。ConceptNet知識庫以三元組形式的關係型知識構成。ConceptNet5版本已經包含有2800萬關係描述。與Cyc相比，ConceptNet採用了非形式化、更加接近自然語言的描述，而不是像Cyc那樣採用形式化的謂詞邏輯。與連結資料和谷歌知識圖譜相比，ConceptNet比較側重於詞與詞之間的關係。從這個角度看，ConceptNet更加接近於WordNet，但是又比WordNet包含的關係型別多。此外，ConceptNet完全免費開放，並支援多種語言。

2. 語義網與知識圖譜

網際網路的發展為知識工程提供了新的機遇。在一定程度上，是網際網路的出現幫助突破了傳統知識工程在知識獲取方面的瓶頸。從1998年Tim Berners Lee提出語義網至今，湧現出大量以網際網路資源為基礎的新一代知識庫。這類知識庫的構建方法可以分為三類：網際網路眾包、專家協作和網際網路挖掘。

Freebase: Freebase是一個開放共享的、協同構建的大規模連結資料庫。Freebase是由矽谷創業公司MetaWeb於2005年啟動的一個語義網專案。2010年，谷歌收購了Freebase作為其知識圖譜資料來源之一。Freebase主要採用社群成員協作方式構建。其主要資料來源包括維基百科Wikipedia、世界名人資料庫NNDB、開放音樂資料庫MusicBrainz，以及社群使用者的貢獻等。Freebase基於RDF三元組模型，底層採用圖資料庫進行儲存。Freebase的一個特點是不對頂層本體做非常嚴格的控制，使用者可以建立和編輯類和關係的定義。2016年，谷歌宣佈將Freebase的資料和API服務都遷移至Wikidata，並正式關閉了Freebase。

DBPedia: DBPedia是早期的語義網專案。DBPedia意指資料庫版本的Wikipedia，是從Wikipedia抽取出來的連結資料集。DBPedia採用了一個較為嚴格的本體，包含人、地點、音樂、電影、組織機構、物種、疾病等類定義。此外，DBPedia還與Freebase，OpenCYC、Bio2RDF等多個數據集建立了資料鏈接。DBPedia採用RDF語義資料模型，總共包含30億RDF三元組。

Schema.org：Schema.org是2011年起，由Bing、Google、Yahoo和Yandex等搜尋引擎公司共同支援的語義網專案。Schema.org支援各個網站採用語義標籤（Semantic Markup）的方式將語義化的連結資料嵌入到網頁中。搜尋引擎自動蒐集和歸集這些，快速的從網頁中抽取語義化的資料。Schema.org提供了一個詞彙本體用於描述這些語義標籤。截止目前，這個詞彙本體已經包含600多個類和900多個關係，覆蓋範圍包括：個人、組織機構、地點、時間、醫療、商品等。谷歌於2015年推出的定製化知識圖譜支援個人和企業在其網頁中增加包括企業聯絡方法、個人社交資訊等在內的語義標籤，並通過這種方式快速的彙集高質量的知識圖譜資料。截止2016年，谷歌的一份統計資料顯示，超過31%的網頁和1200萬的網站已經使用了Schema.org釋出語義化的連結資料。其它採用了部分Schema.org功能的還包括微軟Cortana、Yandex、Pinterest、蘋果的Siri等。Schema.org的本質是採用網際網路眾包的方式生成和收集高質量的知識圖譜資料。

WikiData: WikiData的目標是構建一個免費開放、多語言、任何人或機器都可以編輯修改的大規模連結知識庫。WikiData由維基百科於2012年啟動，早期得到微軟聯合創始人Paul Allen、Gordon Betty Moore基金會以及Google的聯合資助。WikiData繼承了Wikipedia的眾包協作的機制，但與Wikipedia不同，WikiData支援的是以三元組為基礎的知識條目（Items）的自由編輯。一個三元組代表一個關於該條目的陳述（Statements）。例如可以給“地球”的條目增加“<地球，地表面積是，五億平方公里>”的三元組陳述。截止2016年，WikiData已經包含超過2470多萬個知識條目。

BabelNet：BabelNet是類似於WordNet的多語言詞典知識庫。BabelNet的目標是解決WordNet在非英語語種中資料缺乏的問題。BabelNet採用的方法是將WordNet詞典與Wikipedia百科整合。首先建立WordNet中的詞與Wikipedia的頁面標題的對映，然後利用Wikipedia中的多語言連結，再輔以機器翻譯技術，來給WordNet增加多種語言的詞彙。BabelNet3.7包含了271種語言，1400萬同義詞組，36.4萬詞語關係和3.8億從Wikipedia中抽取的連結關係，總計超過19億RDF三元組。 BabelNet集成了WordNet在詞語關係上的優勢和Wikipedia在多語言語料方面的優勢，構建成功了目前最大規模的多語言詞典知識庫。

NELL：NELL(Never-Ending Language Learner) 是卡內基梅隆大學開發的知識庫。NELL主要採用網際網路挖掘的方法從Web自動抽取三元組知識。NELL的基本理念是：給定一個初始的本體（少量類和關係的定義）和少量樣本，讓機器能夠通過自學習的方式不斷的從Web學習和抽取新的知識。目前NELL已經抽取了300多萬條三元組知識。

YAGO: YAGO是由德國馬普研究所研製的連結資料庫。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的資料。YAGO將WordNet的詞彙定義與Wikipedia的分類體系進行了融合整合，使得YAGO具有更加豐富的實體分類體系。YAGO還考慮了時間和空間知識，為很多知識條目增加了時間和空間維度的屬性描述。目前，YAGO包含1.2億條三元組知識。YAGO是IBM Watson的後端知識庫之一。

Microsoft ConceptGraph：ConceptGraph 是以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同，ConceptGraph 以概念定義和概念之間的IsA關係為主。給定一個概念如“Microsoft”，ConceptGraph 返回一組與“微軟”有IsA關係概念組，如：“Company”，“Software Company”，“Largest OS Vender”等。這被稱為概念化 “Conceptualization”。ConceptGraph 可以用於短文字理解和語義消歧中。例如，給定一個短文字 “the engineer is eating the apple”，可以利用ConceptGraph來正確理解其中“apple”的含義是“吃的蘋果”還是“蘋果公司”。微軟釋出的第一個版本包含超過 540 萬的概念，1255 萬的實體，和 8760萬的關係。ConceptGraph 主要通過從網際網路和網路日誌中挖掘來構建。

LOD-Linked Open Data：LOD 的初衷是為了實現 Tim Berners-Lee 在 2006 年發表的有關連結資料（Linked Data）作為語義網的一種實現的設想。LOD 遵循了Tim提出的進行資料鏈接的四個規則，即：（1）使用URI標識萬物；（2）使用HTTP URI，以便使用者可以（像訪問網頁一樣）檢視事物的描述；（3）使用RDF和SPARQL標準；（4）為事物新增與其它事物的URI連結，建立資料關聯。截止目前，LOD 已經有 1143 個連結資料集，其中社交媒體、政府、出版和生命科學四個領域的資料佔比超過 90%。56% 的資料集對外至少與一個數據集建立了連結。被連結最多的是dbpedia的資料。比較常用的連結型別包括：foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch等。LOD鼓勵各個資料集使用公共的開放詞彙和術語，但也允許使用各自的私有詞彙和術語。在使用的術語中，有41%是公共的開放術語。

3. 中文知識圖譜資源

OpenKG.CN：中文開放知識圖譜聯盟旨在通過建設開放的社群來促進中文知識圖譜資料的開放與互聯，促進中文知識圖譜工具的標準化和技術普及。

Zhishi.me ：Zhishi.me是中文常識知識圖譜。主要通過從開放的百科資料中抽取結構化資料，已融合了百度百科，互動百科以及維基百科中的中文資料。

CN-DBPeidia：CN-DBpedia是由復旦大學知識工場實驗室研發並維護的大規模通用領域結構化百科。CN-DBpedia主要從中文百科類網站（如百度百科、互動百科、中文維基百科等）的純文字頁面中提取資訊，經過濾、融合、推斷等操作後，最終形成高質量的結構化資料，供機器和人使用。CN-DBpedia自2015年12月份釋出以來已經在問答機器人、智慧玩具、智慧醫療、智慧軟體等領域產生數億次API呼叫量。CN-DBpedia提供全套API，並且免費開放使用。大規模商務呼叫，提供由IBM、華為支援的專業、穩定服務介面。

cnSchema.org: cnSchema.org 是一個基於社群維護的開放的知識圖譜 Schema 標準。cnSchema 的詞彙集包括了上千種概念分類(classes)、資料型別(data types)、屬性(propertities)和關係(relations)等常用概念定義，以支援知識圖譜資料的通用性、複用性和流動性。結合中文的特點，我們複用、連線並擴充套件了Schema.org，Wikidata， Wikipedia 等已有的知識圖譜 Schema 標準，為中文領域的開放知識圖譜、聊天機器人、搜尋引擎優化等提供可供參考和擴充套件的資料描述和介面定義標準。通過 cnSchema, 開發者也可以快速對接上百萬基於 Schema.org 定義的網站，以及 Bot 的知識圖譜資料 API。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜資料的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

0?wx_fmt=jpeg

轉載須知：轉載需註明來源“OpenKG.CN”、作者及原文連結。如需修改標題，請註明原標題。

點選閱讀原文，進入 OpenKG 部落格。

科普 | 典型的知識庫/連結資料/知識圖譜專案

2. 語義網與知識圖譜

3. 中文知識圖譜資源

科普 | 典型的知識庫/連結資料/知識圖譜專案

達觀資料桂洪冠：一文詳解達觀資料知識圖譜技術與應用

知識圖譜—語義網路、語義網、連結資料、知識圖譜

論文淺嘗 | 打通推薦系統與知識圖譜: 第一個公開的大規模連結資料集合

語義網路，語義網，連結資料和知識圖譜

靈玖軟體：KGB知識圖譜技術為資料安全提供新方法

新聞文字內容知識圖譜表示專案

知識圖譜完整專案實戰（附原始碼)（1）

達觀資料技術實踐：知識圖譜和Neo4j淺析

NLPIR-KGB知識圖譜大資料語義挖掘新引擎

專案實戰--知識圖譜初探

基於知識圖譜+機器學習，搭建風控模型的專案落地

【專欄】- 知識圖譜：圖資料（neo4j）從0到1

大規模知識圖譜資料儲存實戰解析

專案實戰：如何構建知識圖譜

【專欄】- 知識圖譜、web資料探勘及NLP

技術文章 | 專案實戰：如何構建知識圖譜

【知識圖譜】知識圖譜實體連結無監督學習框架

【知識圖譜】大資料環境下知識工程的機遇和挑戰

知識圖譜（RDF）大型資料集網路下載資源整合

科普 | 典型的知識庫/連結資料/知識圖譜專案

2. 語義網與知識圖譜

3. 中文知識圖譜資源

相關推薦