1. 程式人生 > >科普 | 典型的知識庫/連結資料/知識圖譜專案

科普 | 典型的知識庫/連結資料/知識圖譜專案

從人工智慧的概念被提出開始,構建大規模的知識庫一直都是人工智慧、自然語言理解等領域的核心任務之一。下面首先分別介紹了早期的知識庫專案和以網際網路為基礎構建的新一代知識庫專案。並單獨介紹了典型的中文知識圖譜專案。

1. 早期的知識庫專案

Cyc:  Cyc 是持續時間最久,影響範圍較廣,爭議也較多的知識庫專案。Cyc 是在 1984 年由 Douglas Lenat 開始建立。最初的目標是要建立人類最大的常識知識庫。典型的常識知識如 ”Every tree is a plant” ,”Plants die eventually”等。Cyc 知識庫主要由術語 Terms 和斷言 Assertions 組成。Terms 包含概念、關係和實體的定義。Assertions 用來建立 Terms 之間的關係,這既包括事實 Fact 描述,也包含規則 Rule 的描述。最新的 Cyc 知識庫已經包含有 50 萬條 Terms 和 700 萬條 Assertions。 Cyc 的主要特點是基於形式化的知識表示方法來刻畫知識。形式化的優勢是可以支援複雜的推理。但過於形式化也導致知識庫的擴充套件性和應用的靈活性不夠。Cyc 提供開放版本 OpenCyc。

WordNet:WordNet 是最著名的詞典知識庫,主要用於詞義消歧。WordNet 由普林斯頓大學認識科學實驗室從1985年開始開發。WordNet 主要定義了名詞、動詞、形容詞和副詞之間的語義關係。例如名詞之間的上下位關係(如:“貓科動物”是“貓”的上位詞),動詞之間的蘊含關係(如:“打鼾”蘊含著“睡眠”)等。WordNet3.0已經包含超過15萬個詞和20萬個語義關係。

ConceptNet:ConceptNet是常識知識庫。最早源於MIT媒體實驗室的Open Mind Common Sense (OMCS)專案。OMCS專案是由著名人工智慧專家Marvin Minsky於1999年建議創立。ConceptNet主要依靠網際網路眾包、專家建立和遊戲三種方法來構建。ConceptNet知識庫以三元組形式的關係型知識構成。ConceptNet5版本已經包含有2800萬關係描述。與Cyc相比,ConceptNet採用了非形式化、更加接近自然語言的描述,而不是像Cyc那樣採用形式化的謂詞邏輯。與連結資料和谷歌知識圖譜相比,ConceptNet比較側重於詞與詞之間的關係。從這個角度看,ConceptNet更加接近於WordNet,但是又比WordNet包含的關係型別多。此外,ConceptNet完全免費開放,並支援多種語言。

2. 語義網與知識圖譜

網際網路的發展為知識工程提供了新的機遇。在一定程度上,是網際網路的出現幫助突破了傳統知識工程在知識獲取方面的瓶頸。從1998年Tim Berners Lee提出語義網至今,湧現出大量以網際網路資源為基礎的新一代知識庫。這類知識庫的構建方法可以分為三類:網際網路眾包、專家協作和網際網路挖掘。

Freebase: Freebase是一個開放共享的、協同構建的大規模連結資料庫。Freebase是由矽谷創業公司MetaWeb於2005年啟動的一個語義網專案。2010年,谷歌收購了Freebase作為其知識圖譜資料來源之一。Freebase主要採用社群成員協作方式構建。其主要資料來源包括維基百科Wikipedia、世界名人資料庫NNDB、開放音樂資料庫MusicBrainz,以及社群使用者的貢獻等。Freebase基於RDF三元組模型,底層採用圖資料庫進行儲存。Freebase的一個特點是不對頂層本體做非常嚴格的控制,使用者可以建立和編輯類和關係的定義。2016年,谷歌宣佈將Freebase的資料和API服務都遷移至Wikidata,並正式關閉了Freebase。

DBPedia: DBPedia是早期的語義網專案。DBPedia意指資料庫版本的Wikipedia,是從Wikipedia抽取出來的連結資料集。DBPedia採用了一個較為嚴格的本體,包含人、地點、音樂、電影、組織機構、物種、疾病等類定義。此外,DBPedia還與Freebase,OpenCYC、Bio2RDF等多個數據集建立了資料鏈接。DBPedia採用RDF語義資料模型,總共包含30億RDF三元組。

Schema.org:Schema.org是2011年起,由Bing、Google、Yahoo和Yandex等搜尋引擎公司共同支援的語義網專案。Schema.org支援各個網站採用語義標籤(Semantic Markup)的方式將語義化的連結資料嵌入到網頁中。搜尋引擎自動蒐集和歸集這些,快速的從網頁中抽取語義化的資料。Schema.org提供了一個詞彙本體用於描述這些語義標籤。截止目前,這個詞彙本體已經包含600多個類和900多個關係,覆蓋範圍包括:個人、組織機構、地點、時間、醫療、商品等。谷歌於2015年推出的定製化知識圖譜支援個人和企業在其網頁中增加包括企業聯絡方法、個人社交資訊等在內的語義標籤,並通過這種方式快速的彙集高質量的知識圖譜資料。截止2016年,谷歌的一份統計資料顯示,超過31%的網頁和1200萬的網站已經使用了Schema.org釋出語義化的連結資料。其它採用了部分Schema.org功能的還包括微軟Cortana、Yandex、Pinterest、蘋果的Siri等。Schema.org的本質是採用網際網路眾包的方式生成和收集高質量的知識圖譜資料。

WikiData:  WikiData的目標是構建一個免費開放、多語言、任何人或機器都可以編輯修改的大規模連結知識庫。WikiData由維基百科於2012年啟動,早期得到微軟聯合創始人Paul Allen、Gordon Betty Moore基金會以及Google的聯合資助。WikiData繼承了Wikipedia的眾包協作的機制,但與Wikipedia不同,WikiData支援的是以三元組為基礎的知識條目(Items)的自由編輯。一個三元組代表一個關於該條目的陳述(Statements)。例如可以給“地球”的條目增加“<地球,地表面積是,五億平方公里>”的三元組陳述。截止2016年,WikiData已經包含超過2470多萬個知識條目。

BabelNetBabelNet是類似於WordNet的多語言詞典知識庫。BabelNet的目標是解決WordNet在非英語語種中資料缺乏的問題。BabelNet採用的方法是將WordNet詞典與Wikipedia百科整合。首先建立WordNet中的詞與Wikipedia的頁面標題的對映,然後利用Wikipedia中的多語言連結,再輔以機器翻譯技術,來給WordNet增加多種語言的詞彙。BabelNet3.7包含了271種語言,1400萬同義詞組,36.4萬詞語關係和3.8億從Wikipedia中抽取的連結關係,總計超過19億RDF三元組。 BabelNet集成了WordNet在詞語關係上的優勢和Wikipedia在多語言語料方面的優勢,構建成功了目前最大規模的多語言詞典知識庫。

NELLNELL(Never-Ending Language Learner) 是卡內基梅隆大學開發的知識庫。NELL主要採用網際網路挖掘的方法從Web自動抽取三元組知識。NELL的基本理念是:給定一個初始的本體(少量類和關係的定義)和少量樣本,讓機器能夠通過自學習的方式不斷的從Web學習和抽取新的知識。目前NELL已經抽取了300多萬條三元組知識。

YAGO: YAGO是由德國馬普研究所研製的連結資料庫。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的資料。YAGO將WordNet的詞彙定義與Wikipedia的分類體系進行了融合整合,使得YAGO具有更加豐富的實體分類體系。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。目前,YAGO包含1.2億條三元組知識。YAGO是IBM Watson的後端知識庫之一。

Microsoft ConceptGraph:ConceptGraph 是以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同,ConceptGraph 以概念定義和概念之間的IsA關係為主。給定一個概念如“Microsoft”,ConceptGraph 返回一組與“微軟”有IsA關係概念組,如:“Company”,“Software Company”,“Largest OS Vender”等。這被稱為概念化 “Conceptualization”。ConceptGraph 可以用於短文字理解和語義消歧中。例如,給定一個短文字 “the engineer is eating the apple”,可以利用ConceptGraph來正確理解其中“apple”的含義是“吃的蘋果”還是“蘋果公司”。微軟釋出的第一個版本包含超過 540 萬的概念,1255 萬的實體,和 8760萬的關係。ConceptGraph 主要通過從網際網路和網路日誌中挖掘來構建。

LOD-Linked Open Data:LOD 的初衷是為了實現 Tim Berners-Lee 在 2006 年發表的有關連結資料(Linked Data)作為語義網的一種實現的設想。LOD 遵循了Tim提出的進行資料鏈接的四個規則,即:(1)使用URI標識萬物;(2)使用HTTP URI,以便使用者可以(像訪問網頁一樣)檢視事物的描述;(3)使用RDF和SPARQL標準;(4)為事物新增與其它事物的URI連結,建立資料關聯。截止目前,LOD 已經有 1143 個連結資料集,其中社交媒體、政府、出版和生命科學四個領域的資料佔比超過 90%。56% 的資料集對外至少與一個數據集建立了連結。被連結最多的是dbpedia的資料。比較常用的連結型別包括:foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch等。LOD鼓勵各個資料集使用公共的開放詞彙和術語,但也允許使用各自的私有詞彙和術語。在使用的術語中,有41%是公共的開放術語。

3. 中文知識圖譜資源

OpenKG.CN中文開放知識圖譜聯盟旨在通過建設開放的社群來促進中文知識圖譜資料的開放與互聯,促進中文知識圖譜工具的標準化和技術普及。

Zhishi.me :Zhishi.me是中文常識知識圖譜。主要通過從開放的百科資料中抽取結構化資料,已融合了百度百科,互動百科以及維基百科中的中文資料。

CN-DBPeidia:CN-DBpedia是由復旦大學知識工場實驗室研發並維護的大規模通用領域結構化百科。CN-DBpedia主要從中文百科類網站(如百度百科、互動百科、中文維基百科等)的純文字頁面中提取資訊,經過濾、融合、推斷等操作後,最終形成高質量的結構化資料,供機器和人使用。CN-DBpedia自2015年12月份釋出以來已經在問答機器人、智慧玩具、智慧醫療、智慧軟體等領域產生數億次API呼叫量。CN-DBpedia提供全套API,並且免費開放使用。大規模商務呼叫,提供由IBM、華為支援的專業、穩定服務介面。

cnSchema.org: cnSchema.org 是一個基於社群維護的開放的知識圖譜 Schema 標準。cnSchema 的詞彙集包括了上千種概念分類(classes)、資料型別(data types)、屬性(propertities)和關係(relations)等常用概念定義,以支援知識圖譜資料的通用性、複用性和流動性。結合中文的特點,我們複用、連線並擴充套件了Schema.org,Wikidata, Wikipedia 等已有的知識圖譜 Schema 標準,為中文領域的開放知識圖譜、聊天機器人、搜尋引擎優化等提供可供參考和擴充套件的資料描述和介面定義標準。通過 cnSchema, 開發者也可以快速對接上百萬基於 Schema.org 定義的網站,以及 Bot 的知識圖譜資料 API。        

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

0?wx_fmt=jpeg

轉載須知:轉載需註明來源“OpenKG.CN”、作者及原文連結。如需修改標題,請註明原標題。

點選閱讀原文,進入 OpenKG 部落格。

相關推薦

科普 | 典型知識庫/連結資料/知識圖譜專案

從人工智慧的概念被提出開始,構建大規模的知識庫一直都是人工智慧、自然語言理解等領域的核心任務之一。下面首先分別介紹了早期的知識庫專案和以網際網路為基礎構建的新一代知識庫專案。並單獨介紹了典型的中文知識圖譜專案。 1. 早期的知識庫專案 Cyc:  Cyc 是持續時間最久,影響範圍較廣,爭議也較多的知識庫

達觀資料桂洪冠:一文詳解達觀資料知識圖譜技術與應用

本文根據達觀資料桂洪冠在“達觀杯”文字智慧處理挑戰賽期間的技術直播分享整理而成,內容略有刪減。 ▌一、知識圖譜的概述 我們先直觀的來看一下什麼是知識圖譜,下面有一張圖,從這張圖裡可以看到,這個圖裡圓圈是節點,節點之間有一些帶箭頭的邊來連成,這個節點實際上相當於知識

知識圖譜—語義網路、語義網、連結資料知識圖譜

一、語義網路         語義網路是由Quillian於上世紀60年代提出的知識表達模式,其用相互連線的節點和邊來表示知識。節點表示物件、概念,邊表示節點之間的關係。 語義網路的優點: 1. 容易理解和展示。 2. 相關概念容易聚類。 語義網路的缺點:

論文淺嘗 | 打通推薦系統與知識圖譜: 第一個公開的大規模連結資料集合

本文轉載自:RUC智慧情報站,知乎專欄連結:https://zhuanlan.zhihu.com

語義網路,語義網,連結資料知識圖譜

文章釋出在我的知乎專欄,對知識圖譜感興趣的朋友可以關注。 前一篇文章“為什麼需要知識圖譜?什麼是知識圖譜?——KG的前世今生”提及了和知識圖譜相關的一些早期概念。為了讓讀者能夠更好地區分這些概念,以及更好地在整體上把握知識譜圖發展過程,本文將對這些概念作一個更

靈玖軟體:KGB知識圖譜技術為資料安全提供新方法

  隨著計算機網路技術不斷的發展和完善,目前網路技術運用在各個行業並取得了極其重要的成就,不僅僅改變了人們的日常生活和工作,同時也是體現一個企業綜合實力的重要組成部分,此外,計算機網路技術也已經成為了衡量一個國家經濟、政治、軍事能力的象徵,象徵著一個國家在國際上的影響力。   資料探勘是在龐大的資料庫中找出

新聞文字內容知識圖譜表示專案

TextGrapher 專案地址:https://github.com/liuhuanyong/TextGrapher Text Content Grapher based on keyinfo extraction by NLP method。輸入一篇文件,將文件進行關鍵資訊提取,進行

知識圖譜完整專案實戰(附原始碼)(1)

一、前言 本文是《知識圖譜完整專案實戰(附原始碼)》系列博文的第一篇,主要介紹課程設定的初衷和綱要。知識圖譜的學習是一個基礎到實戰,從入門到精通的一個逐漸深入的、漸進式的過程。在這個過程中,一個完整的專案,起到的作用往往是對過往所學全部知識的串聯和融合。只有經過一個完整專案的實踐,才能真正把所學的、離散

達觀資料技術實踐:知識圖譜和Neo4j淺析

在當前大資料行業中, 隨著演算法的升級, 特別是機器學習的加入,“找規律”式的演算法所帶來的“紅利”正在逐漸地消失,進而需要一種可以對資料進行更深一層挖掘的方式,這種新的方式就是知識圖譜。 下面我們來聊一下知識圖譜以及知識圖譜在達觀資料中的實踐。  

NLPIR-KGB知識圖譜資料語義挖掘新引擎

  近些年,由於以社交網站、基於位置的服務LBS 等為代表的新型資訊產生方式的湧現,以及雲端計算、移動和物聯網技術的迅猛發展,無處不在的移動、無線感測器等裝置無時不刻都在產生資料,數以億計使用者的網際網路服務時時刻刻都在產生著資料互動,大資料時代已經到來。在當下,大資料炙手可熱,不管是企業還是個人都在談論或者

專案實戰--知識圖譜初探

實踐了下怎麼建一個簡單的知識圖譜,兩個版本,一個從 0 開始(start from scratch),一個在 CN-DBpedia 基礎上補充,把 MySQL,PostgreSQL,Neo4j 資料庫都嘗試了下。自己跌跌撞撞摸索可能踩坑了都不知道,歡迎討論。 CN-DBpedia 構建流程 知識庫可以分為

基於知識圖譜+機器學習,搭建風控模型的專案落地

本專案主要實現邏輯如下: 1.將測試資料分表格存入mysql資料庫。 2.設計知識圖譜關係圖,按照設計思路將node與對應的relationship存入neo4j資料庫。 3.設計一套有效的特徵,提取特徵用於機器學習模型進行訓練,用以風控判斷。 4.將提取特徵的cypher語句存入mysql

【 專欄 】- 知識圖譜:圖資料(neo4j)從0到1

----關注我,得永生------ ♀♀♀如果學習是做愛♀♀♀ ♂♂♂請你記住要深入♂♂♂ ----ME----聯絡方式------ 數學建模:虐雲建模網 機器學習Q群:249885734 PythonQ群:867300100

大規模知識圖譜資料儲存實戰解析

本文轉自公眾號PlantData知識圖譜實戰(ID:KGPlantData),本文摘錄自上海海翼知資訊科技有限公司胡芳槐博士4月14日在北京理工大學分享的《大規模知識圖譜資料儲存》PPT。 作者對知識圖譜的儲存進行了全面的介紹,內容包括:什麼是知識圖譜,知

專案實戰:如何構建知識圖譜

實踐了下怎麼建一個簡單的知識圖譜,兩個版本,一個從 0 開始(start from scratch),一個在 CN-DBpedia 基礎上補充,把 MySQL,PostgreSQL,Neo4j 資料庫都嘗試了下。自己跌跌撞撞摸索可能踩坑了都不知道,歡迎討論。 1. CN-DBpedia 構建流程 知識

【 專欄 】- 知識圖譜、web資料探勘及NLP

作者:楊秀璋 學歷:本科-北京理工大學            碩士-北京理工大學 現任教於貴財財經大學資訊學院 http://www.eastmountyxz.com 簡介:自幼受貴州大山的薰陶,養成了誠實質樸的性格。經過寒窗苦讀,考入BIT,為完成自己的教師夢,放棄IT、航天等工

技術文章 | 專案實戰:如何構建知識圖譜

本文來源於阿里雲-雲棲社群,原文點選這裡。 實踐了下怎麼建一個簡單的知識圖譜,兩個版本,一個從 0 開始(start from scratch),一個在 CN-DBpedia 基礎上補充,把 MySQL,PostgreSQL,Neo4j 資料庫都嘗試了下。自己跌跌撞撞

知識圖譜知識圖譜實體連結無監督學習框架

雷鋒網 AI 科技評論按:阿里巴巴有 11 篇論文被 AAAI 2018錄用,分別來自機器智慧技

知識圖譜】大資料環境下知識工程的機遇和挑戰

導讀:知識圖譜已經成為推動人工智慧發展的核心驅動力之一。本文選自清華大學電腦科學與技術系教授、清

知識圖譜(RDF)大型資料集 網路下載資源整合

不定期更新 一、DBPedia 簡介: DBpedia 是一個很特殊的語義網應用範例,它從維基百科(Wikipedia)的詞條裡擷取出結構化的資料,以強化維基百科的搜尋功能,並將其他資料集連結至維基百科。透過這樣的語意化技術的介入,讓維基百科的龐雜資訊有了許多創新而