鮑捷 | 深度解析知識圖譜發展關鍵階段及技術脈絡——轉自AI科技大本營
本文轉自公眾號:AI科技大本營,作者鮑捷。
原文連結如下:
感悟:據我的認知來看,鮑捷是中國最懂知識圖譜的人了。當然王昊奮劉知遠他們也很厲害,漆桂林老師非常親民(在知乎上回答過我的問題),但鮑捷作為元老級人物,能用通俗的語言給完全沒有基礎的人講明白知識圖譜的相關技術,實在是令人欽佩。如果有機會,希望我也能見一見鮑捷老師,一睹風采。
這篇文章,我覺得之前對知識圖譜不甚瞭解的人也能看懂,當然這是根據鮑捷的演講整理過來的,原視訊在連結中可以看到。我還沒有看完,但是想把它儘快分享出來,因為感覺寫得既通俗又嚴謹。
▌什麼是知識圖譜?
知識圖譜到底是什麼?坦白說我也沒有特別好的答案,知識圖譜從某種程度來說是一個營銷名詞,是 2012 年穀歌提出了這樣一個專案叫“Knowledge Graph”。
一個有意思的定義是王昊奮老師提出來的:知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全域性唯一確定的ID來標識,稱為它們的識別符號。每個屬性-值對用來刻畫實體的內在特性,而關係用來連線兩個實體,刻畫它們之間的關聯。
但是在實踐中我們並不需要太過糾結什麼叫知識圖譜,什麼不是知識圖譜。有人問我說是否必須要用RDF(資源描述框架)才是知識圖譜?或者說是不是必須用Neo4j圖資料庫才是知識圖譜?其實不是。不在於你具體用了哪一種Syntax,哪一種資料儲存的資料庫。關鍵是它的本質是什麼。
理解本質從瞭解知識圖譜的演化過程入手。
▌知識圖譜的演化
知識圖譜這個概念是最近四、五年才為大家所知的,但是這個技術本身有非常深厚的發展基礎,我把這個過程分成六個階段,合併一下之後大概分成兩個比較重要的階段。
往前溯可以追溯到五六十年代前,因為在人工智慧這個領域裡,知識工程作為一個分支很早就有了。人工智慧在大體上有三個比較大的分支,一個是神經網路,叫連線主義學派,另外一個叫統計或者經驗主義學派,後來就衍生出了機器學習,最後一個知識工程這個方向,我們叫它理性主義或者符號主義,是從 1956 年這個學科形成時就有的分支。
在六十年代、七十年代的時候,知識工程這個領域往前發展,不斷的產生出新的邏輯語言和新的實用方法,像描述邏輯是七十年代就興起了的。在六十年代時就有一個叫“Frame Network”(aka “Semantic Network”),語義網路。注意,不是“語義網”而是“語義網路”,那個時候的語義網路跟現在的知識圖譜非常像。所以這個是不斷迴圈的,如果我們把六十年的學科發展抽象來看,實際上就是一個從簡單到複雜、再從複雜迴歸簡單的過程。
從最終得到的結果來看,好像我們現在得到的知識圖譜跟六十年代就已經有的語義網路非常像,但這種像只是表面上的。因為在發展過程中,我們構造了一個龐大的工業體系,以及如何從各種各樣的文件、各種各樣的資料裡集中編輯、生成知識圖譜的一整套工業鏈。所以一個技術不能只看它的定義,而是要看它相關所有實踐過程中工業體系的總和。今天知識圖譜的技術無論從深度還是廣度上,都遠遠超越六十年代的語義網路技術。
八十年代、九十年代、到兩千年,這中間還有非常多中間技術,我們從中選些重要的事情說一下。
▌語義網路
這張圖是對前面那張圖的抽象,我們選其中發展過程中最重要的節點。六十年代有一種東西叫“語義網路”,語義網路在七十年代、八十年代時演化成了描述邏輯。為什麼會有這種變化?因為語義網路本身只是一種表徵,並不具備推理能力。語義網路+推理變成了新的邏輯系統,叫“描述邏輯”,描述邏輯到兩千年前後跟 Web 技術結合在一起,形成了新的語言,比如 OIL 、DAML。
另外一個分支是 1995 年前後有了元資料,從元資料學科衍生出一個分支叫 RDF,後來 RDF 和 DAML 合併起來就變成了 OWL。下面還有一些更工程的內容,包括 schema.org、RDFa、JOSN-LD、GraphpDB,這都是最近 5、6 年興起的新技術。這些技術的總和就構成了我們所稱的“知識圖譜”技術,但只是其中一部分。
給大家看一個語義網路,語義網路其實就是一個網路。這張圖上有各種不同的概念,比如中間的 Mammal 是哺乳動物,貓(cat) 是一種哺乳動物,貓有毛;熊是哺乳動物,熊也有毛;鯨是一種哺乳動物,鯨在水裡面生活;魚也在水裡面生活,也是一種動物;哺乳動物是一種脊椎動物,也是動物的一種。
所有這些節點和邊的總和就構成了一個網路,每一條邊上都有一些標誌的,用術語來說就是“有型別的邊”,這種“有型別的邊”連在一起的節點叫“語義網路”,概念是非常簡單的。
六十年代時自然語言處理和知識表現的大拿批評這種語義網路,說這個東西沒辦法用於推理,用術語來說是最後沒有“semantics”。這裡涉及很多關係,什麼叫 semantics?有的學者認為 semantics 必須是有一套嚴格的語義定義,這通常是用模型論來定義,或者過程方法來定義。其實也有更淺的對語義的理解,萬事萬物之間的關係就是語義。比如我們開啟字典,字典是用一些詞定義另外一些詞,這就是語義。
我們在這樣的語義網路裡,如何定義一個詞的意義?其實我們是做不到的。比如在這個語義網路裡,居於中間位置的詞是“哺乳動物”,它到底是什麼?我們很難讓計算機理解什麼是真正的哺乳動物,很難通過它的內涵含義來理解。對於計算機而言,它只能知道萬事萬物之間的聯絡,也許這對於機器自動處理來說就夠了。所以語義網路儘管沒有所謂的語義,我們還是把它稱為語義網路的原因,因為語義就是關係。
▌描述邏輯
到了八十年代時,描述邏輯就已經比較成熟了。描述邏輯是邏輯的一種,我在這裡面列了一張表,這是描述邏輯和一階邏輯 (FOL 邏輯)之間的對應。如果大家沒有邏輯基礎也不用害怕,因為這個圖本質上是講很基礎的邏輯定義。
我們有了一個描述邏輯之後,就可以用計算機來做一些自動推理的工作。八十年代到九十年代,描述邏輯學者們一直都在尋找如何讓計算機更好的進行邏輯推理,一些比較可判定的所謂計算機不會宕機的那些問題的總和,這種語言稱為“描述邏輯”。
▌OWL
到九十年代時描述邏輯成為知識表現領域的一種非常顯學、非常重要的分支,正好這時網際網路興起了。到了 1995 年前後開始了真正知識圖譜化的第一步,開始把描述邏輯用網際網路的語言來重新來表徵,有人用 HTML,也有人用 XML。1999 年馬里蘭大學開始釋出了第一個這樣的語言,叫“SHOE”。後來這個語言被美國的國防部高等研究所資助了一個專案叫“DAML”,這就是第一個在美國這邊把知識表現語言放在網上一種官方的努力。
與此同時,在歐洲也有一個非常相似的努力叫“OIL”,大西洋兩岸的同行們一看,大家做的事情非常相似,於是在 2001 年時 W3C 開始把兩邊的努力彙總在一起,出現了一個語言叫“DAML+OIL”。到了 2004 年時 W3C 進一步協調大家的努力,合併了一個新的語言叫“OWL”,2009年釋出了第二版,叫“OWL2”。
從九十年代到 2009 年這十幾年期間,這個領域不斷向上、向好積極發展,在那個時候我們曾經認為 OWL 是描述這個世界非常好的一種工具,因為它對於機器處理是非常友好的,所以我們就希望把它放到網際網路上去,讓更多人用到,但是這個設想後來並沒有實現。
▌W3C OWL 工作組的瓶頸
這裡多說幾句 OWL,因為我是 OWL 工作組的一員,所以知道一些早期的事情。OWL有兩個工作組,最早的一個工作組是在 2000-2004 年之間,我趕上的是 2007-2010 年的第二個工作組,這個工作組的使命是把現有的 OWL 語言進一步完善,提供所謂更強的表達力,或者在機器處理上比如要進行語義資料的查詢,我們應該用什麼樣的,什麼可以用、什麼不能用、什麼能說、什麼不能說、什麼對機器是友好的,OWL 工作組就是做這個事情。
我們寫了 10 來個文件,加在一起 600 多頁紙,花了兩年時間做這個事情。OWL 工作組除了大學裡來的人,還有一些企業的成員,包括 IBM、Oracle、惠普等等,還有一些小的創業公司。
那個時候我們這個領域遇到了一些瓶頸的,就是 OWL 這個語言或者語義網整個領域,在 2000 年前後是大家非常寄予厚望的,就好像現在大家對於深度學習寄予厚望一樣。但是往前走到 2006 年前後遇到了瓶頸,就是沒有人真的去產生這樣的資料,大多數日常場景用不到語義。於是這時候就產生了內部的路線鬥爭,叫“SEMANTIC Web or semantic WEB”,就是到底我們是加強語義呢?還是加強網際網路屬性呢?有兩組不同的人不斷進行爭執。
當然,還有很多其他的分歧,包括我們到底該怎麼去定義什麼叫“簡單”,大家沒有一致的意見。所以我們最終生成的文件從學術角度來說是非常有價值,但是對於工業應用特別是 C 端的網際網路應用沒有達到預期。
小結 :從弱語義到強語義的嘗試(邏輯)
前面這一段大體總結了知識圖譜技術發展的前兩個大的階段歷史,一個是從六十年代到九十年代,早期知識圖譜的原型,包括語義網路等等,後面一系列的技術。
從 2001-2006 年或者 2007 年這段時間,是不斷加強語義網所謂的語義的過程,就是從弱語義到強語義,從語義網路到描述邏輯,一直髮展到 OWL,並行還有另外其他一些,比如基於框架邏輯還有另外一個語言叫“RIF”。這十幾年時間都一直不斷在加強語義表現的表達力,但最後證明這個做法是不太妥當的。
▌元資料框架到 RDF
我們講過,除了學術性非常強的描述邏輯 OWL 分支之外,知識圖譜還有另外一個分支是來自於元資料框架的。這個工作最早是 Guha 在 Apple 做的,Guha 這個人是非常值得關注的,因為某種程度上他是“知識圖譜之父”,在 1995 年時他在 Apple 發明了一個語言叫“MCF”,因為他那時候面臨一些問題,就是怎麼去表徵多媒體的資料,特別是影象的資料,所以他就發明了一整套的元資料表徵方法。
到了 1997 年時 Guha 跟Tim Bray 做了 RDF/XML。1999 年網景公司發明了 RSS 語言,這個東西現在新一代的朋友們不一定知道了,回到 10 年前時看新聞都是用 RSS 訂閱的,其實 RSS 的第一個 R 就是 RDF。後來他們改了其他的名字,從本源上來講,技術剛剛開始的時候這個技術是 RDF 的應用。1999 年 RDF 被 W3C 收編了,變成了國際標準。
▌RDF
什麼是 RDF?這裡給一個例子,它是非常簡單的語言,本質上是三元組,主語、謂語、賓語就是個三元組。比如“我叫鮑婕”,“我”是主語,“是”是謂語,“鮑捷”是賓語。在 RDF 這個框架下,萬事萬物各種複雜的關係最後都被拆分成三元組,如果從圖形來表示,三元組就是一個主語、一個謂語,中間有一條線一個箭頭是賓語,可以把各種各樣的模型都分解成這樣的三元組。
從 1997 年有了 RDF,1998 年有了 RDFS,2004 年邏輯學家給 RDF 加了一個語義,因為他們認為 RDF 必須要能夠推理,所以 2014 年進一步加強,最後有了 RDF1.1,這是 RDF 大概 20 多年的發展史。
小結:從弱語義到強語義的嘗試(元資料)
RDF 和一開始提到描述邏輯方法是不一樣的,因為描述邏輯方法是從實驗室裡來的,它想構造一個龐大的體系,構建一個完美的知識表現語言,然後再尋找它的落地。
而 RDF 從一開始就是一個從實踐出發的、自底向上的一個語言。RDF 相對於 OWL 而言,是一個更加偏工程的、應用更多的語言,現在有很多人在用 RDF。我們日常生活中所遇到的絕大多數網站,現在都有某種型別的元資料,其中相當一部分就是用 RDF 不同的變種來實現的,所以 RDF 總的來說是一個比較成功的技術,因為它是來自於現實的技術。
▌關聯資料 Linked Data
從 2001 年這個領域正式形成,到 2006 年時語義網的技術堆疊已經變得非常複雜了。1999 年時有一個所謂的“語義網蛋糕模型”,對語義網不同的技術做了羅列。2006 年時語義網技術已經複雜到沒有人看得懂,沒有辦法用二維表達,必須用一個三維的圖才能夠把語義網所有的技術放在裡面。這就帶來了一個嚴重的問題,就是絕大多數的企業、開發者很難理解,無從下手。
到了 2006 年時我們的“神”Tim Berners-Lee 出來思考這個問題,他想與其要求大家現在把資料搞得很漂亮,不如讓大家把資料公開出來。只要資料能夠公開出來,資料能夠連在一起,我們就會建立一個生態,這套想法他稱為“關聯資料”。
他提出了資料釋出的基本原則,上圖是我從他的部落格上面提取出來的,我也非常推薦大家好好看他的部落格“Design Issues”,Tim Berners-Lee 會提前 20 年時間去想人類的未來是什麼樣的,我們的 Web 到底應該遵循什麼樣的原則。
在關聯資料的定義上,他定義了幾層什麼是好的關聯資料:第一是在網上,一顆星;二是機器能夠自動讀,這就有兩顆星;三是儘可能用一個公有的格式,不要是某個公司私有的,這樣能夠促進公開交換,做到這點就有三顆星;因為是 W3C 提出來的,必須用 RDF,用 RDF 就有四顆星;如果 RDF 有 ID 把它連在一起就是五顆星。這就是 Tim Berners-Lee 提出的關聯資料的五星標準。
小結:從強語義到弱語義的嘗試(關聯資料)
2006 年之所以 Tim Berners-Lee 要推進這個轉變,就是因為他當時看到了有些風險。語義網的頭 5 年時間並不是特別成功,因為沒有人願意釋出資料,這時候 Tim Berners-Lee 出來帶領大家調整方向,不要再去強調很強的語義和推理了,可能一個比較弱的語義或者一個結構化本身就已經足夠了,這就是 Tim Berners-Lee 用“關聯資料”概念再次盤活了這個領域。
▌新的綜合:交換語言
這張圖上總結了知識交換語言一系列的發展,剛才提到 RDF,RDF+HTML,變成了 RDFa,還有另外一種叫 Microformat,這都是非常多網站上已經用到的元資料語言。RDF+HTML5 就變成了 Microdata,RDF+JSON 就變成了 JSON-LD。所以傳統的 RDF semantics 就是基於 XML 的 semantics,現在不太多見了,因為那個東西非常複雜,學習成本非常高。
現在我們看到的大部分 RDF 從概念上是 RDF 的變種,但是語法形式在網站上開啟元程式碼看都有元資料。大概 3 年前統計,有 30% 的網頁已經有語義資料了,現在應該至少超過一半的網站都有語義資料,所以 RDF 是很成功的一個東西。
▌新的綜合:儲存語言(圖資料庫)
當資料多了以後面臨另外一個問題,就是如何去儲存和操作知識圖譜的應用資料。大公司和小公司各自有自己不同的解決方案,統稱為“圖資料庫”。為什麼語義網的資料庫稱它為“圖資料庫”?前面幾張 PPT 講到 RDF 時,其實 RDF 就是各種事情之間的關聯,我們把這種關聯畫出來,變成很大的一個圖,很自然的就用圖資料庫進行知識圖譜的儲存。所以谷歌、微軟各個大廠都有自己的圖資料庫,至少是定製化的資料庫。
圖資料庫這件事情上後來產生了兩個新的流派,一個流派叫“RDF 資料庫”,另外一個叫“屬性圖資料庫”,雖然同樣是圖,但兩種資料庫關聯絡統的定義是完全不一樣的。因為 RDF 這種圖本質上強調推理邏輯;而屬性圖要放開很多,而且屬性圖發展過程中工程化做得非常好。
小結:從強語義到弱語義的嘗試(圖資料庫)
在圖資料庫的嘗試當中,我們再次把語義給弱化了,從強語義到弱語義,因為如果我們用強語義就用 RDF 資料庫,如果我們允許有弱語義就可以用圖資料庫。最後證明,圖資料庫的發展速度遠遠快於 RDF 資料庫。所以從實踐當中總結出來的東西總是有生命力的,如果只是基於純理論的思考設計出來的東西通常是沒有生命力的。
Lean semantic Web
在整個領域發展過程中,我慢慢也有一些思考。後來我有一個部落格叫“語義噪聲”,這裡記錄了很多我對語義網大大小小事情的想法。那天統計了一下,加在一起大概有 300 多頁紙的內容,如果有空了會整理出來給大家看。
這裡我列舉了一些跟今天講課內容關係比較緊密的東西,包括為什麼語義網會不斷的去簡化,為什麼連結資料最後要演化成所謂的知識圖譜。我之前的部落格裡都寫過,歡迎大家去看一看。
還有 github 上,大連理工大學的耿新鵬博士把我部落格文章整理到 github 上了,大家不用翻牆就可以看得到了。
▌總結
其實知識圖譜從 2012 年穀歌提出之後,它進入了新的綜合的過程。知識圖譜在理論上並沒有特別大的進步,因為這些工程包括邏輯推理幾十年來一直都是這樣。進步的地方在哪裡?通過實踐發現,我們要想實現一個人工智慧非常複雜的分支,其實是沒有辦法用那種學院派辦法來做的。我們只有理論結合實際,甚至從實踐中出發總結出產品來、總結出語言來,這樣東西的生命力遠遠大於一群專家坐在屋子裡討論出來的。
知識圖譜的領域從 2006 年往前一直不斷從弱語義到強語義的發展過程中,這個階段最後被證明是不太成功的。2006 年之後這個領域不斷的強調工程、強調應用、強調資料、強調跟實踐最相關的東西,語義也進一步弱化,又從強語義再次迴歸到弱語義。2012 年穀歌的知識圖譜是完全拋棄掉語義的。
從二十年來的歷史表明,從實踐中總結的方法要優於從頂向下設計的方法。如果你有一個很好的想法或者一個很好的語言,並不能保證別人就能夠用起來,除了要貼合用戶的需求之外,還有大量工具工作和生產工具的工作,這就形成了產業鏈。
所以在知識圖譜領域,我們不能狹隘看它的某一種語言或者某一種技術,它是一個體系的,就是一大堆結構化資料從生產到儲存到檢索的全流程工具豐富程度,才決定這個技術能不能落地。簡單的優於強大的,太過複雜的比如 OWL 最終用不起來,反而比較簡單的的像 RDF、最近比較火的 JSON-LD 用得越來越多。越簡單越好,這就是 20 年來最核心學習到的東西。
▌展望
知識圖譜從 2015 年之後,就在實踐中應用越來越廣泛。經過這幾年培育,在不同的領域裡,像醫療、法律、金融都已經有比較好的公司建立起市場口碑了。相信知識圖譜還會向更多其他的垂直領域進行滲透。
我們這幾年時間最主要的工作,不管在中國,還是在美國,都是促進了知識圖譜工具的建設。這是我今天晚上第三次強調工具了,如果你離開一整套的工具鏈條的話,比如校驗工具、編輯工具、檢索工具、推理工具,開發是非常難做的。
知識圖譜本質上來說是一種程式,它是為了機器理解世界是什麼時寫的一種程式。知識工程和軟體工程一樣,需要很多人在一起協作才能夠做好。我們經過這幾十年軟體工程總結出一整套的打法來,可以讓比較笨的人或者專業度不那麼強的人,也可以去做開發工作。對於知識工程而言,目前沒有達到那個點,這就是為什麼知識工程那麼貴的原因。但是我相信今後一段時間內工具的建設會不斷改善,我們自己也在做一些工具,將來會提供給大家用。
▌相關資料
下面是是跟語義網有關的參考資料,我刻意沒有去列近期的東西,因為絕大多數重要的東西在 2012 年前就有了,2012 年之後的東西沒有那麼太必要搞明白,我們優先把這個領域本源的東西看一下,相信對大家是有價值的。如果大家對英文還 OK,我建議大家讀讀 W3C 一系列標準,包括 RDF 有一個入門指南寫得非常好,OWL 也有一個入門指南是我參與寫作的。
總的來說,到目前為止知識圖譜在中國沒有特別好的書來講,王昊奮、漆桂林、陳華鈞老師他們正在寫。其他的包括知識抽取、知識檢索工具的總結在W3C上也有,歡迎大家去看一看,可以解惑。
The Semantic Web
知識表示 + 知識推理理
-
RDF:https://www.w3.org/TR/2004/REC-rdf-primer-20040210/
-
RDFa: https://www.w3.org/TR/rdfa-core/
-
JSON-LD: https://www.w3.org/TR/2014/REC-json-ld-20140116/
-
RDFS:https://www.w3.org/TR/2014/REC-rdf-schema-20140225/
-
OWL:
https://www.w3.org/TR/2004/REC-owl-features-20040210/
https://www.w3.org/TR/2012/REC-owl2-primer-20121211/
-
Prov:https://www.w3.org/TR/prov-overview/
More Inference & Reasoning:
-
RIF:https://www.w3.org/TR/rif-primer/
-
SPARQL based reasoning: http://vos.openlinksw.com/owiki/wiki/VOS/VirtSPARQLReasoningTutorial
-
Description Logic Primer: https://arxiv.org/abs/1201.4089
知識檢索
-
SPARQL:https://www.w3.org/TR/sparql11-overview/
-
SPARQL Tools: https://www.w3.org/2001/sw/wiki/SPARQL
知識抽取
-
Information Extraction:
https://web.stanford.edu/~jurafsky/slp3/21.pdf
-
NER:
http://www.cfilt.iitb.ac.in/resources/surveys/rahul-ner-survey.pdf, https://nlp.cs.nyu.edu/sekine/papers/li07.pdf
-
Entity Linking:
http://dbgroup.cs.tsinghua.edu.cn/wangjy/papers/TKDE14-entitylinking.pdf
-
Book: https://www.w3.org/2001/sw/wiki/Books
答聽眾問:
Q:請問 cat 和 cats 是兩個不同的物件嗎?如果是,cat 的 has是不是在 cats 中變成 have 了?
A:通常我們在知識建模時不太會有 cats 這個概念,一般來說只有 cat 這個概念,因為 cat 本身就是一個集合,那個集合本身就意味著它有可能是多個元素組成的集合。
Q:圖情學中的知識圖譜 mapping knowledge domain 與人工智慧中的知識圖譜有什麼關聯?
A:這是個非常有趣的問題,因為我剛剛回到中國時搜知識圖譜,搜到的文章都是圖書館學上面的,這兩個技術從內涵、外延、歷史都沒有關係。
Q:能不能將機器學習中的特徵通過某種對映,使其成為高維向量,從而和知識圖譜的 entity 和 event 結合起來,這個對映的高維向量如何訓練比較好?
A:這個問題非常專業。在知識圖譜的學習過程中確實有向量的表示方法,目前比較多的實踐是基於深度學習的方法,但這很複雜的,很難用一句話來解決,特別是對映的高維向量如何訓練比較好,這件事情可能要離線的看看論文,我推薦大家看劉知遠老師的工作,國際上他在這方面做得最好的。
Q:請問語義定義如果是關係,但是語義類的相交併不代表語義中包含實體的屬性全包含,該如何區分呢?
A:“如果語義定義是關係”這是一個不嚴格的定義,你後面說的“語義類的相交併不代表包含實體的屬性全包含”是一個強語義的關係,一個是講弱語義,一個是講強語義,其實我們不太做這種區分。
因為當我們認同弱語義定義時,在工程上是允許各種特例存在的,因為一旦進行強語義建模時,一方面是精確,但重要的是成本升上去了,所以我們在不精確和成本之間做一個衡量,這個問題不是太重要,不用摳這個字眼。
Q:強弱語義有定義嗎?有標準嗎?
A:“強語義”、“弱語義”是我自己杜撰出來的東西,目前應該沒有官方的定義吧。根據我自己的定義,如果你是依靠描述邏輯的,我們稱它為強語義。如果沒有的話,像圖資料庫、屬性圖,就是弱語義。
Q:知識圖譜如何可以運用到移動端產品中?有哪些好的應用案例可以講講?
A:Siri 這種問答引擎,現在幾乎所有語音助手類的產品背後都有知識圖譜。大家在淘寶上會遇到機器人客服,就是因為後面有商品類的知識圖譜。大家日常生活各行各業、各個方向目前都已經被知識圖譜影響到了。比如大家用智慧音箱,你可以跟它對話,這件事情能發生就是因為有知識圖譜。像我們在做金融的應用,所有的股民也都是被知識圖譜服務到的。
各行各業都有,至於是不是移動端的產品,當有人問我某某領域或者某某產品能不能用到知識圖譜的話,我都會說“能”,知識圖譜是資料庫往前的一個延伸,所以一定能夠用得到。
Q:2015 年之後出現過哪些開源的知識圖譜工具?
A:我覺得之後的這兩年沒有看到特別好的知識圖譜工具,更多都是很早之前就有了。但在 NLP 上還是有很多發展的,最近很多老師做了開源的工作,像劉知遠做了向量化的學習、表徵學習都開源了,這是很好的工作。傳統的語義網應該沒有太多新的工具,主要是集中在知識表現、知識提取方面。
Q:知識圖譜的典型應用是什麼?對自然語言處理有什麼關聯和促進嗎?
A:知識圖譜的典型應用,像問答是最典型的,像流程自動化、客服,像我們現在做的自動化監管、自動化審計、自動化報告,總之,凡是需要結構化資料的地方都是知識圖譜的應用。
對自然語言處理有什麼關聯和促進?自然語言處理裡一個細分分支是知識提取,知識提取是知識圖譜生成的前提條件之一,這是兩者之間最主要的聯絡。就像知識計算專委會是放在中文資訊協會下面的,有這個歷史淵源。
Q:知識圖譜入門從何學起,有什麼好的教學視訊或者書嗎?
A:小象學院上王昊奮做了第一期的教學視訊,後來其他老師在做第二期,大家可以從那開始看。
Q:從文字到知識圖譜比較關鍵的技術是什麼?前期的 schema 對知識圖譜建構的影響有多大?
A:比較關鍵的技術是關係抽取、實體連結技術。前期的 schema 對構造的影響有多大?這個見仁見智,有些特別強調 schema top down 設計的人,他們可能認為對這個問題的影響比較大。從我自己的工程實踐來說,我覺得影響不大。
Q:在垂直領域構建知識圖譜,有沒有經驗性的套路?
A:總的來說,先做搜尋,然後再做實體抽取,然後再把實體連在一起,這是最常見的套路。
Q:知識表示有哪些方法比較常用?
A:知識表示就是各種結構化的方法,從邏輯上來講,大體有兩大類,一塊是描述邏輯,另外一塊是 Logic program,這是從學術角度的知識表示最常見的,或者一套是更偏資料庫的方法,一套是更偏網際網路的方法,具體很難講得清楚。
Q:基於知識圖譜的問答有什麼特定的流程嗎?
A:大體流程都是先做語義理解,然後把語義理解的結果變成一個結構化表示,然後再把中間的結構化表示對映到資料庫上去,形成一個查詢計劃。細節都各家不同,但大的原則都是這樣子。
--【完】--
相關推薦
鮑捷 | 深度解析知識圖譜發展關鍵階段及技術脈絡——轉自AI科技大本營
本文轉自公眾號:AI科技大本營,作者鮑捷。 原文連結如下: 感悟:據我的認知來看,鮑捷是中國最懂知識圖譜的人了。當然王昊奮劉知遠他們也很厲害,漆桂林老師非常親民(在知乎上回答過我的問題),但鮑捷作為元老級人物,能用通俗的語言給完全沒有基礎的人講明白知識圖譜的相關技術,
文因互聯鮑捷:深度解析知識圖譜發展關鍵階段及技術脈絡 | 公開課筆記
分享嘉賓 | 鮑捷(文因互聯CEO) 出品 | AI科技大本營(公眾號ID:rgznai100) 知識圖譜是人工智慧三大分支之一——符號主義——在新時期主要的落地技術方式。該技術雖然在
今晚8點開播 | 深度解析知識圖譜發展關鍵階段技術脈絡
作為知識圖譜領域形成過程的親歷者之一,AI科技大本營此次邀請到文因互聯 CEO 鮑捷,他將對知識圖譜的歷史淵源進行梳理,對該領域幾次發展的主要技術突破做深度解析,並分析其工業落地的幾個關鍵點。歡迎大家踴躍報名。 知識圖譜是人工智慧三大分支之一——符號主義—
CCAI 2017 | 德國DFKI科技總監Hans Uszkoreit:如何用機器學習和知識圖譜來實現商業智慧化? 原2017.07.25AI科技大本營 文/CSDN大琦 7 月22
文/CSDN大琦 7 月22 - 23 日,由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)在杭州國際會議中心盛大開幕。 大會第二天,德國人工智慧研究中心(DFKI)科技總監、北京人工智慧技術中心
基於深度學習知識圖譜綜述
基於深度學習知識圖譜綜述 摘要:隨著現如今計算機裝置的更新,計算能力的不斷提高促使深度學習再一度推上熱門技術,深度學習已經廣泛應用於影象處理、文字挖掘、自然語言處理等方面,在醫學、交通、教育、旅遊等行業發揮極大地作用。知識圖譜也在深度學習的技術下得到了很大的發展。 知識圖
綜述 | 知識圖譜發展概述
作者丨姜天文 學校丨哈工大SCIR博士生 本文經授權轉載自公眾號「哈工大SCIR」。 “知識圖譜(Knowledge Graph)”的概念由 Google 公司在 2012 年提出[1],是指其用於提升搜尋引擎效能的知識庫。與近年來其他學者相同,本文中的“知識圖譜”泛指知識庫專案,而非特指 Goo
【進階3-4期】深度解析bind原理、使用場景及模擬實現
本週的主題是this全面解析,本計劃一共28期,每期重點攻克一個面試重難點,如果你還不瞭解本進階計劃,文末點選檢視全部文章。 如果覺得本系列不錯,歡迎點贊、評論、轉發,您的支援就是我堅持的最大動力。 bind() bind() 方法會建立一個新函式,當這個新函式被呼叫時,它的 this 值是傳
【進階3-4期】深度解析bind原理、使用場景及模擬實現(轉)
這是我在公眾號(高階前端進階)看到的文章,現在做筆記 https://github.com/yygmind/blog/issues/23 bind() bind() 方法會建立一個新函式,當這個新函式被呼叫時,它的 this 值是傳遞給 bind(
百度Apollo計劃跟蹤:深度解析Apollo無人車感知和定位技術
有關無人車的定位有兩種,一種稱之為絕對定位,不依賴任何參照物,直接給出無人車相對地球座標或者說WGS84座標系,也就是座標(B,L,H),其中B為緯度,L為經度,H為大地高即是到WGS-84橢球面的高度, WGS-84座標系是美國國防部研製確定的大地座標系,是一種協議地球座標
Devops關鍵工具及技術(二)—Jenkins2.0 Pipeline
在上一篇文章Devops關鍵工具及技術(一)—Jenkins 容器化中,我們實現了Jenkins的容器化,並利用Jenkins的Docker外掛實現Slave容器雲。並使用了基本的pipeline。這篇文章我們將會介紹Jenkins2.0的Pipeline。 P
Devops關鍵工具及技術(五)—基於Pipeline的Bash指令碼部署
接下來我們將會為Pipeline加上部署的Stage,部署採用sh指令碼進行部署。後續我們將會採用Ansible的自動化部署。 Sh指令碼 沿用之前的Spring-boot工程,經過持續整合後,我們將會得到maven構建後的一個jar包,這個jar即是工程的啟
Devops關鍵工具及技術(七)—基於Pipeline的Jmeter效能測試[二](Jmeter效能測試的流水線整合)
有了自動化測試、自然效能測試也需要成為Pipeline的一部分。效能測試的工具常見的主要有Jmeter和LoadRunner。我們將選用Jmeter作為我們的主角。因為它是免費的。由於在Windows下安裝Jmeter比較簡單,所以我們在Jmeter效能測試會
Devops關鍵工具及技術(八)—基於Pipeline的Ansible自動化部署[二](Ansible自動化部署的流水線整合)
上篇文章中,我們將Ansible進行了容器化。在這篇文章中我們將利用Ansible映象整合到Jenkins的Docker Cloud中,這個過程與之前的Jenkins Slave整合、RobotFramework自動化測試整合、Jmeter效能測試整合一樣。 1
Devops關鍵工具及技術(一)—Jenkins 容器化
在進行Devops思想與方法論落地的過程中,Jenkins這個開源的軟體基本上會成為我們的首選,因為它的成熟度以及外掛的豐富程度都無法讓我們拒絕它。而隨著Jenkins 2.0的釋出,Pipeline As Code的理念,無疑給Jenkins使用者在Devop
實戰 | 深度學習輕鬆學:如何用視覺化介面來部署深度學習模型 轉載 2017年12月27日 00:00:00 109 翻譯 | AI科技大本營 參與 | 王赫 上個月,我有幸結識了 DeepCogn
翻譯 | AI科技大本營 參與 | 王赫 上個月,我有幸結識了 DeepCognition.ai 的創始人。 Deep Cognition (深度認知) 建立的深度學習工作室,為很多準備部署深度學習框架和採用人工智慧技術的機構打破了諸多難以逾越的障礙。 究竟什麼是深度學習?
鮑捷 | 知識圖譜從 0 級到 10 級簡化版
本文轉載自公眾號:文因學堂。0級:掌握正則表示式、SQL、JSON和一門支援if-then-el
語言小知識-Java ArrayList類 深度解析
花了一天時間,翻譯了一遍 java.util.ArrayList 類的原始碼(1700 多行,還是很有收穫的),包括註釋和程式碼解讀,並提了一些問題,也寫了下自己的理解 點我檢視 ArrayList 原始碼翻譯。 問題 1:ArrayList 的 size 和 capacity 怎麼理解? 如果
總結CNN的發展歷程,以及一些卷積操作的變形,附帶基礎的深度學習知識與公式
1.Lenet-5 :最先出現的卷積神經網路,1998年,由於當時的硬體還不成熟,因此到了2012年出現了AlexNet 2.AlexNet:可以說是現在卷積神經網路的雛形 3.VGGNet:五個模組的卷積疊加,網路結構如下: 4.GoogleNet:ince
語言小知識-Java HashMap類 深度解析
HashMap 也是比較常用的 Java 集合框架類,該類涉及到的知識比較多,包括陣列、連結串列、紅黑樹等等,還有一些高效巧妙的計算,並且這個類經過幾個版本的改進,不同版本之間是有些差異的,這裡都是基於 JDK8 原始碼。照常的原始碼翻譯,看看你能否回答下面的幾個問題?(一些地方真的很難翻譯,大家看看就好)
PaperWeekly 第32期 | 基於知識圖譜的問答系統關鍵技術研究 01
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興! “ 崔萬雲 復旦大學知識工場實驗室博士生 研究方向為問答系統和知識圖譜第一章 緒論 第 1 節 問答系統背景介紹2011 年 10 月 14 日,蘋