概述知識圖譜在人工智慧中的應用
隨著網際網路的發展,網路資料內容呈現爆炸式增長的態勢。由於網際網路內容的大規模、異質多元、組織結構鬆散的特點,給人們有效獲取資訊和知識提出了挑戰。知識圖譜(Knowledge Graph) 以其強大的語義處理能力和開放組織能力,為網際網路時代的知識化組織和智慧應用奠定了基礎。
知識圖譜作為近兩年在大資料時代下新穎的知識組織與檢索技術,其知識組織和展示的優勢逐漸體現出來,受到眾多領域的關注。知識圖譜旨在描述現實世界中存在的實體以及實體之間的關係。知識圖譜於2012年5月17日由[Google]正式提出,其初衷是為了提高搜尋引擎的能力,改善使用者的搜尋質量以及搜尋體驗。隨著人工智慧的技術發展和應用,知識圖譜逐漸成為關鍵技術之一,現已被廣泛應用於智慧搜尋、智慧問答、個性化推薦、內容分發等領域。
雖然您可能說不出知識圖譜的具體定義,但其實您每天都在使用它。當您在百度搜索時,搜尋結果右側的聯想,就來自於知識圖譜技術的應用;您問百度某個字怎麼念,答案也來自知識圖譜的應用;您和度祕聊天,問他詹姆斯和科比誰厲害、都取得了哪些成就等等,背後都是知識圖譜在發揮作用……現在網路搜尋、地圖、金融等越來越多的領域,都越來越依賴知識圖譜。
通過本場 Chat 中,您將會了解到:
- 知識圖譜的基本概念;
- 知識圖譜與人工智慧的關係;
- 知識圖譜的構建技術淺述;
- 知識圖譜的在行業中的典型應用;
- 知識圖譜的總結與展望。
隨著網際網路的發展,網路資料內容呈現爆炸式增長的態勢。由於網際網路內容的大規模、異質多元、組織結構鬆散的特點,給人們有效獲取資訊和知識提出了挑戰。知識圖譜(Knowledge Graph)以其強大的語義處理能力和開放組織能力,為網際網路時代的知識化組織和智慧應用奠定了基礎。
知識圖譜是知識工程的一個分支,以知識工程中語義網路作為理論基礎,並且結合了機器學習,自然語言處理和知識表示和推理的最新成果,在大資料的推動下受到了業界和學術界的廣泛關注。
本文從知識圖譜出發,分別淺述了知識圖譜的基本概念、知識圖譜與人工智慧的關係、知識圖譜構建技術、知識圖譜的在行業中的典型應用,最後對目前的知識圖譜技術做出總結並展望。
1. 知識圖譜(Knowledge Graph)的基本概念
知識圖譜(Knowledge Graph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係,其基本組成單位是『實體-關係-實體』三元組,以及實體及其相關屬性-值對,實體之間通過關係相互聯結,構成網狀的知識結構。
其中:
- 實體:對應現實世界的語義本體
- 關係:對應本體間的關係,連線了不同型別的實體
- 屬性:描述一類實體的 common 特性,實體被屬性所標註
The world is not made of strings , but is made of things. 知識圖譜旨在描述真實世界中存在的各種實體或概念。即知識圖譜實現對客觀世界從字串描述到結構化語義描述,是對客觀世界的知識對映(mapping world knowledge)。
知識圖譜的核心:知識庫
通過知識圖譜,可以實現 Web 從網頁連結向概念連結轉變,支援使用者按主題而不是字串檢索,從而實現真正的語義檢索,基於知識圖譜的搜尋引擎,能夠以圖形方式向用戶反饋結構化的知識,使用者不必瀏覽大量網頁,就可以準確定位和深度獲取知識。
2. 知識圖譜與人工智慧的關係
知識圖譜對於人工智慧的重要價值在於,知識是人工智慧的基石。機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如狗的嗅覺。而 “認知語言是人區別於其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎。” 而知識對於人工智慧的價值就在於,讓機器具備認知能力。
知識對於 AI 的價值,有了知識的人工智慧會變得更強大,可以做更多的事情。反過來,因為更強大的人工智慧,可以幫我們更好地從客觀世界中去挖掘、獲取和沉澱知識,這些知識和人工智慧系統形成正迴圈,兩者共同進步。
機器通過人工智慧技術與使用者的互動,從中獲取資料、優化演算法,更重要的是構建和完善知識圖譜,認知和理解世界,進而服務於這個世界,讓人類的生活更加美好。
3. 知識圖譜構建技術
目前知識大量存在於非結構化的文字資料、大量半結構化的表格和網頁以及生產系統的結構化資料中。構建知識圖譜的主要目的是獲取大量的、讓計算機可讀的知識。
為了闡述如何構建知識圖譜,本節首先給出了構建知識圖譜的技術圖,如下圖所示:
整個技術圖主要分為三個部分:
- 知識獲取:如何從非結構化、半結構化以及結構化資料中獲取知識 ;
- 資料融合:如何將不同資料來源獲取的知識進行融合構建資料之間的關聯;
- 知識計算及應用:基於知識圖譜計算功能以及知識圖譜的應用。
3.1 知識獲取
在處理非結構化資料方面,常見的非結構化資料主要是文字類的文章,因此需要通過自然語言技術識別文章中的實體。常見的實體識別方法有兩種,分別是:
- 使用者本身有一個知識庫則可以使用實體連結到使用者的知識庫上;
- 當用戶沒有知識庫則需要命名實體識別技術識別文章中的實體。
當用戶獲得實體後,則需要關注實體間的關係,即實體關係識別。其中有些實體關係識別的方法會利用到句法結構來幫助確定兩個實體的關係,因此有些演算法中會利用依存分析或者語義解析。如果使用者不僅僅想獲取實體間的關係,還想獲取一個事件的詳細內容,那麼則需要確定事件的觸發詞並獲取事件相應描述的句子,同時識別事件描述句子中實體對應事件的角色。
在處理半結構化資料方面,主要的工作是通過包裝器學習半結構化資料的抽取規則。由於半結構化資料具有大量的重複性的結構,因此對資料進行少量的標註,可以讓機器學出一定的規則進而在整個站點下使用規則對同類型或者符合某種關係的資料進行抽取。最後當用戶的資料儲存在生產系統的資料庫中時,需要通過 ETL 工具對使用者生產系統下的資料進行重新組織、清洗、檢測最後得到符合使用者使用目的資料。
3.2 知識融合
當知識從各個資料來源下獲取時需要提供統一的術語將各個資料來源獲取的知識融合成一個龐大的知識庫。
提供統一術語的結構或者資料被稱為本體,本體不僅提供了統一的術語字典,還構建了各個術語間的關係以及限制。本體可以讓使用者非常方便和靈活的根據自己的業務建立或者修改資料模型。
通過資料對映技術建立本體中術語和不同資料來源抽取知識中詞彙的對映關係,進而將不同資料來源的資料融合在一起。同時不同源的實體可能會指向現實世界的同一個客體,這時需要使用實體匹配將不同資料來源相同客體的資料進行融合。不同本體間也會存在某些術語描述同一類資料,那麼對這些本體間則需要本體融合技術把不同的本體融合。最後融合而成的知識庫需要一個儲存、管理的解決方案。
知識儲存和管理的解決方案會根據使用者查詢場景的不同採用不同的儲存架構如 NoSQL 或者關係資料庫。同時大規模的知識庫也符合大資料的特徵,因此需要傳統的大資料平臺如 Spark 或者 Hadoop 提供高效能運算能力,支援快速運算。
3.3 知識計算及應用
知識計算主要是根據圖譜提供的資訊得到更多隱含的知識,如通過本體或者規則推理技術可以獲取資料中存在的隱含知識;而連結預測則可預測實體間隱含的關係;同時使用社會計算的不同演算法在知識網路上計算獲取知識圖譜上存在的社群,提供知識間關聯的路徑;通過不一致檢測技術發現數據中的噪聲和缺陷。
通過知識計算知識圖譜可以產生大量的智慧應用如可以提供精確的使用者畫像為精準營銷系統提供潛在的客戶;提供領域知識給專家系統提供決策資料,給律師、醫生、公司 CEO 等提供輔助決策的意見;提供更智慧的檢索方式,使使用者可以通過自然語言進行搜尋;當然知識圖譜也是問答必不可少的重要組建。
4. 知識圖譜的在行業中的典型應用
目前,隨著人工智慧的不斷髮展,知識圖譜已經在搜尋引擎、聊天機器人、問答系統、臨床決策支援等方面有了一些應用。
同時為了應對大資料應用的不同挑戰,藉助知識圖譜,實現不同的業務需求。
4.1 金融領域
- 反欺詐
通過融合來自不同資料來源的資訊構成知識圖譜,同時引入領域專家建立業務專家規則。我們通過資料不一致性檢測,利用繪製出的知識圖譜可以識別潛在的欺詐風險。比如借款人 UserC 和借款人 UserA 填寫資訊為同事,但是兩個人填寫的公司名卻不一樣, 以及同一個電話號碼屬於兩個借款人,這些不一致性很可能有欺詐行為 。
- 智慧投顧
通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文字資料中批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等資訊,構建出公司的知識圖譜。在某個巨集觀經濟事件或者企業相關事件發生的時候,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策,比如在美國限制向中興通訊出口的訊息釋出之後,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關係圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控制。
4.2 商業搜尋引擎的應用:如百度、搜狗等,國外谷歌
- 查詢理解
搜尋引擎藉助知識圖譜來識別查詢中涉及到的實體(概念)及其屬性等,並根據實體的重要性展現相應的知識卡片。搜尋引擎並非展現實體的全部屬性,而是根據當前輸入的查詢自動選擇最相關的屬性及屬性值來顯示。此外,搜尋引擎僅當知識卡片所涉及的知識的正確性很高(通常超過 95%,甚至達到 99%)時,才會展現。當要展現的實體被選中之後,利用相關實體挖掘來推薦其他使用者可能感興趣的實體供進一步瀏覽。
4.3 問答系統的應用:蘋果的 Siri
自動問答目前也是一個非常熱門的方向,這可能是面向應用最直接的方式,目前不管是學術界還是工業界都在做相關的研究,這裡有兩個例子,左邊是百度的度祕,右邊是蘋果的 Siri,可以看到自然語言問答的結果。
4.4 社交網路運用:FB
社交網站 Facebook 於 2013 年推出了 GraphSearch 產品,其核心技術就是通過知識圖譜將人、地點、事情等聯絡在一起,並以直觀的方式支援精確的自然語言查詢,例如輸入查詢式:“我朋友喜歡的餐廳”“住在紐約並且喜歡籃球和中國電影的朋友”等,知識圖譜會幫助使用者在龐大的社交網路中找到與自己最具相關性的人、照片、地點和興趣等。Graph Search 提供的上述服務貼近個人的生活,滿足了使用者發現知識以及尋找最具相關性的人的需求。
其中主要功能就是興趣推薦和使用者聚類。
4.5 電商平臺運用:淘寶
電商網站的主要目的之一就是通過對商品的文字描述、圖片展示、相關資訊羅列等視覺化的知識展現,為消費者提供最滿意的購物服務與體驗。通過知識圖譜,可以提升電商平臺的技術性、易用性、互動性等影響使用者體驗的因素。
阿里巴巴是應用知識圖譜的代表電商網站之一,它旗下的一淘網不僅包含了淘寶數億的商品,更建立了商品間關聯的資訊以及從網際網路抽取的相關資訊,通過整合所有資訊,形成了阿里巴巴知識庫和產品庫,構建了它自身的知識圖譜。當用戶輸入關鍵詞檢視商品時,知識圖譜會為使用者提供此次購物方面最相關的資訊,包括整合後分類羅列的商品結果、使用建議、搭配等。
4.6 其他領域
如教育科研,醫療,生物醫療以及需要進行大資料分析的一些行業。這些行業對整合性和關聯性的資源需求迫切,知識圖譜可以為其提供更加精確規範的行業資料以及豐富的表達,幫助使用者更加便捷地獲取行業知識。
5. 知識圖譜的總結與展望
知識圖譜是知識工程的一個分支,以知識工程中語義網路作為理論基礎,並且結合了機器學習,自然語言處理和知識表示和推理的最新成果,在大資料的推動下受到了業界和學術界的廣泛關注。
知識圖譜對於解決大資料中文字分析和影象理解問題發揮重要作用。
當前知識圖譜發展還處於初級階段,面臨眾多挑戰和難題,如:知識庫的自動擴充套件、異構知識處理、推理規則學習、跨語言檢索等。
知識圖譜的構建是多學科的結合,需要知識庫、自然語言理解,機器學習和資料探勘等多方面知識的融合。有很多開放性問題需要學術界和業界一起解決。
第一次寫 Chat,不足之處請多包涵。歡迎各位多提寶貴意見!
一場場看太麻煩?訂閱GitChat體驗卡,暢享300場chat文章!更有CSDN下載、CSDN學院等超划算會員權益!點選檢視