打通感知與認知,明略數據還要做大數據知識工程
(上圖為明略數據創始人吳明輝)
作為國內行業知識圖譜領域的創新公司,明略數據在2018年4月進入了IDC的《中國知識圖譜市場,2018》創新者研究報告,成為IDC評選出的5家中國知識圖譜技術應用市場創新者。2017年8月,明略數據經過3年實踐沈澱以及8年大數據技術積累,首次發布了基於知識圖譜的行業人工智能大腦—明智系統1.0。
2018年9月7日,明略數據舉辦了2018年度產品發布會,即“行業AI大腦明智系統2.0”,這是對1.0版本的產品技術體系全面升級。明智系統2.0在數據處理階段引入語音識別和機器視覺來豐富感知類數據,將所有數據匯聚到“AI驅動的數據治理”平臺並可通過全網絡即時匯聚感知平臺“明察”查詢,然後再存儲到混合型知識存儲數據庫NEST,通過知識圖譜分析平臺SCOPA完成向行業大腦的認知智能輸出,打通感知型人工智能到認知型人工智能。
除了持續推動產品創新外,明略數據還在不斷引入頂尖人才。2018年5月,IEEE Fellow、國家“千人計劃”特聘專家吳信東教授×××明略數據,出任公司首席科學家和副總裁,2018年7月明略科學院成立。吳信東所領導的“大數據知識工程”科研也將在明略數據的投資下進一步發展,落實科技部2016年重點專項“大數據知識工程基礎理論及其應用研究”的成果,這就是極具前瞻性、處於起步階段的“明略大智慧系統”。
完整的人工智能系統
“明智系統2.0的形象,就像大腦的形狀。左邊是深度學習,右邊就是知識圖譜,這兩邊連接到一起,即把感知和認知聯結起來,這就是我們新一代完整的人工智能系統。”明略數據創始人吳明輝在“行業AI大腦明智系統2.0”發布會上表示。
今天,各行各業都在倡導使用人工智能,但是為什麽人工智能技術在很多行業中,還沒有得到很好的發展?吳明輝認為,其中的原因很簡單,就是因為很多人工智能專業技術公司都只聚焦某一個或某幾個人工智能技術上,而沒有真正的把完整的人工智能系統組建起來,通過完整的人工智能能力為行業提供整合服務。
明智系統2.0其實就是人工智能技術的整合服務,通過優選行業中業已成熟的感知技術、認知技術以及其它所有組件,鏈接到一起後的成果。本次為了增強感知數據,明略數據推出了語音識別數據處理模塊,專門用於感知音頻數據;與合作夥伴“千視通”合作的機器視覺數據處理模塊,專門用於感知視頻數據。而“AI驅動的數據治理”平臺則包括之前的CONA結構化數據通用治理模塊以及本次新增加的Raptor非結構化文本治理模塊,再加上新推出的HARTS多元數據深度挖掘計算模塊。
感知計算本質上是為認知計算提供數據基礎。“AI驅動的數據治理”平臺,完成了各類結構化數據、非結構化數據、圖像、文本等多維數據的處理過程,處理的結果就是“符號”。本次2018明略數據的年度產品發布會主題為“符號的力量”,即強調“符號”是連接感知計算與認知計算的紐帶。“符號”源自人工智能三大流派中經典的“符號主義”流派,其核心是用基於數理邏輯的數理符號來表達和模擬人類的智能。
簡單的理解,就是當用戶問詢“明察”系統時,例如“他是誰”,那麽“AI驅動的數據治理”系統就可以把“他是誰”這個問題“翻譯”成跟身份特征相關的ID,這些ID包括手機號、×××號、護照號等,這些信息已經在後臺通過符號化處理形成了數據結構,通過索引就能馬上搜索出結果,這就是CONA和Raptor的功能;更進一步,還可以在搜索出的結果之間建立關聯關系,這就是HARTS的功能。
那麽,明智系統2.0“左腦”的感知部分整體輸出的結果就是符號化的知識和情報;知識和情報輸送到明智系統2.0“右腦”後,經過蜂巢NEST混合型知識存儲數據庫中已經存儲的公安大腦、金融大腦、工業安全大腦和數字城市大腦等行業知識圖譜的處理,再結合SCOPA知識圖譜分析平臺,形成綜合情報研判結果,最終輸出“認知”,即可用於行動的洞察。
吳明輝介紹說,明智系統2.0已經在有些客戶處得到了應用,例如明略數據與某公安省廳合作,把感知系統和認知系統打通,解決全數據類型的情報研判工作。“真的就像福爾摩斯一樣,可以用非常簡單的線索把全部信息關聯出來。”
挑戰大數據知識工程
(上圖為明略數據首席科學家吳信東教授)
明智系統2.0其實是明略數據公司中長期戰略的開始,未來明略數據想要真正做到的就是大數據知識工程的落地。
什麽是大數據知識工程?這是從大數據到大知識再到工程化輸出可行動的洞察的過程和結果。2016年,科技部啟動了雲計算與大數據重點專項工程,其中“大數據知識工程基礎理論及其應用研究”專項項目的研究內容包括:針對大數據異構、自治、復雜、演化的網絡環境,研究多源、動態、異質碎片化知識/知識簇的表示模型與在線挖掘方法,揭示碎片化知識的時空特性和演化機理;研究碎片化知識間語義關聯與湧現特性,探尋其動態挖掘與拓撲融合機理;設計多粒度情景感知與知識尋徑模型,研究交互式個性化服務的知識適配機理。
吳信東就是大數據知識工程領域的世界級專家。2016年,吳信東牽頭,聯合國內15家單位承接了科技部“大數據知識工程基礎理論及其應用研究”專項。吳信東是該項目的首席科學家,15家單位包括合肥工業大學、中科院與系統科學研究院,西安交通大學、中國科技大學、華東師範大學,還有百度和杭州的丁香園等。
大數據知識工程(BigKE: Knowledge Engineering with Big Data)實際上是從國內興起、引領大數據分析走向大知識研究和應用的一個國際前沿研究方向。2014年1月,吳信東教授等提出了大數據在異構、自治、復雜、演化環境下的HACE定理,大數據知識工程主要指針對用戶產生的海量、低質量、無序的碎片化知識的新型知識服務系統,該系統具有知識庫的自完備和增殖能力,解決問題方法是根據與用戶的交互進行自學習。
簡單的理解,大數據知識工程就是如何把海量的由用戶自己產生的碎片化數據,基於時間和空間的屬性,形成碎片化知識,再把碎片化知識連接起來用於整體系統的輔助決策,這就是“大智慧”。 大數據知識工程主要解決了傳統知識工程中的“知識獲取”和“知識再工程”兩個瓶頸問題,因為傳統知識工程是由專家產生知識,因此知識再工程也比較困難。
此外,在邊緣計算興起的前提下,很多物聯網傳感器和移動設備產生的碎片化大數據,其價值都是轉瞬即逝,必須要馬上轉化為可行動的洞察。而可行動的洞察也不再是輔助單點、單線、單人或單機的決策,而是要實時把碎片化的可行動洞察全部都綜合起來,用於輔助整體的決策。
吳信東以一個餐廳系統為例。在一個餐廳的完整環境中,涉及餐廳的設備、廚師、廚房、服務員、顧客等多個人與物實體。作為整個餐廳的智能決策系統,首先要通過視頻、圖像、音頻等方式感知到整個餐廳的動態運營情況,假設有十位顧客排隊等待就餐,而有十位服務員輪流照看餐桌的情況,後臺有十位廚師不停的接單做菜,那麽餐廳智能決策系統就要綜合餐桌的翻臺情況、排隊顧客的情緒、廚房的生產能力、服務員的繁忙程度等情報,迅速為各種人員提供可行動的建議。比如通知前臺盡快給排隊顧客送上小食以免顧客因不耐煩而離開,同時通知服務員盡快給某桌要離開的顧客送上優惠券並通知前臺,還要同時告訴後廚加速做菜因為門口聚集了更多的顧客等等。在這個過程中,會使用到餐飲行業知識、企業商業管理知識、門店運營知識、服務員個人智慧等多個知識系統和知識圖譜的融合與聯動。
這樣一個針對餐廳環境的智能決策系統,可以提煉出動態的知識,例如根據服務員數量、排隊顧客數量、正在進程中的餐桌情況評估等綜合計算出當前的翻臺時間應該為30秒-40秒鐘,一旦服務員的行動時間多於這個計算值,就說明餐廳的實時運營情況出現了問題,而智能決策系統也可以實時提供建議,對哪幾個環節進行什麽樣的量化的修正,以把30秒縮短到15秒甚至更少的時間。
吳信東表示,這樣可以在具體場景中落地的大數據知識工程系統,還處於早期的起步階段。也正是因為同樣的理念和夢想,讓吳信東與明略數據走到了一起,也吸引了來自×××、×××、澳大利亞科學院等機構的十余名Fellows加入明略科學院成為首批院士,還有30余位來自清華、北大等國內外著名學校的博士碩士加入成為明略科學院骨幹。
隨著明智系統2.0的推出,以明略數據為代表的創業公司正在把大數據、人工智能、知識圖譜等技術與行業應用更加深入的結體起來。而引入吳信東和大數據知識工程,說明具有實力的中國人工智能創業公司正在投資國際前沿科研方向,為中國的人工智能彎道超車,邁出紮實的一步。(文/寧川)
打通感知與認知,明略數據還要做大數據知識工程