1. 程式人生 > >明略數據吳明輝探案記,破解行業AI落地迷局

明略數據吳明輝探案記,破解行業AI落地迷局

大數據 雲計算 人工智能

技術分享圖片

如果你看過《唐人街探案記》,你絕對不會想到,在現實生活中,一個人工智能與大數據的從業人員,也會親自參與現實版的“唐人街探案”,只為了破解人工智能在行業中落地的迷局:訓練行業人工智能算法模型,其輸入數據需要事先經過行業知識進行分類和標註,才能成為合格的輸入數據並用於人工智能算法訓練,而在大量行業中其實是沒有符合這樣規格和標準的數據。

在行業中落地人工智能,第一步就是要先提煉行業知識,再用行業知識自動化地對行業數據進分類、打標簽,才能真正訓練出可以適用於行業的人工智能算法模型。在大多數的行業中,行業知識主要存在於從業人員的頭腦裏,因此這提煉行業知識的一步,必須是繁瑣的人工方式。行業人工智能與大數據創業公司明略數據的創始人吳明輝就這樣親身參與過一宗現實世界裏的破案,只是為了能在公安行業落地人工智能。

“我跟我的團隊,受邀到內蒙古,嘗試用人工智能算法破一起案件。我們的人工智能算法工程師與對方警員一起頭腦風暴,把警員頭腦中的行業知識轉換為電腦可識別的數字信息,再用於已有案件數據的分類與標註。然而,這個過程中還是有很多挑戰,比如有的攝像頭沒電了、導致缺乏關鍵性的數據,或是案犯的反偵察能力很強、導致數據失效。最後是利用人工智能算法通過跨省串並案自動識別出了另一起相似案件,通過進一步研判確實發現兩起案件為同一案犯,綜合兩起案件的情報形成更完整的線索鏈,最終成功抓捕案犯。”吳明輝這位北大計算機碩士就此過了一把破案癮。

2017年8月,吳明輝創立的北京明略軟件系統有限公司(簡稱明略數據)完成了10億人民幣C輪融資,本輪投資方為華興新經濟基金、騰訊產業共贏基金。成立於2014年的明略數據,於2015年7月完成矽谷天堂投資的A輪近1億元人民幣融資;2016年8月獲得了由紅杉資本中國基金領投,分享投資、任子行以及A輪投資人矽谷天堂跟投的總計2億人民幣B輪融資。2018年4月18日2018大數據產業峰會期間,吳明輝與筆者暢談了在行業中落地人工智能的“探案記”。

智能的前面是“人工”

2016年,AlphaGo激發了全球的人智能熱潮;2017年至今,阿裏雲、華為、微軟等國內外科技公司,陸續提出了行業AI或產業AI,即在行業或產業中落地AI,AI才能真正創造商業價值。2018年政府工作報告除了第五次提及“大數據”外,今年更強調“運用新技術、新業態、新模式,大力改造提升傳統產業”。

人工智能看起來很美好,與行業應用場景結合起來,前景看起來也很不錯,被喻為新舊經濟動能轉換的引擎。然而,現實的情況是,“智能”的前面是“人工”;想要在行業中應用人工智能,補課就避免不了。這就是吳明輝在2018年初所提出的人工智能行業落地三步走,或企業數字化轉型三步驟:第一步是數據在線化、第二步是數據分析與挖掘、第三步才是人工智能。其中的第一步“數據在線化”就是需要人工補課的過程。

如前所述,人工智能算法需要符合一定規格的輸入數據,才能玩轉。簡單理解,就是需要帶有標簽的數據,例如人工方式給一張圖片打標簽為“花”,那麽人工智能算法在學習了數千張甚至上萬張被標註為“花”的各種姿態的花卉圖片後,就能用於識別一張新的圖片是否為花卉圖片或者非花卉圖片。這個打標註的過程,一是需要規範化、標準化和可機讀的行業知識,二是需要用人工方式給行業數據進行分類和打標簽,這個“數據在線化”的過程是一個必不可少、沒有捷徑可走的過程。

明略數據也在所選擇的公安、金融和工業與物聯網三個行業中,經歷了這樣痛苦的過程。“人工智能想要切入行業,就要提取行業知識,這只有兩種途徑:要麽讓行業專家學習人工智能知識後再把行業數據轉換為人工智能算法能理解的可機讀數據格式,或是讓人工智能專家去學習行業知識後再做同樣的轉換。兩者相比,後者相對容易些。”吳明輝介紹說,明略數據就是這樣“啃”下了人工智能的行業落地“硬骨頭”。

以公安行業為例。2017年,明略數據選擇了30多個有代表性城市中的不同警種,派了自己的人工智能工程師團隊進駐這30多個城市的警力團隊,用人工方式吸取了基本上所有警種的數據知識。“每個團隊6-10人,至少進駐一個城市達半年的時間,對方也給予一定人力資源配合,雙方團隊通過不斷的頭腦風暴,按人工智能算法的需要,用人工方式學習了所有警種的數據知識。”吳明輝回憶這段過程,“不同城市的不同警種都由不同的技術供應商建設了IT系統,數據不統一、不標準化、數據混亂的情況非常普遍。我們花了很大代價去做數據的理解、清洗、融合,為後面的人工智能算法鋪路。”

“數據在線化”無疑是極為艱苦的過程,然而這個階段一旦完成,後面就能發揮人工智能的巨大威力。以明略禁毒大數據平臺為例,傳統上公安基於關系數據庫的技術思維,圍繞“人、地、事、物、組織”等要素建立數據關聯庫、要素庫、專題庫,只能提供信息查詢、檢索方面的實戰支撐;明略平臺則依據人工智能算法對數據進行了重新標註和知識重構,建立了基於人工智能的數據研判體系,特別是以社交通聯軌跡為切入點,結合特征識別和機器學習等手段,建立涉毒違法犯罪人員及團夥的識別、挖掘和預測模型。2017年9月,東部沿海某市公安局利用明略禁毒大數據分析平臺挖掘出了一個高危涉毒嫌疑人,進而拓展出該嫌疑人關聯關系網絡圖,成功挖掘出一個分布在多省的制販毒網絡團夥。這個案例也入選了中國信息通信研究院於2018年4月推出的《知識圖譜白皮書(1.0)》。

“明略數據是助力企業數字化轉型的啟動器,人工智能落地各行業需要三步走,最核心的就是數據在線。我們需要把行業知識真正梳理清楚,明略與行業的頂級專家思考行業的本質知識體系是什麽,如何把數據真正地標註在行業知識體系中。只有這個工作做好,我們的人工智能才能真正地落地到各行業。”吳明輝反復強調。

小公司撬動行業大數據

“大數據已經不能稱為一個產業了。”在談到對如今大數據發展的觀點時,吳明輝認為大數據已經成為社會公共基礎設施,應該由BAT、華為等大公司主導建設,而創業公司的機會則在於行業應用,例如用人工智能挖掘行業大數據。

然而,技術主導型的創業公司想要在行業中找到有效的大數據與人工智能落地的商業模式,談何容易。IBM於近期發布了一份全球高管調查報告,該報告以“傳統企業的逆襲”為主題,核心觀點是由於傳統行業裏的大企業擁有社會上80%的行業數據,但這些數據難以被互聯網公司搜索和利用到,因此這80%的行業數據就是傳統企業應對跨界競爭的互聯網公司的“本錢”,也是互聯網公司試圖進入行業領域的門檻。

然而,傳統企業手裏所掌握的80%的行業數據,對互聯網公司來說是門檻,對創業公司來說也是門檻。明略數據能夠獲得騰訊領投的C輪10億人民幣投資,其根本在於“明略致力於解決AI落地體驗問題,為客戶帶來實際價值。在過去的四年中,明略已經在安防、金融和工業與物聯網三個行業積累了相當多案例,現在已經進入快速發展階段”,騰訊投資董事總經理姚磊文表示。

明略數據之所以能積累相當多的行業案例,與省、市級公安局、交通銀行、×××、光大銀行、中國中車、上海地鐵等行業標桿客戶展開多方合作,這除了公司現有的430多位員工、75%左右為技術精英、核心團隊來自清華和北大等名校、在國際學術會議上發表多篇論文等外,更重要的在於明略數據一直在踏實地找到可以撬動行業大數據的方法和路徑:駐場科學家、當地人才組成的項目交付團隊、區域運營中心、靈活團隊激勵方式等等。

獲得C輪融資之後的明略數據,加強了在推動大數據和人工智能落地方面的投資。2018年2月,前中國長城計算機深圳股份有限公司電腦事業部總經理、航天信息股份有限公司集團銷售總監兼市場營銷部部長、航天信息系統工程有限公司總經理、 千方科技股份有限公司副總裁鄭農先生,×××明略數據擔任總裁;前Monster WW & 中華英才網人力資源副總裁、AMD、Nokia人力資源總監韓建紅女士,則同時×××明略數據並擔任人力資源副總裁。其中,鄭農先生長期服務於公安、交通、稅務等領域客戶,對戰略、銷售、行業產品等業務內容都有豐富的經驗,對政府需求也有深刻的理解。

除了加大人才投資外,吳明輝還準備用C輪融資加大獲得客戶資源的力度和強化客戶忠誠度,為此“我們將積極的深化和各個區域做的好的IT公司合作”。實際上在各地都有屬於當地的IT公司,包括當地的系統集成商、軟件開發商、解決方案商等,這些當地的IT公司有著豐富的本地客戶資源以及客戶忠誠度。以前,明略數據與這些當地的IT公司主要以合作夥伴的形式合作,未來也會考慮以投資的方式進一步強化和最終客戶的連接。

參與編寫中國信息通信研究院的《知識圖譜白皮書(1.0)》(2018年4月)是明略數據在推進知識圖譜的普及以及提升行業對於“數據在線化”認知的努力。簡單理解,知識圖譜就是建立數據與數據之間的多邊關系,進而形成知識。過去,知識圖譜的形成是靠科學家以人工方式總結自然物理等規律,再把形成好的知識結構應用到不同的數據上進行關聯。現在,隨著大數據的發展,人類發現知識規律的方式已經轉變為通過大數據分析、挖掘和關聯的自動化和智能化方式來形成知識。可以認為研究知識圖譜算法的知識工程是人工智能的一個分支學科,可用於深度學習算法的數據預處理和準備。

2018年3月,IDC中國發布了《中國知識圖譜應用市場,2018》創新者研究報告,評選出了中國知識圖譜市場上5家創新型公司,明略數據就名列其中。根據IDC:從2010年至今,知識圖譜相關市場出現了近50家公司,上線近百個產品;既有大型互聯網公司如百度、騰訊、阿裏、搜狗,又有傳統解決方案商如東軟、北大醫信、鼎富科技、中興等,還有專註在不同行業的創新型公司。

明略數據之所以能夠入選IDC中國知識圖譜創新型公司行列,這與明略數據去年8月推出的產品化平臺相關。2017年8月,明略數據發布了行業人工智能大腦——明智系統,通過面向AI的大數據治理產品CONA把海量多源異構數據治理成行業知識,再基於知識圖譜數據庫蜂巢(NEST)完成行業知識圖譜存儲,隨後通過行業大腦SCOPA的機器學習、符號推理等技術實現秒級運算和在線分析挖掘。在這個技術平臺的基礎上,逐步構建公安大腦、金融風控大腦、工業安全大腦等,最後通過企業級人機交互機器人小明(LiteMind)完成用戶與平臺的交互。

正是選擇了開發一個技術平臺的方式,把各種人工的知識、經驗與積累都固化到可自動化運行的平臺上,才讓明略數據有可能逐漸擺脫人工輸出和治理數據的艱苦環節,逐步走上自動化方式完成的數據收集、整理、治理、融合等人工智能啟動工作。也正是基於這樣一個技術平臺,在提供服務的近百位客戶中,明略數據為公安行業實現5-20%的破案率提升、幫助金融行業風險監測效率提升3000倍、為工業提供準確率大於98%的故障診斷系統。

吳明輝透露,2017年明略數據實現了1億規模的營收。雖然還沒有實現盈利,但堅定的把收入和融資都將用於投資行業AI的研發,吳明輝認為這樣做很值得。“希望有一天,我的墓誌銘上能這樣寫:明略所留下的技術平臺,能夠為幾個行業創造真正的價值,真正開啟了行業經濟的智能時代。”這就是吳明輝的技術平臺夢想,他說:“真正成功的企業是有耐心的”。(文/寧川)

明略數據吳明輝探案記,破解行業AI落地迷局