1. 程式人生 > >圖資料庫---許昱博士

圖資料庫---許昱博士

https://www.doit.com.cn/p/318069.html

 

若說2018年9月在杭州召開的雲棲大會期間,活躍著多少匹“黑馬”,連同參展的、演講的、參觀的……各色人等一時很難統計出來,但是,不起眼的TigerGraph,一定會是其中最有亮點、最有故事的黑馬之一。

這家成立2012年,在大資料圖分析領域默默耕耘了6年的公司,一直低調從事市場調研和產品研發迭代。

直到2017年11月8日,TigerGraph的下一代圖資料庫在美國正式釋出,在市場上引起了軒然大波後才為眾人所知。這家總部位於矽谷的公司憑藉成熟的技術,贏得了啟明創投、百度、螞蟻金融、華創資本、AME雲創投、莫拉多風險投資公司、佐德•納齊姆、丹華資本和DCVC風投基金公司3100萬美元A輪資金投資。

從大資料中掘金

有統計報告顯示,1分鐘之內,美國數億封郵件被髮送,谷歌平臺上發起400萬次搜尋,Facebook上有246萬條資訊被分享……在中國,類似的資料量更大。例如,在中國約有7000多萬家註冊企業,由於資料量比較大,要想理清這些公司之間的關係,如企業的持股人、投資關係、訴訟關係至辦公地址等類似的關係,是一件很困難的事情;通過檢索可以查出一度內有關係的人,也就是控股人控股關係,再深入到兩層、三層的關係就不太現實了。

萬物互聯的時代,社交網路實時線上,物聯網7*24小時執行,每天大量的資料還在持續不斷的生成。在這樣的情況下,該如何挖掘資料的價值,資料關聯背後隱藏著什麼關係?

TigerGraph創始人兼CEO許昱博士

TigerGraph公司的創始人許昱博士從事資料庫和並行系統研發已經二十年,創辦TigerGraph之前在Teradata負責大資料面向業界和未來五年的方向研究,領導Teradata和Big Data、Hadoop系統的整合,並且與一些大企業合作解決報表的查詢與合併技術。稍早在Twitter工作,作為一個社交網路,圖的分析對於Twitter意義重大,Twitter自行開發了一套單機版的純記憶體的系統。再早則是在加州大學聖地亞哥分校、在中科院計算所從事資料庫方面的研發工作。

可以說,許昱博士是個“不折不扣”的資料庫專家,在他的周圍聚集的也是來自矽谷等地高科技公司的資料庫專家。

為什麼會從事圖資料庫研究?

發掘大資料關聯和關聯後面隱藏的商業價值,是一個技術難題,但是它的解決無疑具有極大的商業價值。如何解決?

始於Hadoop技術的大資料時代迄今已經過去了十年,一些簡單的技術問題如儲存、離線處理等問題都得到了解決。十五年前,業界也開始了一些圖資料庫的嘗試。許昱博士指出,圖是以數學上點和邊的關係把所有的資料自然存在一起,成為自然的儲存資料關聯模型。TigerGraph之所以採用知識圖譜(尤拉圖),是因為圖是解決大資料互聯最好的方法。

從計算角度,尤拉圖更合適大資料的機器學習、人工智慧。但由於每前進一步,接觸資料量指數性增長,又能帶來更多關聯資訊,所以計算能力至關重要,而技術上的限制,比如缺乏大資料、並行技術、多核計算機等的能力,所以在TigerGraph之前一些圖計算的工具計算能力很差。

雖然尤拉圖理論已經問世有兩百多年,也是最合適的儲存和計算互聯資料的模型,但現在仍然沒有企業中得到最廣泛的使用。一方面,圖資料庫是較為高階的研究方向,從高深的理論到真正商業化,大規模應用還是很有難度分不開;另一方面,關係資料庫一直以來都是最大的市場,這也是制約圖資料庫發展的另外一個原因。同樣的道理,雖然關係型資料庫時下正大行其道,但在剛開始的前十年,甲骨文的產品和市場都是經過了漫長的迭代。

許昱博士總結了圖資料庫和傳統關係型資料庫的三大區別。

一是儲存模型不一樣,關係型資料庫數學模型是表格,一個最簡單例子,一個人有一個身份證號、一個住址表、一個工資表、一個上學記錄表等存在幾個不同的表裡,但是物理上、邏輯上都分開了,想知道這個人住在哪個地方,讀過哪所學校,要把表合起來,根據值一個個去拼才能找出來。而圖裡,身份證號碼是唯一節點,學校也是唯一節點,馬上與全校學生聯絡起來了。另外,圖資料庫的壓縮率是關係型資料庫的2倍至10倍,雖然儲存的變化不算太重要,但是計算、記憶體和對快取的利用度就不一樣,儲存模型不一樣。

關係型資料庫是人為打亂成很多表,然後通過計算“拼湊”起來才能建立起關係來。它雖然叫關係型資料庫,但這個名字並不恰當,圖資料庫才是真正針對關係的一個數據庫。

第二,計算模型不一樣。在關係型資料庫的計算模型本質上是“野蠻”的掃描,如兩個表之間值的比較,是否同一個人、同一個產品、同一個城市,城市有多少人口以及公司在哪個城市註冊等。這種方式效能很差,因為要過濾很多無關的資料。圖就不一樣了,從一個人出發,幾步關聯,就能準確定位。

第三,查詢方式的不同。關係型資料庫的SQL語言比較簡單,不支援複雜關係的發掘和預測。TigerGraph採取類似於SQL但功能更強的GSQL語言,允許動態生成各種複雜的資料結構來儲存動態生成的證據,支援使用者的推薦和打分,這在人工智慧、機器學習的時代更有價值。

其實,這些不同點恰恰也是TigerGraph新產品釋出之前“沉寂”了五年多時間不為人知的原因,因為他們完全潛心在關係型資料庫領域外“另闢蹊徑”。

TigerGraph的優勢:“原生”與“並行”

近六年潛心研發與精心打磨的TigerGraph有哪些優勢?

TigerGraph的技術突破代表著圖資料庫演進的下一個里程碑——一個完整的、分散式的並行圖計算平臺,能夠支援網路規模資料的實時分析。TigerGraph通用版本是服務於企業級應用、世界上第一個也是唯一的企業級原生並行圖資料庫以及圖資料庫雲服務,一同釋出的還有GraphStudio——TigerGraph的視覺化軟體開發工具包。

TigerGraph是基於原生並行圖(NPG)技術的全球首個實時圖分析平臺,通過為具有複雜和海量資料的企業提供實時深度連結分析支援,TigerGraph實現了圖平臺的真正承諾和好處。

TigerGraph用C++從頭到尾做了一套基於對圖的儲存引擎,並開發了一個大規模並行的圖計算引擎,而且對圖進行了大量介面視覺化工作,包括視覺化的開發環境與探索、挖掘環境,成為業界唯一原生並行圖資料庫平臺,其核心之處就是“原生”和“並行”。

原生,是基於圖的理論、基於圖的儲存、基於圖的計算,從底層開始開發的一套系統,這是一條效能非常高,但開發週期比較長的一條路徑。不像用關係資料庫做儲存或者用文件資料庫做儲存,在上面做一個圖的API,馬上就有圖資料庫了。

並行,就是多臺機器並行處理,時下資料量這麼大,一臺伺服器再強大也不能解決使用者一些計算問題。

TigerGraph三大技術優勢

圖資料庫從最近十年的表現來看已經成為關注度最高,也是發展趨勢最明顯的資料庫型別。那從市場上產品的比較看,TigerGraph有哪些技術優勢呢?

一是實時計算。查詢涉及到幾千萬到上億個節點和邊關聯(點是實體,邊是關係),眨眼間就把複雜的關聯結果推送出來,不論是做欺詐、分析、推薦還是實時的網路計算,都可在1秒鐘以內實現,比傳統⽅法快多個數量級。

二是超大規模,每臺機器每⼩時可載入50到150GB資料,不再需要批量載入,在只有20臺商用計算機的叢集上,能夠將20億以上的每日事件實時流式傳輸到具有超過1000億個頂點和超過6000億個邊的大資料圖譜。已成功在世界上最大的電子支付公司生產線上執行兩年多,支援資料庫的增刪改查,成為可以上線執行的資料庫。

三是深度關聯。公司現在有高階易用的開發語言;客戶完全不需要公司支援,藉助TigerGraph網站上的技術文件,下載軟體自己去寫GSQL,做圖模型、資料錄入和二次開發;從資料深度發掘看,可以每秒每機遍歷數億個頂點/邊,步數可達三步或更多。

五年來,TigerGraph在研發中其實踩過很多“坑”,實現了非常革命性的突破。許昱博士認為,公司做得最好的是兩點:一是基於分散式儲存系統,選擇了最優化的體系結構,解決了資料一致性的問題;二是選型用C++做底層控制一切的記憶體。儘管Java有很多優點,但是當時TigerGraph做出了這個艱難的決定。

這些技術上的突破對於在最⼤的資料上進⾏實時分析至關重。

這些資料應用包括世界上最大的電子商務提供商的欺詐預防、世界上最大的移動電子商務公司的實時推薦,和管理世界上最大的電力公司的能源傳輸網。

TigerGraph今年6月份在美國發布了兩個版本:一是終身免費的開發者版本(單機版),沒有資料限制、沒有時間限制;二是企業版本,是多機版,但有時間限制,比如幾個月。

廣泛的行業應用

TigerGraph是業界唯一的原生、並行圖計算的大平臺,特別適⽤於⼤圖——深度連結分析的最佳模型,這是因為它能夠探索、發現和預測關係。

在反欺詐和反洗錢方面,企業可以藉助TigerGraph系統在企業資料全景圖上快速部署複雜有效的反欺詐和反洗錢業務,利⽤實時資料和實時深度連結分析應對⾦融犯罪。

原本許昱博士認為TigerGraph是反洗錢最天然、最好的應用,但去年11月份在美國發布以後的應用結果令人驚訝——雖然紐約有不少銀行應用於客戶的360度畫像、風控、合規等領域,但西雅圖到南加州,到佛羅里達,到美國的明尼蘇達不同的城市各行各業的客戶蜂擁而來——健康保險公司利用知識圖譜反欺詐、電信公司為流失使用者畫像、昂貴新葯上市後製藥公司通過查悉醫生的影響力進行精準推送……

此外,採用TigerGraph,可通過了解企業控制人的關係、企業之間的擔保關聯,銀行可最大限度地降低風險。例如,某些企業可能破產了,為其提供擔保的企業就可能陷入糾紛中。

專注為客戶創造價值,而非取代

圖資料庫最重要的能力是計算能力、關聯能力。許昱博士表示,TigerGraph生成很多高質量的新的訓練資料,然後交給機器系統去學習,可極大地減少誤報率,為各行各業提供做圖分析和知識圖譜的通用圖引擎,客戶可以很快建立針對自己企業的圖模型,將任何關聯方找出來。

TigerGraph有很多的優勢,但並不意味著要去顛覆傳統的資料庫。許昱博士認為,公司是在做複雜關聯、實時計算等別人以前根本做不了的事情,做新一代的應用程式,給客戶帶來價值,以解決他們資料量快速增長,或者更新成本太昂貴的難題,方便他們的應用程式移植到圖資料庫上。

目前,TigerGraph的解決方案已經被國內的大型金融機構、電力等不同行業的大量的客戶所採用。

在美國,圖資料庫是近年來所有資料庫裡發展速度最快的。保守的估計,未來五年裡將會有十倍的增長,圖資料庫市場發展潛力和空間很大。許昱博士十分看好TigerGraph的未來。