阿里巴巴舉辦首屆產業資料庫研發論壇:鏈結產學研 構建創新生態圈
10月12日-14日,一年一度的中國資料庫學術會議(NDBC 2018)如期在大連舉行。NDBC是由中國計算機學會(CCF)主辦、資料庫專業委員會承辦的中國資料庫領域最高學術會議。在這場代表了國內資料庫最強實力的學術盛宴上,阿里巴巴集結了強大的參會陣容,由阿里巴巴集團副總裁、達摩院科學家、資料庫與儲存技術負責人李飛飛博士(花名:飛刀)親自帶隊。此外,達摩院資料庫與儲存實驗室還聯合CCF資料庫專業委員會,舉辦了首屆產業資料庫研發論壇,力邀知名企業技術負責人及學界專家,共同探討國內資料庫的產學研生態,為資料庫的長期發展作出原創性貢獻。
依託NDBC平臺,產業資料庫研發論壇是一次學術界和工業界的雙向資料庫技術沙龍,皆在拉近資料庫學術研究和新興網際網路業務需求之間的距離,以實際場景與資料庫頂級學者交流,尋求系統層級的前沿技術突破,搭建企業與高校之間學術合作的橋樑。
論壇現場座無虛席
論壇受到了學術界和產業界人士的極大歡迎,諸多業界大咖與行業精英共聚一堂,現場座無虛席。李飛飛博士在會上闡述了阿里對於產學研共建的思考,以開放的態度,帶動全行業以更緊密的連結健康發展,展現了阿里作為行業領頭公司的胸懷和氣魄。
阿里巴巴集團副總裁、達摩院科學家、資料庫與儲存技術負責人李飛飛博士
李飛飛表示:“資料庫系統是核心的基礎軟體設施,經過多年的發展,形成了一個成熟完善的商業市場和生態圈,全球市場達到400億美金規模。近年來雲端計算和大資料市場的蓬勃發展為資料庫系統這個相對傳統的領域帶來了前所未有的新機遇,資料庫系統需要適應雲原生帶來的挑戰,以及大規模全球化分散式部署的挑戰。除此之外,各型別新硬體和機器學習/人工智慧技術的快速發展,也要求資料庫系統深入推進軟硬體一體化設計和智慧化運維與核心優化等新興技術的應用。最後,資料庫安全是另外一個重要的課題,如何實現高效的加密資料庫系統以及對資料隱私的保護是偶待解決的問題。解決這些挑戰和問題需要學術界和產業界深度合作,從實際應用和系統需求出發來發現並攻克核心難題,幫助大規模工程化實現和商業化部署。
這次研討會藉助NDBC這個平臺,帶來一個難得機遇讓國內產業界和學術界的核心代表共聚一堂,深入探討如何更好的合作和交流。大家也就當前資料庫系統所面臨的熱點問題進行了深入的探索和碰撞,成果顯著。產業論壇會在以後每年的NDBC會議上堅持舉辦下去,大家相信這個論壇一定會對中國資料庫產業和科研事業的發展產生長久而深遠的影響。”
來自阿里巴巴、華為、東軟集團和華東師範大學的資深技術負責人帶來精彩演講,分享了各自面臨的業務挑戰、應對的技術和解決方案,共話資料庫前沿技術與發展趨勢,探討產學研合作如何推進應用落地。
雲原生資料庫POLARDB:自研黑科技 釋放卓越效能
阿里巴巴高階技術專家張友東
阿里巴巴高階技術專家張友東(花名:林青)介紹,POLARDB 是阿里雲自研的關係型資料庫,採用計算與儲存分離的架構,計算節點輕量易擴充套件,能在秒級完成備節點擴充套件;儲存平臺化,支援最大100TB的儲存。POLARDB採用多項黑科技來保證高效能,包括使用者態網路協議棧,使用者態儲存協議棧,高速RDMA網路,NVMe SSD,Optane新儲存硬體等,POLARDB滿足了雲上使用者對大容量、高效能、可彈性伸縮資料庫服務的需求。
阿里雲資料庫團隊為 POLARDB 定製了低延時、高可靠的分散式檔案系統 PolarFS,PolarFS的研究成果已發表在資料庫頂級會議 VLDB 2018 《PolarFS: An Ultra-low Latency and Failure Resilient Distributed FileSystem for Shared Storage Cloud Database》;基於 PolarFS 共享儲存平臺,POLARDB 重新設計了儲存引擎,基於共享儲存做物理複製,極大的降低了 POLARDBIO開銷,讀寫效能相比MySQL有數倍的效能提升;最後,POLARDB100% 相容MySQL生態,同時融入到現有的雲產品生態,使得使用者接入無需做業務改造,使用成本極低,目前POLARDB已經開始在阿里雲上服務了數百家企業。
未來 POLARDB 還會做更多的資料庫技術創新,覆蓋更多的雲上資料庫應用場景,為使用者創造更大的價值。
POLARDB X (Powered By X-DB):全域性全域 追求極致
阿里巴巴資料庫事業部資深技術專家何登成
阿里作為全球最大的線上交易平臺,當下的業務體量非常龐大,需要進行線上事務處理的資料規模在PB量級,在雙十一當天,需要處理的SQL請求甚至達到每秒一億次。阿里巴巴資料庫事業部資深技術專家何登成(花名:圭多)表示:“為了處理如此龐大的資料量和事務處理能力,我們研發了分散式關係型資料庫POLARDB X (Powered By X-DB),採用shared-nothing架構,對使用者透明的資料sharding機制。使用優化實現的paxos協議保證資料副本間的一致性,在跨地域部署下也能保證高效能。為了避免單點失效,使用去中心化的HLC機制實現分散式事務。”
據悉,POLARDB X還分析了電商業務的訪問特點,為此專門設計了基於訪問頻度的冷熱資料分層的儲存架構,更好地利用儲存硬體本身的層次。此外,還利用一系列軟硬結合的技術,比如異構計算硬體FPGA來處理計算密集型的後臺任務。POLARDB X力求在效能和成本上同時達到極致,不遠的將來會推動上雲,為雲上使用者提供更好的資料庫服務。
SolarDB:學術界與工業界智慧碰撞的結晶
華東師範大學資料科學與工程學院教授、副院長周烜老師
SolarDB是一個由華東師範大學、西北工業大學、上海交通銀行聯合開發的,並且在工業界得到實際應用的資料庫系統。SolarDB從開源的OB 0.4版本作為基礎,歷經多年發展,已經在交通銀行落地,並在很多場景下替換了原有的DB2資料庫。它採用shared-everything架構,由儲存節點(s-node),事務節點(t-node)和計算節點(p-node)組成,其中s-node和p-node可以橫向擴充套件,而t-node是單節點用於事務處理,這個架構設計在擴充套件性和複雜性之間找到了很好的平衡。華東師範大學資料科學與工程學院,教授、副院長周烜老師表示:“在高校裡做一個能夠實際應用的資料庫系統非常不易,但是我們一直在堅持做。未來的挑戰也很多,比如:分散式系統的質量保障,如何相容商業資料庫等等。都是值得我們去思考的問題。”
SolarDB是學術界和工業界合作研發的資料庫系統,凝聚了華師大師生在資料庫技術發展的思考,並且經過實際業務場景的不斷磨練,已經日漸成熟穩定,並且將發展地越來越好。
縱觀上述三款OLTP資料庫,在架構、應用場景和技術思考方面各不相同:
● 應用場景不同——POLARDB(雲端計算),POLARDBX(大規模網際網路應用),SolarDB(金融業務)。
● 技術思考不同——POLARDB(雲原生、彈性伸縮,100%相容開源生態,價效比,新硬體),POLARDB X(高效能、低成本,全球部署),SolarDB(擴充套件性和複雜性的平衡)。
雖然OLTP資料庫是資料庫技術領域最成熟、最傳統的一部分,我們看到學術界和產業界在OLTP領域依然有非常多的思考和進展,令人欣喜。
華為高斯資料庫團隊首席產品規劃師李思昊
來自華為高斯資料庫團隊的首席產品規劃師李思昊系統介紹了華為公司多年來在資料庫領域的投入及產業佈局。華為在2005年開始投入記憶體資料庫系統的研發,主要用來支援電信計費業務,其可以實現百萬QPS毫秒內響應,近年來不斷擴充套件其記憶體資料庫產品架構,支援分散式以及資料持久化能力,向通用型產品發展,具備更高擴充套件能力。華為同時在2012年開始構建分散式分析型資料庫產品,採用MPP架構,引入 codegen 等新的編譯技術,實現業界領先的分析型能,同時構築線上擴容,升級等關鍵技術,實現系統高可用。其實現國內主要銀行的資料倉庫系統從傳統廠商Teradata資料庫向其產品的全面遷移,同時在國內外也具備一定市場規模。
東軟集團系統架構師於明光
來自東軟集團的系統架構師於明光分享了機器資料的實時洞察與模式識別。系統對不
同客戶環境提出規範,實現了可自控的資料採集,同時用聚類方法使資料可用。於明光指出低頻事件間的關聯和高頻事件在資料探勘上有很大區別。在即席查詢的場景下,於明光提出半結構化資料查詢上,SQL這樣的結構化查詢語言不是最優的選擇,並提出領域專用語言DSL。於明光強調,上述技術未來可以擴充套件到更多更廣泛的領域,將大有可為。
OLAP資料庫的技術變革、演進和挑戰
阿里巴巴集團資料庫事業部研究員佔超群
企業資料的爆炸式增長為擴大分析策略在企業應用軟體領域的拓展提供了資料基礎,然而由此所帶來的挑戰也是前所未有的,那麼應該如何針對海量資料提供實時線上的靈活處理以及開放的資料分析?阿里巴巴集團資料庫事業部研究員佔超群(花名:離哲)就此介紹了阿里巴巴在大規模實時線上分析系統方面構建的經驗和未來的技術趨勢展望,重點聚焦在阿里巴巴集團下一代分析資料庫產品AnalyticDB,AnalyticDB是阿里巴巴最早的自研商業級資料庫產品之一,也是最早商業化的自研資料庫產品,其支撐阿里集團的電商、廣告、螞蟻、菜鳥、文娛等眾多線上資料分析業務;以及為阿里雲上傳統的大中型企業,政府機構,眾多的網際網路創新公司的提供核心的實時分析能力。
AnalyticDB單DB支援2千臺以上的物理節點, 10PB以上的資料儲存管理, 以及高併發低延時分析,幫助業務進入下一代分析和極速探索。其採用分層解耦架構,引進了智慧SQL優化器,超大規模的分散式MPP+DAG融合分析計算引擎,支援行列混合儲存,智慧構建多維度索引以及GPU硬體加速等技術,同時融入了文字、圖片、人臉等非結構化資料分析支援,大幅擴充套件技術邊界和業務邊界。伴隨著這些年線上分析業務的發展,AnalyticDB在時效性、線上化、複雜度、智慧化、可用性和成本上不斷創新發展,做了大量的技術難點突破和創新。通過將資料分析線上化、實時化,幫助使用者發揮資料價值,AnalyticDB已經成長為能夠改變使用者資料使用方式、行業內領先的商業級資料庫產品。
圓桌討論:共話產學研結合現狀和發展趨勢
左起:張友東、佔超群、何登成、於明光、周烜、李思昊
在最後的圓桌會議上,參加論壇的老師、同學與分享嘉賓熱烈交流,共同探討阿里巴巴POLARDB X (Powered By X-DB)、POLARDB、分析型資料庫AnalyticDB以及華為高斯資料庫的建設經驗與技術難點。嘉賓們對雲端計算多租戶解決方案、資料庫高可用方案、資料行列分層儲存、多模資料庫的優勢等技術問題做了詳細的分享。論壇同時探討了高校如何能夠將研發的系統應用到企業的核心繫統,在學生正常流動下保證持續發展,周烜老師詳細分享了華師大研發SolarDB資料庫並在交通銀行的成功建設經驗。
NDBC2018——阿里巴巴參會陣容合影
本屆產業資料庫研發論壇不僅是展現企業自身科研實力與分享成果的重要舞臺,體現了中國資料庫產業在研發和應用方面的最高水平,同時面向未來,為企業與學術界搭建了合作的橋樑,積極推動產學研合作共同體的構建,共建資料庫產業合作生態。一直以來,阿里巴巴都非常注重與學術界的合作,使用者的需求推動了技術的一次次更新迭代,讓工業界和學術界的關係更進一步。學術界和工業界在資料庫領域各有所長,阿里巴巴未來將持續深耕科研領域,將學術研究和應用實踐有機結合,積極拓展與學術界的合作,推動產學研一體化,用技術驅動我國資料庫事業的發展。
同時在本屆NDBC會議上,來自阿里巴巴的張瑞、佔超群和李朝三位資深資料庫技術人成功當選了新一屆中國計算機學會的資料庫專業委員會委員,未來將代表阿里巴巴為資料庫技術的發展貢獻更多力量。至此,阿里巴巴已經有七名專委。
隨著NDBC產業資料庫研發論壇的舉辦以及更多工業界技術人加入CCF中國資料庫專委會,必將更進一步推動產學研一體化和中國資料庫技術產業的發展,帶領資料庫人砥礪前行。
原文釋出時間為:2018-10-16
本文作者:NDBC 2018