1. 程式人生 > 其它 >Fluid 架構創新論文被國際資料庫頂會 ICDE 錄用

Fluid 架構創新論文被國際資料庫頂會 ICDE 錄用

近日,由阿里雲聯合南京大學團隊撰寫的關於 Fluid 開源專案架構創新論文被資料管理與資料庫國際頂級會議 ICDE 2022 長文錄用。

ICDE(International Conference on Data Engineering,即國際資料工程會議)是電氣與電子工程師協會(IEEE)的旗艦會議,和 SIGMOD、VLDB並 稱資料管理與資料庫領域的三大國際頂尖學術會議,入選中國計算機學會(CCF)推薦 A 類國際會議列表。

此次被錄用的論文–《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,針對雲原生環境下執行深度學習訓練作業往往面臨 I/O 方面的效能挑戰,提出了新的資料集抽象和彈性加速系統架構,通過資料集特性自動優化的快取引擎來加速資料的訪問。其作者主要來自阿里云云原生團隊和南京大學計算機系。

Fluid(https://github.com/fluid-cloudnative/fluid) 是雲原生計算基金會(CNCF)旗下的一個彈性資料編排和加速沙箱開源專案,是由阿里云云原生團隊和南京大學共同發起,並投入大量精力維護的。其核心技術功能包括:遮蔽異構儲存的資料集抽象、資料快取自動彈性擴縮容、雲上資料與應用協同編排等。自 2020 年開源以來,Fluid 專案發展迅速,積累 1000 餘次 PR 提交,釋出了 7 個版本,並於 2021 年 4 月正式入選雲原生計算基金會,填補了 Kubernetes 生態中彈性資料快取編排方面的空白,並進入國際 CNCF 全景圖開源雲原生編排排程軟體層、被評為 2021 年度 OSCAR 尖峰開源專案。

在實際生產環境中,Fluid 已經幫助大量使用者顯著地提升 AI 模型訓練效能,降低訓練資料的管理複雜度。阿里云云原生團隊將 Fluid 的核心思想和設計,作為雲原生 AI 領域的重要一環實現和優化,並通過容器服務 ACK 的雲原生 AI 套件產品提供服務。

過去幾年,阿里雲通過容器服務 ACK 在異構計算資源管理、AI 任務生命週期管理、AI 任務排程和加速、AI 訓練資料加速等方面,進行了一系列雲原生 AI 方向的持續實踐和創新,為 AI 工程建立效率、計算資源利用率、AI 平臺建設速度等帶來了突破性提升。這些創新除了在雲上服務通過多種工具和解決方案為企業賦能之外,阿里云云原生團也將領先的雲原生 AI 技術框架反哺開源,與合作伙伴共同發起並維護開源專案 Fluid,並將其向雲原生基金會 CNCF 捐獻。現在,已有來自 10+知名企業的 140+ 貢獻者,和 Fluid 社群一起推動國內雲原生 AI 領域的技術創新與落地實踐。

此次論文入選 ICDE,也代表阿里雲在雲原生容器技術領域持續深耕和不斷創新的又一個結果,在此之前 Serverless 相關的去中心化快速映象分發技術論文被 USENIX ATC’21 錄用。2022 年 1 月,國際權威諮詢機構 Forrester 釋出《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》報告顯示,阿里雲進入全球公共雲容器平臺"領導者"象限,這是中國雲端計算廠商首次進入該象限。

附論文資訊

錄用論文題目: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)

作者:顧榮,張凱,徐之浩,車漾,範斌,侯浩軍,戴海鵬,易立,丁宇,陳貴海,黃宜華

**論文概述: **得益於雲原生平臺提供的容器化與編排技術所具有的高彈性、低成本、靈活運維等優勢,越來越多的使用者開始在 以Kubenetes/Docker 技術為代表的容器雲平臺上執行深度學習訓練作業。然而,直接在雲原生環境下執行深度學習訓練作業往往面臨 I/O 方面的效能挑戰,包括複雜的資料訪問和調優、難以動態匹配 GPU I/O 需求、以及跨作業的快取資料資源共享低效等。針對上述問題,本文研究提出了一套基於 Fluid 的解決方案:一個面向雲原生深度學習作業訓練的資料集抽象和彈性加速系統。Fluid 通過提供一個 Fluid Dataset 的資料抽象遮蔽了底層異構的儲存,並且通過一種面向資料集特性自動優化的快取引擎來加速資料的訪問。進一步地,Fluid 還可以在作業訓練過程中根據 I/O 需求的變化,動態調整快取空間的大小。最後,為了提升多作業執行的效能,Fluid 還能夠根據跨作業快取的應用語義優化作業排程執行次序,從而提升總體執行效能。相關場景實驗表明,Fluid能夠大幅提升主流和業界領先的雲原生排程系統的效能,並且對原系統無侵入性。

釋出雲原生技術最新資訊、彙集雲原生技術最全內容,定期舉辦雲原生活動、直播,阿里產品及使用者最佳實踐釋出。與你並肩探索雲原生技術點滴,分享你需要的雲原生內容。

關注【阿里巴巴雲原生】公眾號,獲取更多雲原生實時資訊!