1. 程式人生 > >直擊系統領域頂會OSDI'18現場,探祕阿里集團基礎設施團隊

直擊系統領域頂會OSDI'18現場,探祕阿里集團基礎設施團隊

作為系統領域頂會雙星之一的OSDI(USENIX Symposium on Operating Systems Design andImplementation),當地時間今年10月8日-10日在在美國加州Carlsbad的Omni La Costa Resort & Spa酒店舉辦了其第13次會議OSDI'18。

本次大會參會人數達到了創紀錄的650多人,投遞論文257篇,收錄47篇,錄取率不到20%。另外有83個Poster和6個Demo。本屆OSDI三篇BestPaper分別來自:

 ●   UnderstandingFailures (REPT:Reverse Debugging of Failures in Deployed Software, Weidong Cui et al)

 ●   OperatingSystem(LegoOS:A Disseminated, Distributed OS for Hardware Resource Disaggregation,YizhouShan,et al)
 ●   Debugging(Orca:Differential Bug Localization in Large-Scale Services,Ranjita Bhagwan)

三大OS傳統領域,組委會可謂初心不忘,聚焦系統層面的創新。

3篇Best paper中兩篇的第一作者都是華人學生,也是一個令人欣喜的現象。值得一提的是,Operating System的Best Paper:LegoOS: A Disseminated, DistributedOS for Hardware Resource Disaggregation, Yizhou Shan, et al,引用了我們之前釋出的Alibaba cluster trace佐證下一代resource disaggregation的設計,說明阿里巴巴的基礎技術能力和場景已經開始得到頂級學術會議的重視。

阿里巴巴對本次會議進行了最高級別的金牌贊助,並舉辦了專題研討會(BoF),分別介紹了:

 ●   阿里巴巴OS開發優化和創新方面的一些最新進展;
 ●   阿里雲端儲存系統盤古2.0;
 ●   阿里巴巴的資源管理系統Sigma在日常和雙十一期間進行的多種優化和麵臨挑戰。

研討會現場吸引了來自全世界數十位專家學者,在系統軟體事業部系統性能研究員Kingsum的主持下,大家以演講介紹加自由討論的形式,對上述3個話題展開了熱烈的討論。

99d62797fe26c9de577cf41ab40d2a277b23429a

阿里巴巴OS的開發與探索

Alikernel是阿里巴巴為了更好支援自身業務發展,應對多種技術挑戰而進行開發和優化的作業系統核心。隨著阿里巴巴集團伺服器數量、業務多樣性、應用混部規模的不斷提高,作業系統和核心需要面臨的挑戰日趨增多,除了上述提到的規模問題,我們還有快速迭代、成本節約和創新性(例如serverless)的要求。

針對這些需求,作業系統資深技術專家紹康介紹了核心開發快速迭代、資源隔離、效能優化、以及在Unikernel方向上的創新探索(AliUK)。

11dedd1e8312a2b45e022fa693fa2a278c781c60

AliUK 架構

新一代分散式儲存系統盤古2.0

盤古2.0是已經在阿里巴巴廣泛部署的新一代分散式儲存系統,具有低延時、高IOPS的特性。盤古2.0的多級設計可以滿足不同應用在多種場景下的需求,通過引入純使用者態的儲存引擎USSOS和軟硬體協同設計等機制,盤古2.0可以有效支援創新儲存介質和RDMA網路,並大幅度提高CPU效率和NVM支援。

阿里雲分散式儲存資深技術專家儲道,從現狀、需求、設計、架構、新特性以及效能等多個方面,列舉了盤古2.0的諸多引人注目的特性。

48d4a41b660b342c634cd87e3b831e1a70bb4ec1

新一代儲存系統在成本控制、效能和QoS保障方面達到的要求

阿里巴巴超大規模資源管理系統Sigma

Sigma是阿里巴巴集團內部的資源管理系統,是阿里巴巴集團雲化戰略的關鍵系統,也是阿里巴巴集團最重要的基礎設施之一。它服務於阿里巴巴集團眾多經濟體,如天貓、淘寶、廣告、物流等。也負責雙11等電商促銷場景下的資源管理,從2011年起,就從容量規劃、穩定性、成本控制等多個方面應對雙11的極端技術挑戰。

在這次分享中,來自系統軟體事業部排程系統Sigma的技術專家臨石,在Sigma的日常資源管理、雙十一資源資源準備和穩定性、以及整個叢集的cost efficiency幾個方面,介紹了Sigma作出一些優化和麵臨的挑戰。

6b66a39aaf40394e5f0a619117f911897a23240c

Sigma-Fuxi混部架構圖

Sigma的日常管理。混部方面,阿里巴巴通過資源隔離、優先順序控制、多排程器協調等方式,將混部的平均CPU利用率提高了45%以上,相對之前10%的線上服務平均資源利用率,節省了大量成本。在高質量決策方面,Sigma引入強化學習機制,克服了傳統啟發式排程演算法容易實現、難以優化的問題,大幅度資源部署率提高(線上排程場景)。同時,Sigma還引入了動態額度機制,通過分析業務負載和應用容器的能力,實現了更加激進的動態資源額度控制,有效提高了整體資源利用率。

在雙十一資源準備方面。Sigma通過大量創新手段,大幅度提升了臨時負載應對能力(超過100倍日均壓力),同時保證了業務的穩定性,為集團節省大量成本的同時,為商業模式的創新提供有有效的技術支援。

後記

儘管研討會在晚上20:30開始,但是房間還是很快被坐滿,與會者對阿里巴巴在系統軟體方面的工作十分感興趣。斯坦福大學Platform Lab的Faculty Director John Ousterhout也參加了本次研討會。值得一提的是,阿里系統軟體事業部不僅僅在和斯坦福進行合作,同時也和很多其他很多高水平學校的老師進行合作。這次研討會大大提高了這些高水平研究者對阿里巴巴基礎設施的瞭解,我們非常歡迎所有有志之士加入我們,共同打造最穩定、高效的系統軟體。



原文釋出時間為:2018-10-16

本文作者:臨石

本文來自雲棲社群合作伙伴“阿里技術”,瞭解相關資訊可以關注“阿里技術”。