阿里巴巴研究員劉國華:阿里巴巴智慧運維體系建設
導語:在2018年開放資料中心峰會(Open Data Center Summit 2018)開幕式上阿里巴巴研究員劉國華髮表了《阿里巴巴智慧運維體系建設》的主題演講。演講中,劉國華介紹了智慧化給阿里巴巴未來基礎設施帶來的三大價值:資料驅動決策、全域性優化和變革。基於智慧化,阿里巴巴重塑了運維體系。通過智慧化建設,基礎設施的交付效率提升了247%,需求預測準確率達到了每個月至少85%,物理機叢集實現了100%全自動化運維。以下是他的演講內容實錄。
大家好,很榮幸可以跟大家分享一下阿里巴巴在智慧化領域的建設。
在開始智慧化運維之前,先跟大家分享一下過往兩年內,阿里巴巴在專業領域- 裡做的大量創新:
- 我們已經開始大規模使用液冷叢集來支援高密度計算
- 我們在FPGA建設了統一的編譯平臺,可以提升研發效率接近30倍以上
- 網路端我們也開始做大量的創新,總的頻寬從25G到100G到400G
這些創新支援了現有所有AI業務的發展,同時我們也把AI融入到基礎設施領域,讓AI重塑現有的基礎設施。
智慧化可以給未來的基礎設施帶來什麼?
我們把智慧化帶來的價值分為三層:
最底層是資料驅動決策。當我們所有的專業領域業務、所有的資料逐步實現線上化,帶來的第一層價值是保證演進是圍繞著資料展開的。第二層價值是,逐步透明化可以幫我們發現基礎設施層可以突破的技術點,每家公司的業務都是不同的,對底層也會有不同的訴求,這是最下層資料驅動決策層的價值。
第二層是全域性優化。我們把所有的業務線上化、全面數字化之後,我們才有機會看到每個專業領域裡核心的突破點在什麼地方。我們都知道,資料中心內部會規劃上架密度,怎樣的上架密度是更合理的方式?傳統的方式是先對伺服器的功耗提出一個評估,然後對IDC機架做評估,而現在的方式是把優化變成實時動態的方式,來提升資料中心的利用率。
最後一層是變革。當我們把智慧化的能力運用到平臺,就有能力把特殊的點轉化為極大的優勢。以前所有的硬體故障發生的時候,所有的資料中心的運維模式都是屬於被動式響應。當智慧化後,使用預測演算法,就可以提前預估到所有故障,將所有故障的響應方式從被動響應轉化為主動服務。
阿里巴巴運維體系重塑
智慧化建設最關鍵的三件事情:
第一, 要把基礎設施全面數字化,讓所有東西都變成可衡量的體系。
第二, 建設端到端、從業務到基礎設施全鏈條的自動化平臺,保證你的決策規劃和響應速度。
第三, 建立TCO模型,實現很好的反饋機制,利用反饋不斷優化我們的模型。
在智慧化領域,我們採用的是橫跨專業、機器學習以及優化演算法的跨界思考邏輯,基於這樣的思路,阿里巴巴重新規劃建設了基礎設施領域的三大平臺——基礎設施規劃與交付平臺、叢集自動化運維平臺和資料中心智慧運營平臺。
通過為這三大平臺引入智慧化,我們重新創造出了與原來三大功能平臺不一樣的業務形態。下面我將具體分享智慧化時代裡,我們對這3大平臺的改進與思考。
一、 基礎設施規劃與交付平臺
首先分享一下阿里巴巴的基礎設施規劃與交付平臺。這個平臺的主要職責從業務需求規劃到基礎設施規劃,再到硬體研發、IDC建設、生產供應鏈以及OS交付、自動化交付平臺。這個平臺負責阿里巴巴所有基礎設施的規劃、建設與交付。最主要的兩個職責:第一是提升整體交付效率;第二是保證在不斷供的情況下實現成本最優。
我們在很多領域裡引入演算法後,做了很多大的改造。第一個改造是基於機器學習的方式,建立業務規劃驅動。這種方式可以讓業務具有更強的規劃性,在平臺可以快速把業務的規劃轉化成基礎設施的規劃,提升整體的基礎設施交付鏈路。通過這種方式,我們提升的效率接近247%。
第二個改造是,在鏈路已經全面線上化的時候,引入智慧預測/預警系統,可以實時感知到業務的任何變化,並且做出實時決策。通過這種方式來提升運營效率,保證全面響應完全是圍繞業務的驅動去建設的。
第三個改造,我們為所有專業建設了供需模擬沙盤以及上架策略模擬,通過這種方式可以線上不斷模擬以及優化阿里巴巴內部供應鏈的策略以及上架策略,實時反饋到線上系統,持續優化供應鏈。
我們在做需求預測,業務端的資料,包括前端的資料,比如阿里雲的銷售資料,以及下沉的基礎設施的庫存體系,結合機器學習的方式,解決需求預測的模式。目前我們的準確率最少會達到每個月85%左右。我們現在已經推動所有的業務按這種方式運作,從而讓基礎設施的建設具有極強的規劃性。
二、叢集自動化運維平臺
叢集自動化運維平臺解決的核心問題是:
一、 怎樣提升伺服器規模化後的運維效率問題,以及基於業務視角的成本最優的解決方案。
二、 怎麼保證業務的穩定性。基礎設施下面的任何故障不會影響上面所有業務的發展。
但是,當你業務發展規模到一定階段的時候,故障一定是不可避免的,我們怎麼做?
第一,阿里巴巴叢集運維平臺建設了一個全自動化的運維方式,這種運維方式最大的優勢在於,我們跟所有業務排程的方式,用了一種高標準的協議互動模式,可以把所有物理機的運維跟上層運維相互解耦,實現無人化的運維。阿里巴巴現在物理機叢集已經100%運用全自動化運維方式,這是第一層在工程上的建設結果。
在智慧化領域,我們還為所有的業務的提供基於業務視角的資料決策支撐的平臺。平臺最大的價值在於:第一,基於我們的資料平臺,可以把我們所有基礎設施的成本、利用率融入到業務排程裡,實現成本最優化;第二,通過對不同型別業務的專業優化,來提升整體業務的成本競爭力。
第二,我們引入了一些演算法去做智慧異常檢測,包含兩部分:第一部分是我們在基礎設施領域在硬體領域做了大量的故障預測,通過故障預測去提前發現故障;第二部分是業務變更預測,我們會把所有業務的變更通過這個平臺進行預測,來看它變更後帶來的業務的影響。通過這樣預測的方式,結合剛才介紹的叢集運維的主動服務能力,可以把叢集運維的方式從原來被動的響應式逐步轉到現在做的主動服務式的模式。我們在硬碟故障上的預測結果,在萬分之八的誤報率條件下,召回率比業界最新進展提升20%以上,我們還在做宕機、網路故障預測以內層故障預測,會堅持用這種方式逐步把我們運維的模式從原來被動響應轉成主動服務。
三、資料中心智慧運營平臺
最後一個平臺是阿里巴巴的資料中心運營平臺,這個平臺的目標是提升資料中心內部運營效率以及實現能耗最優。
怎麼解決運維效率的問題?通過智慧的方式建設一個自主運維平臺,通過很多演算法的決策來儘可能提升自主運維的成功率。目前為止,通過這種方式我們可以把阿里巴巴每個人運維的伺服器臺數提升接近60%。
我們會建設一個全域性能耗平臺來做全域性動態節能體系,我們會在每個領域做深度能耗優化,把能耗的數字化逐步跟上層業務結合起來,提升機櫃利用率。對於最核心的業務,我們最大可以提升接近20%的機櫃密度。
同時我們在做專業領域的彈性機櫃電力的創新,未來會把利用率提升更高,希望未來在資料中心可以把電力利用率和設計利用率相符。這是基於機器學習的演算法做PUE的優化,目前通過深度學習的方式在現在的機房實測可以優化接近20%的PUE。未來資料中心的優化聯動會全自動化,實現動態優化PUE。
除了剛才介紹的供應鏈、伺服器、資料中心外,我們在應用層、監控、叢集運維都會大量投入智慧化,實現全方位的智慧化建設。
我今天分享就到這裡,謝謝大家!
作者介紹:
劉國華(花名索尼),阿里巴巴研究員,2007年加入淘寶網,2009年作為核心架構師負責淘寶網重構,奠定了淘寶網系統全面服務化的基礎,2013年擔任聚划算事業部CTO,建立了服務阿里零售業務的智慧營銷平臺。2016年加入基礎設施事業群,負責阿里巴巴集團運維體系建設;同時兼任研發效能事業部負責人。致力於資料中心運維、叢集管理、應用運維、研發支撐等領域平臺建設,實現阿里巴巴對基礎設施統一管控和資源優化,建設自主演進的智慧化運維和效能體系,Towards a Self-driving Data Center
PPT下載前往:https://yq.aliyun.com/download/3010
關注底部雲效公眾號,獲取更多阿里巴巴智慧運維技術乾貨。
關於雲效:
雲效,一站式企業協同研發雲,源於阿里巴巴多年先進的管理理念和工程實踐,提供從“需求->開發->測試->釋出->運維->運營”端到端的協同服務和研發工具支撐。支援公有云、專有云和混合雲的協同研發,助力企業產品快速創新迭代和研發效能升級。