智慧運維實踐——魅族技術開放日第十三期現場紀實
10 月 20 日,由魅族科技聯合Flyme、麥思博(msup)有限公司、百度雲主辦的第十三期魅族技術開放日“智慧運維實踐”在深圳虛擬大學園觸夢社群順利召開,近200位運維從業者齊聚一堂。
本次活動以“ 智慧運維實踐”為主題,特邀請到魅族系統架構師樑鵬、百度雲智慧運維負責人曲顯平以及虎牙直播業務運維負責人張觀石,與現場學員共同探討當下運維的痛點;對於運維的理解;智慧運維方法論以及智慧運維的平臺產品和最佳實踐,為大家帶來了一場技術盛宴。
在本次活動中,首先由樑鵬先生帶來了主題為《 魅族CMDB運維自動化實踐》的演講。他主要從運維自動化發展歷程、CMDB運維的痛點、CMDB運維自動化實踐、後續發展和演進四個方面進行了闡述。
隨著移動網際網路由1.0到3.0+的發展,運維平臺的架構也在不斷演進和優化,給運維人員帶來了諸多挑戰。樑鵬先生就這些挑戰,和團隊一起,從質量、成本、安全、效率四個維度,建設了資源管理平臺(CMDB平臺、KVM雲平臺、容器平臺)、配置管理平臺(DNS管理平臺、LVS管理平臺、CDN管理平臺)、自動化平臺(釋出平臺、工單平臺、巡檢平臺)、監控容量平臺(基礎監控、業務監控、容量系統)、安全平臺(堡壘機、漏洞系統、WAF系統)。接著他重點講述了CMDB平臺,並對其運維的痛點,做出了五點總結,即許可權管理混亂;生命週期沒有流程化、自動化;資料不準確;變更資訊維護效率低;異常資料的發現和修復。
此外,還總結出了三個維度,平臺運維效率低、平臺數據質量低、流程未標準化,
隨後,來自百度雲智慧運維負責人曲顯平發表了《百度雲智慧運維實踐》的演講。曲顯平先生首先為大家講述了百度對於DevOps、SRE、AIOps三個概念的理解。
百度的運維技術歸納起來總共經歷過三個階段,即基礎運維平臺、開放運維平臺、AIOps階段。百度對AIOps的探索主要在監控整個體系上面的嘗試,比如故障管理中的發現,變更管理的監控,監控體系中的告警。基於現有資料,他們通過演算法來驅動,按照策略、型別、業務、機房、人的維度去合併,當然對於一些特殊的場景其實並不能適配,還需要個性化定製。
對於故障自愈方面結合業務場景去收集全域性資訊,然後通過演算法去幫助快速決策,而在所有的能夠故障自愈的場景中,不止是底層的公共設施,業務自身也需要具備自愈能力,所以這部分是底層技術和業務共同實現的。
無人值守變更管理,這其實對於自助化服務來說其實是一個非常重要的環節,百度的整體方案還是結合DevOps自動化流水線的方式來驅動,其中涉及到流量排程、變更多次、資訊通知,當然在整個變更過程中,把時間、任務、可用性影響、使用者影響、上下游的影響涵蓋了。最後曲顯平先生為我們講述了AIOps遇到的挑戰及ChatOps的難點,收到了參會者一致的好評。
最後一位分享嘉賓是虎牙直播業務運維負責人張觀石,他為參會者帶來了《直播平臺的SRE實踐》主題演講。
首先,張老師簡單為我們介紹了虎牙直播、S8賽事。直播平臺跟傳統的Web網站類不一樣,相對於Web服務,直播音視訊的運維更特殊,業界沒有很好的參考經驗,所以對於運維的挑戰比較大。傳統的運維,音視訊技術可以對開源元件做部署、配置、優化、高可用轉站。從整個鏈路看,視訊資料量大,採集難、監控難。由此引出了SRE方法論及六種能力框架,即可靠性管理、感知能力、修復能力的建設、反脆弱能力、保障能力、安全能力。
接著,就這六種能力框架,張老師對其進行了詳細的解讀。在引入多CDN以後,技術和管理複雜性都有大幅提高,而且視訊流路徑在這麼複雜的場景下,必須深入音視訊運維工作,這對運維質量和運維人員技能提出了更高的要求。
演講結束後,大家意猶未盡的和老師當面進行了技術交流,共同就智慧運維在不同業務場景落地實踐的技術難點與解決辦法展開了熱烈的討論。
本期魅族技術開放日在大家的交流聲中,落下帷幕。