1. 程式人生 > >黑科技揭秘:百種異常隨機註入,專有雲為何穩如泰山

黑科技揭秘:百種異常隨機註入,專有雲為何穩如泰山

雲計算 升級版 需求 做了 隨機 雲棲大會 企業應用 diy 業務

摘要: 關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?為什麽這麽巧,兩個小概率的問題偏偏一起發生,造成保護失效?為什麽我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州雲棲大會主論壇演示現場,阿裏雲專有雲事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。

關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?為什麽這麽巧,兩個小概率的問題偏偏一起發生,造成保護失效?為什麽我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州雲棲大會主論壇演示現場,阿裏雲專有雲事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。

百種異常現場隨機註入破壞系統

技術分享圖片

繼去年跑了分、斷了電,在9月19日下午的杭州雲棲大會技術主論壇現場,專有雲現場演示穩定性升級版,在現場搭建的專有雲“企業號”數據中心系統上隨機註入異常搞破壞。該數據中心由8大品牌服務器搭建,模擬了客戶真實的復雜生產環境,同時現場直播應用便搭載在該數據中心的系統上,在註入異常後將直觀的通過觀察直播是否卡頓來判斷專有雲系統是否真的穩定。

技術分享圖片

現場馬勁讓助手向觀眾席中扔出兩只猴子玩偶,搶到的觀眾可以在現場呈現的1-100個異常中隨機選取一個異常註入,兩位觀眾分別選擇了19號和66號,分別代表的是“ECS雲產品網絡傳輸包亂序比例陡增”,模擬ECS網絡不穩定,網絡急速惡化,傳輸包亂序陡增的場景,以及“SLB雲產品網絡傳輸時延陡增”,模擬SLB所在網絡不穩定,傳輸出現嚴重惡化,時延陡增的場景。在分別註入這兩個異常場景後,直播視頻仍然保持順暢毫無卡頓。這是因為專有雲系統日常就是在通過註入這類異常收集反饋進行調整,從而不斷打磨系統構建出“專有雲免疫系統”。

似乎是現場觀眾隨機挑選的異常“破壞力”不足,馬勁一狠心,演示了極端環境下的超級異常——核心ECS集群局部網絡異常且另一臺ECS計算資源飽和。“這模擬了業務高峰期服務器已經超高負載時的網絡故障,這類情況極易引發系統雪崩,一旦雪崩恢復時間很長。”馬勁解釋道。演示現場阿裏雲負載均衡的快速隔離及彈性伸縮服務智能資源分配及時發揮了作用,現場應用卻快速恢復正常,觀眾席響起熱烈的掌聲。

技術分享圖片

打磨產品穩定性,阿裏雲沒有好辦法只有“笨辦法”

阿裏雲專有雲承載著眾多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味著什麽,因此打磨穩定性是專有雲不渝的追求。然而,過去大部分系統都搭建在DIY系統上,不具備全系統演練的條件,而今天在阿裏雲這個“雲計算機”上,可以在準生產環境下進行全方位立體化的演練。

混沌工程是專有雲針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿裏雲異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷註入打磨系統,以提前幫助客戶排除系統中80%的故障。當別人還困擾於硬件層級的異常發生該如何處理時,阿裏雲專有雲已經在用更深層級的組合異常打磨系統。這一切的投入和執著錘煉穩定性都只為持續給客戶提供更穩定更可靠的產品。

現實往往不按照故事的劇本走,阿裏雲沒有“好辦法”只有笨辦法,那就是引入‘混沌工程’理念,在仿真的生產環境中做千倍高頻的異常註入,對不符合預期的系統反饋不斷優化,從而持續打磨穩定性,助力客戶業務穩定性提升。

了解更多產品降價信息請戳鏈接
https://yunqi.aliyun.com/2018/hangzhou/product
了解更多阿裏雲產品請戳鏈接
https://www.aliyun.com/product/list?utm_code=p_2018090501
專屬小遊戲,《我和老板,那些不可描述的需求》等你來~
https://yq.aliyun.com/articles/641567

原文鏈接

本文為雲棲社區原創內容,未經允許不得轉載。

黑科技揭秘:百種異常隨機註入,專有雲為何穩如泰山