聽說支付寶有一個“瘋起來連自己都打”的專案
小螞蟻說:
自古紅藍出CP,在螞蟻金服就有這樣兩支“相愛相殺”的隊伍——紅軍和藍軍。藍軍是進攻方,主要職責是挖掘系統的弱點併發起“真實”的***,俗稱“找茬”;紅軍則是防守方,其防控體系建設中的實時核對平臺能夠
做到穩定的分鐘級核對異常發現能力,並提供業務快速接入的能力。支付寶“瘋起來連自己都打”的專案就是紅藍軍技術***演練,他們不僅每週進行全棧級別的演練,每年還會舉行規模極大的“期中考試”和“期末考試”。接下來就跟著小螞蟻一起去看看這對紅藍cp的日常“互懟”生活吧!
如果一個技術團隊不幹別的,專門“搞破壞”,這是一種怎樣的存在?這真的不是“天方夜譚”,在支付寶確實有這麼一支隊伍——技術藍軍。藍軍的任務就是不斷地***和進攻,而防守方則是技術紅軍。在支付寶,藍軍從屬於螞蟻金服技術風險部(SRE),而紅軍則包括SRE及各業務部門的技術團隊。
說到SRE,就需要科普一下了。SRE全拼為Site Reliability Engineer,是軟體工程師和系統管理員的結合,是一種要求極高的技術工種。據說,目前全球只有少數幾家頂級網際網路公司擁有真正意義上的SRE團隊,螞蟻金服是其中之一。
由藍軍主導的技術***演練就是那個傳說中的“瘋起來連自己都打”的專案,今天,就來起底一下這個神祕的專案。
從“青銅”到強者
紅藍軍技術***演練與螞蟻金服技術風險部的發展息息相關,而螞蟻技術風險的演進軌跡和遊戲中的不斷打怪升級非常相像。
早期是質量+運維+架構師三角協同,各司其職並自發性的開展一些技術風險相關的工作。2013年,螞蟻金服技術團隊提出了質量2.0戰略,以統一的規章、統一的流程和統一的陣型,開始體系化地沉澱故障檢測等方面的平臺化能力。
大概一年後,也就是2014年,專門成立了技術質量部,從全域視角解決技術風險的問題。
2015年,技術質量部正式升級成為技術風險部,專注研發及架構的技術風險問題,並完成相應解決方案和落地的平臺。
2016年,技術風險部再次升級為SRE團隊。
SRE團隊組建後,就開始全面開展故障自動定位、自適應容災、防抖、精細化高可用等工作。其中防抖這塊,要保證任何的網路或基礎設施抖動,使用者都無感知;而精細化高可用,又叫單筆高可用,其顆粒度可以精準到使用者的每一筆交易,遠遠優於行業內的機房級高可用。
同時,那個熱衷“找茬”的組織——技術藍軍也正式成立。這個專門的、擁有獨立職能的團隊不幹別的,主要職責是挖掘系統的弱點併發起“真實”的***,紅藍軍技術***演練也自此誕生。
牛X的是,技術藍軍並不對各業務方負責,只對應用架構及防禦系統的穩定性和可靠性負責。在藍軍眼中,故障的發生是必然的,只是時間早晚而已。藍軍只有想盡辦法去觸發這些故障,這樣,在故障真實發生的時候,才有足夠的應付能力。
所以,藍軍發掘各類脆弱點,並通過紅藍軍技術***演練,不斷驗證防禦系統的可靠性。而故障防禦系統及不斷優化的高可用架構則是由SRE團隊的紅軍與各業務深度合作,沉澱、構建出來的。
藍軍正在研究“突襲”計劃
現在,全棧級別的技術***演練每週都在進行,藍軍似乎對“瘋起來連自己都打”很上癮。
利矛與堅盾不斷升級
持續不斷的***演練,讓藍軍和紅軍的技術能力得到了極大地提升,同時雙方“武器庫”也在不斷升級。
2017年秋天,藍軍團隊在成立後的兩個月內,自主研發了位元組碼級別的故障注入系統Awatch,這個武器的厲害之處在於可以實時地對執行中的業務系統進行任意鏈路的編織侵入。這對於對於技術藍軍以及整個紅藍***體系,具有里程碑式的意義。
藍軍研發出了厲害的武器,紅軍也沒閒著。
與此同時,技術紅軍的防控體系建設也在如火如荼地進行著,實時核對平臺橫空而出。該平臺能夠做到穩定的分鐘級核對異常發現能力,在某些場景下可以做到秒級發現,並且平臺提供了業務快速接入的能力;紅軍還在實時核對平臺的基礎之上,升級演化出一套智慧核對平臺(內部代號四道防線),引入AI技術自動識別業務問題,目前這套防線已經覆蓋螞蟻80%以上的業務。另外,各個業務域針對自身業務的一些特殊性,也研發了相應的核對系統。
儘管藍軍制造故障的能力有很大的提高,但大部分的故障場景主要是各個業務方提供的,只有極少數是藍軍人工梳理業務或者分析程式碼產出。此時,藍軍團隊認為,日常演練常態化,在故障場景發現方面不能再依賴業務,必須建立自主發現故障場景的能力。
用“可樂山”明志,是程式設計師常見的套路
2018年3月,藍軍推出故障場景挖掘平臺,基於Awatch探針探測應用內資料流,以此進行“弱點挖掘”。這套弱點挖掘體系,能夠自動發現故障場景,最高能夠在5分鐘內產生500+的故障場景,紅藍***的日常演練的最為重要一塊拼圖終於完成!
然而新的問題來了。
藍軍的故障挖掘平臺能力毋庸置疑,但有***就需要應急,高頻***實施亦會給紅軍帶來大量的人力消耗。持續應急壓力驅動,紅軍開展““故障自愈”架構體系升級及能力建設,以效能為目標,結合模擬,紅藍軍一起研發了“無損”***體系,並且推出與之匹配的度量平臺,自動度量***結果,資料視覺化。
目前,常態紅藍技術對抗保持每週200+個故障場景的節奏在持續運作。
常態化的紅藍“互懟”
線上、實時、隨地、無差別……這是支付寶技術藍軍實施***行為的幾大標籤。
2017年年底的紅藍技術***周,技術藍軍發起***,但由於故障元件一處隱藏bug導致故障命中數量遠遠大於預期,給紅軍增添了不少麻煩,業務線的技術同學投入大量的人力和資源進行善後。此情此景之下,紅軍方面不僅沒有抱怨,反而給予藍軍鼓勵,“這次預期外的故障***是最真實的應急鍛鍊!”
2018年年中的一次紅藍技術***中,藍軍在週末發起突襲,而剛好紅軍的相關同學正在舉辦婚禮。於是,一群程式設計師趕緊拿出吃飯的傢伙,噼裡啪啦敲著鍵盤進行應急,那畫面簡直不要太美了。
還是在2018年的一次對抗中,紅軍祭出了“尖端武器”——自適應防災、防抖等,這讓藍軍吃盡苦頭,幾乎每次***都無功而返。挫敗感飆升的藍軍最終放出大招,讓紅軍接受了非常猛烈的炮火洗禮。
有意思的是,似乎藍軍***得越歡,紅軍的同學越高興……雖然看上去很受虐,但卻沒毛病,因為藍軍***得越狠越深入,被挖掘和發現出來的技術風險就會越確定,防禦系統的能力也會因此而得到提升。
除了設計縝密的防禦措施防止藍軍的襲擊,拜關公求庇佑也是紅軍的“習俗”
令人震驚的是,為了防止藍軍的“襲擊”,紅軍除了在防禦系統方面下十足的功夫,每年期中和期末的紅藍技術***演練,紅軍都要舉辦一個儀式——那就是拜關公,除了叩拜,還得給驅邪鎮惡的關公獻禮,禮品包括旺仔牛奶、格子襯衫、鍵盤、香菸等。
風險防控技術全面開放
螞蟻金服技術風險部門經過不斷地升級,並將紅藍技術***演練形成常態化。除了每週進行全棧級別的演練,每年還會舉行規模極大的“期中考試”和“期末考試”。這意味著,支付寶的風險防控體系持續地經受打磨與錘鍊。
目前,支付寶的“紅藍對抗”演練已經沉澱出一整套成熟的風險防控體系,通過模擬環境模擬天災人禍,去考驗技術架構的健壯性及技術人員的應急能力,從而全面地提升系統穩定,實現系統的高可靠性和高可用性。
所謂的天災和人禍。天災指的是,當出現颱風、斷網、火情等極端異常情況的時候,系統如何快速應對。這有點類似於今年杭州雲棲ATEC大會上,螞蟻金服副CTO胡喜現場演練的異常斷網情況下,“三地五中心”自動切換,保證支付服務不中斷。人禍則是指因技術人員操作失誤引發故障後,系統如何快速應。
在螞蟻金融科技官網(https://tech.antfin.com/)上可以看到,這些技術風險相關的能力已經對外開放,目前共有3款產品,包括容災應急平臺、全鏈路壓測和資金安全監控;另外,還有3款產品,變更管控、巡檢平臺和黑屏運維管控即將上線對外開放。
螞蟻金服ATEC城市峰會·上海
2019年1月4日,一場金融科技的前沿探索之旅——螞蟻金服ATEC科技大會即將起航,你準備好了嗎?小螞蟻為大家準備了滿滿了攻略福利,等你來拿!瞭解螞蟻金服ATEC科技大會更多資訊,記得持續關注小螞蟻(官微:螞蟻金服科技)~~
螞蟻金服金融科技官網:
https://tech.antfin.com/articles/activity/atecshanghai
ATEC科技大會:
螞蟻金服ATEC(Ant Technology Exploration Conference)科技大會是螞蟻金服在中國舉辦的最大的技術盛會,旨在向遍佈全球的合作伙伴與技術專業人群分享新技術的發展趨勢與落地實踐,通過對先進的前沿技術探索與討論,為世界帶來平等的機會。ATEC大會一直在路上。過去一年,螞蟻金服ATEC科技大會走過杭州、矽谷、新加坡、倫敦等全球金融科技中心城市,之後將會造訪國內各個金融科技中心城市,與當地受眾分享螞蟻金服對金融科技最前沿的洞察。
ATEC科技大會報名方式 & 福利:
本次大會門票採用稽核制。嘉賓填寫個人資訊進行報名,報名後3天之內收到報名稽核成功的簡訊,即為報名成功。大會報名截止日期為2018年12月31日24時,額滿即止。
前50位報名嘉賓將會優先稽核通過,先到先得哦~
小螞蟻還為大家準備了本賬號讀者的專屬福利邀請碼: SF2B3A
還等什麼,趕緊點選下方報名連結或閱讀原文或掃描二維碼,小螞蟻期待你的到來~~
ATEC報名連結:
https://alipaytech.mikecrm.com/l6YPW6V
ATEC報名二維碼: