谷歌雲全球性癱瘓,8分鐘的無雲時間使得谷歌雲變成了烏雲
摘要:谷歌原以為只是一個區域性性錯誤,沒想到結果卻演變成了一場覆蓋所有區域的停運事件。
4月11日,谷歌雲陷入了前所未有大麻煩之中。由於兩個bug的產生,致使谷歌雲全線下線,長達18分鐘的無雲時間使得谷歌雲變成了烏雲。
谷歌是全球最大的雲服務提供商之一,谷歌雲在公有云的圈子內也算是巨頭級別的存在。越是強大的公司就越不允許有任何的瑕疵,18分鐘的烏雲時間卻足以砸了谷歌雲的金字招牌。現在,谷歌的母公司Alphabet已經就此事件的原因進行了解釋。Google 的工程副總裁Benjamin Sloss Treyno表示將進行“7×24”的全天候個人道歉。
為什麼是Treynor背起這口大黑鍋呢?這事也確實與他有著不可分割的關係。作為谷歌的工程副總裁,Treynor的主要工作就是“確保 Google 的網站永不掉線”。谷歌雲下線18分鐘如此重大的過失讓他負責並不為過。
僅僅道歉是不夠的,Treynor也就該事件的原因對外進行了解釋。起初,谷歌的工程師要對谷歌的網路配置進行瘦身,谷歌計算引擎(Google Compute Engine ,GCE)中的部分IP模組長期未使用,工程師選擇了對其刪除並讓谷歌的自動化系統在谷歌的網路系統裡完成剩餘的傳輸工作。
GCE是谷歌雲的核心
而IP模組是用於幫助使用者資料連線傳輸到谷歌雲的重要模組。於是事故就這樣發生了,在機緣巧合的時候,一個IP模組從其配置檔案中被刪除時,用於網路配置管理的其他配置檔案並沒有完成相應的傳輸轉移,於是乎這個模組傳輸失敗了。
當傳輸失敗時,谷歌通常會選擇還原故障部分到之前的位置,然後新增新的模組重新傳輸。但是這次,前所未有的軟體bug被觸發了。這次傳輸失敗後,並沒有將故障部分還原到原來的位置,而是將GCE所有的IP模組進行了重新配置。而這次配置的用的就是用於更新的不完整的IP模組。
如果說僅僅是這一個bug,那麼正常情況下也不會有太大的問題。谷歌有一個專門巡查此類問題的系統“金絲雀(canary step)”,但是這次金絲雀也出現了一個bug.因為這個bug推動了系統認定此次新的配置有效,並且在全範圍內逐步開始推出。
這些新的配置資訊從谷歌的資料中心推廣到了世界各地的資料庫,但這個巨大的變動很快引起了谷歌技術人員的注意。他們立刻宣佈停止了所有的IP模組,中止了這一新型配置的推出,並且開啟備用的資料中心,最快的速度恢復使用者的工作。
兩個bug,一個悲劇
另一發面,技術人員在從世界各地的資料庫當中將這些沒用�**P模組配置資訊刪除恢復。但這一系列的bug已經導致了谷歌雲出現了長達18分鐘的中斷。18分鐘的烏雲也許可以很快驅走,但是18分鐘的無雲卻是無法抹平的使用者心理陰影。
谷歌方面表示,他們已經第一時間發現了這兩個bug,並且網路配置軟體方面的負責人也已經解決了這個問題。而且,今後谷歌將推出14種不同的應急解決方案用於預防、檢測和緩解類似情況的發生。
飄搖的谷歌雲需要挽回使用者的信任
但是谷歌能否真正做到這一點依然是值得讓人懷疑的,因為早在2015年8月發生過類似的故障。當時的谷歌雲因為字元錯亂、管理變更、雷擊、自動化失敗和補丁失敗等原因導致過故障,此次故障後的彌補能否真正為谷歌挽回人心呢?
作為此次故障的主要負責人,Treynor發表了一份很長的道歉信。“谷歌非常認真的對待此次中斷事件,這次事件影響範圍之廣使得谷歌的很多客戶受到了影響。這一事件的報告比以往的更長和更詳細,因為谷歌希望使用者能夠了解它發生的原因,以及谷歌在做什麼。
谷歌希望通過透明化的服務幫助使用者建立信心,也用此證明谷歌雲平臺的可靠性在不斷的成長。“而使用者的希望則相對簡單,以後別再出現這種問題了。
來自中關村線上