1. 程式人生 > >[2015.6.6]QingCloud因雷暴引起的廣東1區IDC電力故障,業務中斷2小時

[2015.6.6]QingCloud因雷暴引起的廣東1區IDC電力故障,業務中斷2小時

因廣東1區(GD1)所在IDC遭遇雷暴天氣引發電力故障,昨天下午QingCloud廣東1區全部硬體裝置意外關機重啟,造成QingCloud官網及控制檯短時無法訪問、部署於GD1的使用者業務暫時不可用。裝置重啟後2小時31分GD1業務恢復,系統資料和使用者的業務資料未出現任何丟失。故障處理詳情參見(http://weibo.com/p/1001603851139949969857) 故障發生後,我們同IDC運營商“睿江科技”就事故原因和技術細節進行了持續溝通,並責成睿江科技出具真實、嚴謹的故障報告,力求全面瞭解機房電力系統和防雷系統發生故障的真實原因,以便在未來規避類似事件的再次發生。

截止目前,我們已經獲取睿江科技提供的《關於20150606XX機房故障說明-青雲》報告一份(附後),其中就雷擊引起的電力故障進行了初步說明。通過報告,我們可以瞭解到的資訊如下:

  1. 電力系統:直擊雷導致電力系統出現瞬時浪湧,UPS啟動自我保護(報告中提到的“UPS瞬時波動”),從而釋放電流導致瞬間斷電。
  2. 防雷系統:機房配備了強電、弱電、UPS及列頭櫃四級防雷,雷擊主要是直擊雷和感應雷兩種,本次發生的是直擊雷,現有防雷設施很難防護,從而導致雷電直接影響到電力系統,導致UPS斷電保護。

但我們對其中的細節披露和專業解釋仍存在以下疑問:

  1. 目前建築防雷系統已相當成熟,可以防感應雷、直擊雷和側擊雷。專業的IT基礎設施中的四級防雷系統更應該是如此,本次事故中機房的防雷系統為何未能成功防護直擊雷?
  2. 專業的IT設施防雷系統同民用防雷系統相比防護標準更加嚴格,本次事故的發生究竟是因為防雷系統失效還是因為防雷標準達不到專業IT設施標準?
  3. 防雷系統中包含浪湧保護器,在正常情況下,防雷系統和浪湧保護器會釋放掉因雷擊產生的瞬時脈衝,從而保證UPS不會產生瞬斷。那麼昨天的事故中是否存在浪湧保護器失效,未能釋放掉因雷擊產生的瞬時脈衝,進而導致UPS的斷電保護?

就上述疑問,我們正在同睿江科技進行持續溝通以獲得真實可信的故障原因分析,也會向用戶完整、透明地披露相關資訊。

針對本次惡劣天氣導致的事故,我們通過重新審視了故障發生和排除的全過程,認為我們的技術能力和服務能力還有以下些可以進一步改進的地方:

  1. 故障資訊和故障排除進展的通告要更加及時。在昨天的事故中,我們首先將精力更多地投入到故障定位和排除上,在14:20才給出第一個故障通告,導致很多使用者因缺乏資訊產生焦慮。我們充分認識到及時、透明的資訊通告的重要性,因此需要檢討在本次故障通告方面做的不夠及時。為此我們制定了未來緊急情況下保障資訊通知更加及時、準確的方案。我們會在第一時間通過網站、控制檯及“青雲QingCloud服務健康狀態監控”網站(http://status.qingcloud.com)釋出和更新系統異常及故障排除進展的通告,也會更及時地通過簡訊和郵件等形式向受影響的使用者推送相關資訊,以保證使用者能更及時和準確地瞭解服務狀態。我們非常理解在出現故障時使用者面臨著巨大的業務端壓力,因此由衷地感謝使用者們在瞭解故障資訊後對我們給予的理解和支援;
  2. 在任何故障情況下,保障官網及控制檯正常訪問。目前我們的官網及控制檯是通過DNS切換的方式確保在所在區出現網路不可達或系統故障的情況下儘快恢復訪問。未來我們會制定更快速有效的辦法進一步確保官網及控制檯的正常訪問;
  3. 在出現全部裝置重啟等極端故障情況下,更快地恢復管理服務和業務系統。本次在裝置重啟後,我們是通過Bots系統和人工操作結合的方式恢復了GD1的管理服務和使用者業務,未來我們會編寫更加智慧的軟體指令碼,保障在極端情況下,業務系統能夠更快速地恢復,將可能造成的損失降到更低;
  4. 提高IDC服務保障水平。我們會同目前公有云四個區所在機房分別就電力、暖通、網路等各個專業系統的基礎設施水平、運營管理流程規範等方面進行更加嚴格和全面的檢查,並同IDC運營商一同定期進行災難演練,最大程度避免基礎設施故障的發生;同時進一步加強同IDC運營商之間的資訊溝通效率,確保第一時間瞭解任何異常情況;
  5. 容災保護能力提升。將實現關鍵業務的容災能力作為長期努力的目標,通過連線各個區的環網的建設和運營等手段實現更好的容災能力。

綜上,我們會全面稽核故障處理流程,以應對機房斷電等最極端的事故為標準進一步提升QingCloud系統的可用性,讓資訊傳遞更加及時和透明,通過自動化手段提高切換和業務恢復速度,讓曾經發生的故障成為我們不斷進步的和提高服務能力的源泉。

青雲QingCloud

附 《關於20150606XX機房故障說明-青雲》

qingcloud_20150606

qingcloud_20150606_2

qingcloud_20150606_3 qingcloud_20150606_04