1. 程式人生 > >Azure中國的故障也不少啊……

Azure中國的故障也不少啊……

3月1日:RCA – Storage Latency Issue on China East

事件總結:北京時間2017年3月1日03:00到21:45,部分客戶在訪問其位於中國東部的儲存資源時可能遇到了延遲變高或者訪問超時的問題。

問題原因:Azure內部的一系列資料操作意外觸發了大量儲存訪問請求,這些請求在儲存服務的前端快速積累並形成嚴重的資源爭用,導致來自客戶的資料訪問請求難以被及時處理從而出現了明顯的延遲增高。

Azure運維團隊對引起資源爭用的請求採取了隔離措施併成功恢復了服務。

根本原因及解決辦法:Azure儲存服務是一個多租戶環境,通過流量隔離來優化資源分配。

在此次事件中,受影響的儲存縮放單元對一類特定的訪問流量的隔離優化不夠完善,導致在前端伺服器上出現了過度資源爭用,最終耗盡了工作執行緒並導致訪問延遲增高。

下一步舉措:我們對由此給您帶來的影響表示誠摯的歉意。我們正在採取措施來優化Microsoft Azure平臺和運維流程,以幫助避免此類問題再次發生。

對於本次事件(包括但不限於):Azure工程團隊對導致問題的流量模式進行了深入檢視並改進了流量隔離機制;優化儲存快取設計來降低資源爭用的發生。

3月2日:App Service \ Web Apps – China North

事件總結:自北京時間2017年3月2日08:55(大概時間)至 20:14,中國北部App Service \ Web Apps的部分客戶在嘗試執行管理操作(如建立,更新,刪除,釋出)時可能會收到錯誤通知。

初步調查結果:工程師確定最近的一次部署可能是導致此次問題的根本原因。

解決辦法:工程師撤銷了最近的部署任務,問題得到解決。

下一步:工程師將審查部署程式,以防止問題再次發生。

3月17日:Stream Analytics – China East

事件總結:從北京時間2017年3月17日4:43到9:45,在中國東部使用Stream Analytics的部分客戶在啟動streaming jobs時可能會收到錯誤通知,但是服務管理操作,例如Streaming Jobs的建立,更新和刪除操作都可以正常執行。此區域已經存在的streaming jobs也可能受到影響。

初步調查結果:該問題是由近期的一個部署任務導致的。

解決辦法:工程師快速修復了故障並且重新啟動了所有受此次影響而停止執行的streaming jobs。

下一步舉措:工程師將審查部署程式,以防止問題再次發生。

3月21日:Root Cause Analysis – Virtual Machines – China East

事件總結:北京時間2017年3月21日8:00到14:50,部分客戶在中國東部嘗試建立新虛擬機器或者啟動處於”已停止 (已取消分配) “狀態的虛擬機器時可能會收到錯誤資訊。

原因是中國東部的兩個擴充套件單元達到了一個操作閾值從而導致資源分配受到了臨時性限制。工程師通過優化操作閾值設定來改進資源分配和利用效率從而解決了此問題。

客戶影響:客戶可能在執行以下操作時收到錯誤資訊:

  1. 建立新的或者啟動”已停止 (已取消分配) “狀態的非空可用性集裡的資源管理型虛擬機器。
  2. 建立新的或者啟動”已停止 (已取消分配) “狀態的非空雲服務或地緣組裡的經典模式虛擬機器。

根本原因及解決辦法:此次故障的根本原因是中國東部的兩個擴充套件單元達到了一個操作安全閾值,系統自動凍結了部分管理操作以保證擴充套件單元上的其他運算任務安全執行。

下一步舉措:我們誠摯的向所有被本次故障影響到的客戶表示歉意。我們正在不斷採取措施來優化Microsoft Azure平臺及運維流程,力爭避免將來該問題再次發生。

對於本次事件(包括但不限於):預留足夠的緩衝資源以確保系統在操作閾值安全範圍之內平穩執行。

4月6日:Power BI Embedded – China East

事件總結:從北京時間2017年4月6日04:07至2017年4月6日19:16,部分使用者在使用中國東部的Power BI 的資源時可能會收到連線錯誤的通知。

初步調查結果:工程師發現一個錯誤的配置導致了請求無法完成。

解決辦法:工程師修復了錯誤配置,解決了此問題。

下一步舉措:工程師將持續調查該問題的根本原因,以防止該問題再次出現。

4月7日:RCA – Storage, Virtual Machines, SQL Database, Azure Active Directory – China East and China North

事件總結:北京時間2017年4月5日20:00到2017年4月10日15:18,部分客戶在連線或者管理中國東部和中國北部的儲存服務、虛擬機器、HDInsight服務、Azure活動目錄並需要部署虛擬機器或虛擬磁碟時可能遇到問題。到儲存資源的現存連線沒有受到影響。在北京時間2017年4月6日16:00到2017年4月7日18:54,非常有限的一小部分客戶在使用中國北部和中國東部的SQL資料庫時可能遇到了無法訪問資料庫服務的問題。新建連線到現存資料庫時可能會遇到錯誤資訊或者連線超時,現存的連線可能被意外中止。

根本原因:中國地區的Azure儲存服務和Azure管理門戶使用安全傳輸層協議(TLS)證書來實現資料加密傳輸。TLS證書是由第三方證書頒發機構頒發的,該機構的眾多客戶(包括Azure服務)通過另一個外部機構頒發的交叉認證來構建證書信任鏈。在北京時間2017年4月5日,這個外部機構吊銷了交叉認證證書。這個錯誤的行為影響了Azure儲存服務、管理門戶以及其它依賴此交叉認證的服務。

對於Azure客戶來講,影響分為直接影響和間接影響兩類:

  1. 部分Azure儲存的客戶由於TLS證書的問題導致儲存服務不受信任而無法連線到儲存服務;
  2. Azure內部依賴於儲存的其它服務由於同樣的原因無法正常工作。這導致虛擬機器,HDInsight,SQL資料庫和活動目錄管理服務無法響應客戶請求,從而導致使用這些服務的客戶也遇到錯誤。在北京時間2017年4月7日 02:14,上述外部機構恢復了吊銷的交叉認證證書。由於公共金鑰基礎設施(PKI)系統涉及到多層快取,因此需要額外時間來分發並應用更新過的證書吊銷列表。至4月7日11:59,絕大部分客戶的問題得到恢復,但是由於PKI多層快取機制,直到北京時間2017年4月10日15:18所有服務才完全恢復。此類(證書頒發機構誤操作)事件異常罕見,大部分的應急緩解措施經由手動完成,這延誤了服務恢復過程。

下一步舉措:我們誠摯的向所有被本次故障影響到的客戶表示歉意。我們正在不斷採取措施來優化Microsoft Azure平臺及運維流程,力爭避免將來該問題再次發生,

對於本次事件(包括但不限於):

  1. 我們正在與多家證書頒發機構合作來降低單一證書頒發機構發生問題對Azure服務造成影響的可能性
  2. 開發自動化工具對Azure伺服器上的PKI快取進行清理,加快服務恢復程序。

4月11日:Azure IoT Suite – China East and China North

從北京時間2017年4月8日15:15至2017年4月11日10:00,客戶在使用Azure IoT套件時可能會無法建立新的解決方案。作為臨時解決方案,工程師推薦使用者使用來自https://aka.ms/rms_git的程式碼進行部署。已存在的資源不受影響。

初步調查結果:工程師診斷初始原因是由於最近的後臺系統改動引起。

解決辦法:工程師在平臺上部署了修復補丁解決了此問題。

下一步舉措:工程師將繼續深入調查事件的根本原因,以防止該問題再次出現。

4月12日:Management Portal – China

事件總結:從北京時間2017年4月8日22:33至2017年4月12日04:45,部分客戶在訪問中國的Azure經典管理門戶(https://manage.windowsazure.cn)檢視已建立的虛擬機器自定義映象時可能會間歇性的遇到問題,新建映象可被正常訪問。作為臨時解決方案,遇到上述問題的自定義映象可以在新的Azure管理門戶檢視到(https://portal.azure.cn/),也可以使用PowerShell進行部署。

初步調查結果:工程師檢測到一個配置變化可能是導致該問題的根本原因。

解決辦法:工程師針對該問題進行了一個配置更新來解決這一問題。

下一步舉措:工程師將持續深入調查該事件的根本原因,以防止該問題再次出現。