澳大利亞稅務局(ATO)的儲存宕機報告出爐,但真相還是不了了之
Register的記者Simon Sharwood前兩天說澳大利亞稅務局(ATO)關於HPE 3PAR儲存的兩次宕機事件分析報告出來了。這估計是該記者最後一次報道這事了吧。
原來他前前後後寫過好幾篇文章追蹤報導,說一直要追蹤到調查報告出爐。
關於這事,HPE發言人也給記者發了一個官方的解釋:
現在,這個調查報告終於出來了,發表在ATO的官網上,連結如下:
https://www.ato.gov.au/uploadedFiles/Content/CR/downloads/js39322_ATO-systems-report_w.pdf
大家也可以點選文後的<閱讀原文>連結直接開啟。
這份報告一共22頁,還是有一些詳細的資訊。
比如,大家仔細看備註,發現HPE 3PAR的裝置型號居然是高階全快閃記憶體陣列3PAR 20850,HPE推薦用這個當時(2015年)這個最新的型號來替換EMC的儲存。兩次出事的居然是高階儲存,而且還是全閃。
但出事的原因,好像交代得不太清楚,最少說了下面幾點吧:
1、SAN光纖問題。應該是3par 20850後面的磁碟框的SAS光纜有問題。第一和第二次都是由於光纖的問題觸發的故障。至於為什麼光纖會造成故障,報告也沒有講得太清楚。
2、硬碟的韌體問題。可惜報告沒有點名是那個廠商的硬碟。由於3par 20850是AFA,因此肯定是SSD盤。我知道三星應該是3par的SSD供貨商之一,不知道這個是否是三星的SSD。韌體的bug造成3par陣列不能復位SSD,這個原因裡面提了。
當然,裡面還提到了監控沒有搞配好,導致故障前的警告沒有第一時間自動回傳給HPE。另外,這是一個turn key的專案,外包給了HPE,使用者自己關注不夠,而且可靠性設計不夠好,更關注效能和成本了。比如備份的配置也放在同一個陣列,造成陣列故障的時候,備份也不能用。
(怎麼感覺有點想西安地鐵壞電纜的事件似的,看來HPE有低價中標的嫌疑)
但是,我看其一共用了兩臺3par的陣列,一個在悉尼資料中心,一個在悉尼西資料中心,採用非同步複製的技術。雖然不能自動切換,但是一個數據中心故障後應該可以手工切換到另外一箇中心才對啊?報告說沒有進行過切換的演練,但是好像也沒有做切換嘗試,可能怕資料不完全一致吧?因為畢竟是非同步複製(估計距離太遠)。
文章最後說,要繼續加強可靠性設計。今年年底要改成下圖的陣列形態。
看來客戶還是覺得HP XP7(OEM自HDS)要更可靠性些,因此,打算上兩套XP7做生產儲存,分佈放在兩個資料中心,做非同步複製。原來的3par儲存作為開發測試環境使用,也做非同步複製。但同一個資料中心內,XP7和3PAR做同步複製。
大家可能奇怪,XP7和3par是不同的平臺,怎麼能做同步複製?剛開始我也沒有想明白,後來我像通了,應該是利好了HP XP7的異構虛擬化功能,把3par接管過去,採用卷映象的方式來實現異構的同步複製。
另外,ATO已經把WEB伺服器遷移到公有云上了,因為他們覺得公有云更安全一些。以後估計更多的應用會遷移到公有云。
據說現在3par的儲存已經全部更換了,老的儲存HPE 3PAR要拿回去再分析。也許有新的故障診斷髮現也不一定。但我估計ATO的事件真相可能永遠都不會大白於天下,但也無所謂,這份22頁的報告還是看出ATO的一些改進的措施,其他使用者如果關注關注儲存的可靠性問題,也是可以仔細閱讀,也許會有一些啟發。
其實,上一套陣列雙活加異地複製的兩地三中心方案就比較理想了,這些故障也許都能避免。
原文來自微信公眾號:高階儲存知識