1. 程式人生 > >EMC CX4-480伺服器硬碟掉線資料恢復案例

EMC CX4-480伺服器硬碟掉線資料恢復案例

【使用者資訊】上海某公司

【故障描述】需要進行資料恢復的裝置是一臺EMC CX4的儲存伺服器,因為硬碟出現故障導致整個儲存陣列癱瘓。整個LUN是由7塊1TB的硬碟組成的RAID 5。但伺服器共有10塊硬碟,其中有3塊是以前儲存中掉線的硬碟。(伺服器儲存在使用過程中有硬碟掉線了,但客戶只是添加了一塊的新的硬碟做rebuild,並沒有將掉線的硬碟拔掉,所以就多出了3塊)。

伺服器資料恢復故障描述

因客戶說是儲存伺服器中有些硬碟有故障才導致儲存伺服器不可用的,所以初步判斷是RAID中有硬碟掉線了。將所有硬碟交給硬體工程師檢測硬碟是否有硬體故障。在檢測完成後發現並沒有物理故障,那麼可能就是硬碟上有邏輯壞道或其他原因導致RAID不可用了 。接著對所有硬碟做全盤映象,以保證客戶現有資料的安全。

【恢復過程】做完映象後開始分析RAID的結構,開啟映象盤的後發現硬碟每512位元組多加了一個8位元組的校驗,也就是變成了每扇區520位元組了。這樣雖然可以分析RAID的結構,但是重組RAID就會十分吃力!為了提高工作效率,我們需要寫個小程式將8位元組的校驗去掉來方便後期的工作。
等所有磁碟都轉換完成後,就開始分析RAID的結構了。由於多了3塊以前的舊盤,需要通過比較每塊磁碟,即其中會有兩塊磁碟前面的一部分相同,而這兩塊當中會有一個是舊的,舊的資料量沒有新盤多,就可以排除舊的磁碟。這樣的磁碟會有3對,也就可以排除所有舊的磁碟了。

接下來看RAID結構,由於客戶用的NTFS檔案系統,用MFT很容易就可以找到RAID的結構了。知道RAID結構後發現這不是一個普通的RAID 5,而是一個雙迴圈。用winhex還沒法重組RAID。最後發現,UFS可以重組RAID。那麼就先用它重組RAID!重組RAID後發現數據不是最新的。我想可能是RAID 5先掉線一塊硬碟,而管理員沒有及時發現,沒有及時新增新的硬碟做rebuild。導致執行一段時間後又有一塊硬碟掉線了,才造成整個RAID不可用。所以還需要找出一塊舊的磁碟,才能生成最新的資料。繼續進行找盤的工作!但是怎麼找呢?我們嘗試依次踢掉一塊硬碟,然後重組RAID。看最新的資料是否可用。直到找到最新的資料可用為止,接著就可以匯出資料,驗證資料了。

【恢復結果】整個恢復過程,包括做映象,扇區轉換和最後的拷貝資料,一共耗時5天。資料恢復率達百分之九十九以上。雖然整個過程比較漫長,但是最終的結果使用者很高興,因為這給他們帶來了不必要的損失。
作者:北亞伺服器資料恢復技術團隊