1. 程式人生 > >EMC CX4-480資料恢復案例

EMC CX4-480資料恢復案例

E​M​C​ ​C​X​4​-​4​8​0資料恢復案例

 EMC做為儲存界的領軍品牌,其儲存產品可謂是人盡皆知啊!並且EMC自己的儲存系統以及它自己的硬體在儲存領域中都是領先的。但這還是不能百分之百保證使用者資料的絕對安全,因為使用者的誤操作以及硬體的老化都會導致使用者重要的資料丟失。而發生這些故障之後只能找專業的資料恢復公司做資料挽救工作。作者最近就處理過一起EMC CX4-480因磁碟故障導致儲存不可用的案例,見下文。

         一位上海的客戶描述說他們有一臺EMC CX4的儲存伺服器,因為硬碟出現故障,導致整個儲存陣列癱瘓。整個LUN是由7塊1TB的硬碟組成的RAID 5。由於客戶是在上海,並且不方便將伺服器郵寄過來,只好電話指導客戶將儲存伺服器正常關機,並取出硬碟做好標記。然後將所有硬碟打包好,郵件到北京進行資料恢復。在接到客戶郵寄過來的包裹後發現,客戶寄過來的是10塊1T的硬碟。當時很驚訝!不是說是7塊盤麼?怎麼多了3塊。在打電話仔細問過客戶後得知,其中有3塊是以前儲存中掉線的硬碟。好吧!估計是以前儲存中有硬碟掉線了,但客戶只是添加了一塊的新的硬碟做rebuild,並沒有將掉線的硬碟拔掉,所以就多出了3塊。因客戶說是儲存伺服器中有些硬碟有故障才導致儲存伺服器不可用的,所以初步判斷是RAID中有硬碟掉線了。將所有硬碟交給硬體工程師檢測硬碟是否有硬體故障。在檢測完成後發現並沒有物理故障,那麼可能就是硬碟上有邏輯壞道或其他原因導致RAID不可用了 。接著對所有硬碟做全盤映象,以保證客戶現有資料的安全。對所有盤做映象可是真一個很漫長的時間啊!

做完映象後開始分析RAID的結構,可是當我用winhex開啟映象盤的時候,我驚呆了!因為EMC的硬碟每512位元組多加了一個8位元組的校驗,也就是變成了每扇區520位元組了。這樣雖然可以分析RAID的結構,但是重組RAID就現的費勁了!為了提高工作效率,我決定還是寫個小程式將8位元組的校驗去掉吧!這樣後期的工作也方便了許多。就這樣碼程式碼中......

         經過漫長的寫碼加除錯,終於OK了。那麼開始一個磁碟一個磁碟的轉換吧!哦買噶....這又是一個很耗時的工程。慢慢等吧!

         等所有磁碟都轉換完成後,就開始分析RAID的結構了。由於多了3塊以前的舊盤,需要先找出這三塊舊盤。這個比較好辦,可以比較一下每塊磁碟,其中會有兩塊磁碟前面的一部分相同,而這兩塊當中會有一個是舊的,舊的資料量應該沒有新的多,就可以排除舊的磁碟了。這樣的磁碟會有3對,也就可以排除所有舊的磁碟了。接下來看RAID結構,由於客戶用的NTFS檔案系統,用MFT很容易就可以找到RAID的結構了。知道RAID結構後發現這不是一個普通的RAID 5,而是一個雙迴圈。用winhex還沒法重組RAID。最後找了半天發現,UFS可以重組RAID。那麼就先用它重組RAID看看是什麼情況吧!重組RAID後發現數據不是最新的。我想可能是RAID 5先掉線一塊硬碟,而管理員沒有及時發現,沒有及時新增新的硬碟做rebuild。導致執行一段時間後又有一塊硬碟掉線了,才造成整個RAID不可用。所以還需要找出一塊舊的磁碟,才能生成最新的資料。那就找唄!但是怎麼找呢?只能嘗試依次踢掉一塊硬碟,然後重組RAID。看最新的資料是否可用。直到找到最新的資料可用為止,接著就可以匯出資料,驗證資料了。

         整個恢復過程,包括做映象,扇區轉換和最後的拷貝資料,一共耗時5天。資料恢復率達百分之九十九以上。雖然整個過程比較漫長,但是最終的結果使用者很高興,因為這給他們帶來了不必要的損失。

作者:鄧奇 (北亞伺服器資料恢復工程師)

郵箱:[email protected]

聯絡方式:010-4006505808-801