1. 程式人生 > >服務器兩塊硬盤離線能否強制上線恢復

服務器兩塊硬盤離線能否強制上線恢復

處理 恢復 工具 磁盤陣列數據恢復 一定的 redhat 破壞 管理員 無法自動

磁盤陣列兩塊硬盤離線數據恢復案例一:

客戶的一臺服務器因為未知的原因導致一塊硬盤紅燈閃亮,不過服務器還在正常運行,管理員未做處理,隨後該服務器內的另一塊硬盤出現同樣的報警提示,服務器崩潰。數據恢復工程師對該磁盤陣列數據恢復過程如下(下列操作有風險,請備份後再操作):
1.將服務器啟動,服務器自檢時手動進入管理程序查看raid磁盤陣列情況,發現硬盤的狀態為Failel,手動將其中一塊離線硬盤重新設置為online狀態後嘗試重啟服務器但重啟失敗。
2.將該硬盤重新Fail掉,重復上次的操作步驟將另一塊硬盤上線,啟動服務器,服務器啟動成功。
3.檢查系統和服務器內的數據庫數據運行是否正常,然後用陣列配置工具把Failed後的盤手動rebuild,待rebuild完成後服務器及raid磁盤陣列系統就恢復原狀了。

磁盤陣列兩塊硬盤離線數據恢復案例二:

本案例中需要進行數據恢復的服務器為某品牌的 2850型號。服務器內有一組6塊硬盤的raid5磁盤陣列,陣列內的硬盤為SCSI硬盤,單盤容量為300G,服務器操作系統為linux Redhat4;文件系統為ext3文件系統。服務器在正常使用過程中由於未知原因有兩塊硬盤離線,管理員使用了案例一中提到的方法對其中一塊硬盤進行強制上線操作。但經過嘗試發現服務器的操作系統啟動異常,無法通過強制上線方式恢復數據,於是聯系到北亞數據恢復中心進行專業服務器數據恢復操作。
數據恢復工程師對客戶服務器進行扇區級別的完整備份,在備份過程中發現該服務器內的一塊並未離線的硬盤居然存在大量壞道,可能由於服務器尚未讀到硬盤的壞道部分,因此尚未離線。

備份工作完成後對raid陣列結構分析並重組raid環境驗證raid結構,通過人工的方式對被破壞的結構進行修正並存檔。最後將修正和存檔的數據嵌入一臺正常的服務器陣列上即可進行數據驗證。
在服務器數據恢復工作中我們遇到了大量的raid5磁盤陣列兩塊硬盤同時離線的故障。其實raid5陣列是支持一塊硬盤離線時的冗余保護的,一組raid5陣列在一塊硬盤離線時是不會導致服務器癱瘓的,但如果是兩塊甚至多塊硬盤處於離線狀態時服務器便處於癱瘓狀態並且無法自動上線。由於raid控制器具有一定的敏感性,多數硬盤掉線僅僅是因為電源波動、控制器bug等隨機原因導致,所以掉線盤可能沒有嚴重的物理故障。本案例就是如此。但是此時管理員進行強制上線操作風險性是很大的,一旦上線錯誤就會導致控制器對數據產生一些不可逆的損壞,當管理員進入操作系統後因為文件系統不一致進行修復,服務器中所有硬盤數據不一致,數據恢復難度非常大。

服務器兩塊硬盤離線能否強制上線恢復