riad5陣列崩潰,恢復數據過程
阿新 • • 發佈:2018-06-13
大小 smart 工程師 發現 收集 客戶 日誌 system 進行
我們的硬件工程師先對客戶的27塊硬盤做了硬件檢測,發現客戶的2塊硬盤出現壞道、SMART的錯誤冗余級別已經超過閥值,對25塊正常的硬盤進行全盤鏡像,對2塊有壞道的硬盤用硬件工具進行了恢復並生成鏡像文件。
故障分析:
首先收集IBM DS5300存儲日誌信息。從存儲上硬盤的指示燈看到有兩塊盤亮黃燈,對收集到的日誌信息進行分析,分析兩塊硬盤的掉線時間,從而知道那塊硬盤裏面的數據是最新,用數據最新的硬盤進行數據恢復。
解決方案:
方案一:通過IBM DS存儲管理軟件進行強制上線,在強制上線之前把存儲的所有硬盤都進行備份,之後進行強制上線。
方案二:通過對硬盤底層數據分析,進行RAID重組,從底層提取數據,重新加載oracle數據庫,調試上層應用。
實施方案:
已經把存儲的所有硬盤都進行過備份,出現問題也可以進行還原,所以先采用第一種解決方案,先在模擬器上進行測試,之後再存儲上進行上線操作。
通過IBM DS存儲管理軟件進行強制上線,強制上線之後raid處於降級狀態,這個時候設置好熱備盤,讓熱備盤頂上,進行數據同步,同步完之後上層的卷直接可以用了,所有數據也都可見了,上層應用也能正常使用。
節省了很多時間,上層應用也不需要在調試,可以直接啟動。
數據恢復成功:
由於上層的卷直接可以用了,所以數據也都可見了,但是考慮到安全問題,我們還是將卷裏的文件都拷貝出來,然後移交給客戶。終於在用戶要求的時間內將數據恢復完成。整個恢復過程一共歷時2天。之所以能這麽快恢復,還是在於我們之前研究過IBM DS5300的存儲原理。知道了IBM DS5300的存儲原理以後,關於它的所有數據災難都可以進行恢復。
IBM DS5300全名(IBM System Storage DS5300)是IBM推出的中端存儲系統,它有一個設計合理、功能強大的內部架構,大幅度提升了性能,但某些物理故障或其他操作都可能會對卷或存儲造成破壞,因此對系列存儲的數據恢復技術才有了用武之地。而發生這些故障之後只能找專業的數據恢復公司做數據挽救工作。作者最近就處理過一起IBM DS5300因磁盤故障導致存儲不可用的案例,見下文。
故障描述:
某公安局的一臺IBM DS5300的存儲,一個機頭,連接的4個擴展櫃,底層是50塊600GB的硬盤組的RAID。兩組RAID5,其中一組RAID崩潰,這組RAID由27塊600G硬盤組成,存放是Oracle 數據庫文件,在存儲系統上層一共分了11個卷,卷大小為1TB有10個,一個為4TB。後來因磁盤故障導致存儲不可用,已經過保,聯系我們做數據恢復。
硬件檢測:
我們的硬件工程師先對客戶的27塊硬盤做了硬件檢測,發現客戶的2塊硬盤出現壞道、SMART的錯誤冗余級別已經超過閥值,對25塊正常的硬盤進行全盤鏡像,對2塊有壞道的硬盤用硬件工具進行了恢復並生成鏡像文件。
故障分析:
首先收集IBM DS5300存儲日誌信息。從存儲上硬盤的指示燈看到有兩塊盤亮黃燈,對收集到的日誌信息進行分析,分析兩塊硬盤的掉線時間,從而知道那塊硬盤裏面的數據是最新,用數據最新的硬盤進行數據恢復。
解決方案:
方案一:通過IBM DS存儲管理軟件進行強制上線,在強制上線之前把存儲的所有硬盤都進行備份,之後進行強制上線。
方案二:通過對硬盤底層數據分析,進行RAID重組,從底層提取數據,重新加載oracle數據庫,調試上層應用。
實施方案:
已經把存儲的所有硬盤都進行過備份,出現問題也可以進行還原,所以先采用第一種解決方案,先在模擬器上進行測試,之後再存儲上進行上線操作。
通過IBM DS存儲管理軟件進行強制上線,強制上線之後raid處於降級狀態,這個時候設置好熱備盤,讓熱備盤頂上,進行數據同步,同步完之後上層的卷直接可以用了,所有數據也都可見了,上層應用也能正常使用。
節省了很多時間,上層應用也不需要在調試,可以直接啟動。
數據恢復成功:
由於上層的卷直接可以用了,所以數據也都可見了,但是考慮到安全問題,我們還是將卷裏的文件都拷貝出來,然後移交給客戶。終於在用戶要求的時間內將數據恢復完成。整個恢復過程一共歷時2天。之所以能這麽快恢復,還是在於我們之前研究過IBM DS5300的存儲原理。知道了IBM DS5300的存儲原理以後,關於它的所有數據災難都可以進行恢復。
riad5陣列崩潰,恢復數據過程