【長文+圖片】HP FC MSA2000服務器癱瘓數據恢復過程

阿新 • • 發佈：2018-07-04

掉線成功 io操作鏡像執行穩定壞道 raid roc

服務器數據恢復故障描述

某公司的一臺HP FC MSA2000服務器，服務器中搭建RAID5陣列，服務器正常使用過程中出現2塊硬盤損壞並離線，而此時只有一塊熱備盤成功激活，因此導致RAID5陣列癱瘓，上層LUN無法正常使用，用戶聯系數據恢復中心進行服務器數據恢復。
由於服務器存儲是因為RAID陣列中某些磁盤掉線，從而導致整個存儲不可用。因此接收到磁盤以後先對所有磁盤做物理檢測，檢測完後發現沒有物理故障。接著使用壞道檢測工具檢測磁盤壞道，發現也沒有壞道。

服務器數據恢復過程：

1、備份服務器數據
考慮到數據的安全性以及可還原性，在做數據恢復之前需要對所有源數據做備份，以防萬一其他原因導致數據無法再次恢復。使用dd命令或winhex工具將所有磁盤都鏡像成文件。備份完部分數據如下圖：

圖一：

2、分析服務器故障原因
由於前兩個步驟並沒有檢測到磁盤有物理故障或者是壞道，由此推斷可能是由於某些磁盤讀寫不穩定導致故障發生。因為HP MSA2000控制器檢查磁盤的策略很嚴格，一旦某些磁盤性能不穩定，HP MSA2000控制器就認為是壞盤，就將認為是壞盤的磁盤踢出RAID組。而一旦RAID組中掉線的盤到達到RAID級別允許掉盤的極限，那麽這個RAID組將變的不可用，上層基於RAID組的LUN也將變的不可用。目前初步了解的情況為基於RAID組的LUN有6個，均分配給HP-Unix小機使用，上層做的LVM邏輯卷，重要數據為Oracle數據庫及OA服務端。
3、分析服務器RAID組結構
HP MSA2000存儲的LUN都是基於RAID組的，因此需要先分析底層RAID組的信息，然後根據分析的信息重構原始的RAID組。分析每一塊數據盤，發現4號盤的數據同其它數據盤不太一樣，初步認為可能是hot Spare盤。接著分析其他數據盤，分析Oracle數據庫頁在每個磁盤中分布的情況，並根據數據分布的情況得出RAID組的條帶大小，磁盤順序及數據走向等RAID組的重要信息。

4、分析RAID組掉線盤
根據上述分析的RAID信息，嘗試通過北亞自主開發的RAID虛擬程序將原始的RAID組虛擬出來。但由於整個RAID組中一共掉線兩塊盤，因此需要分析這兩塊硬盤掉線的順序。仔細分析每一塊硬盤中的數據，發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣，因此初步判斷此硬盤可能是最先掉線的，通過北亞自主開發的RAID校驗程序對這個條帶做校驗，發現除掉剛才分析的那塊硬盤得出的數據是最好的，因此可以明確最先掉線的硬盤了。
5、分析RAID組中的LUN信息
由於LUN是基於RAID組的，因此需要根據上述分析的信息將RAID組最新的狀態虛擬出來。然後分析LUN在RAID組中的分配情況，以及LUN分配的數據塊MAP。由於底層有6個LUN，因此只需要將每一個LUN的數據塊分布MAP提取出來。然後針對這些信息編寫相應的程序，對所有LUN的數據MAP做解析，然後根據數據MAP並導出所有LUN的數據。

圖二：

6、解析LVM邏輯卷
分析生成出來的所有LUN，發現所有LUN中均包含HP-Unix的LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息，發現其中一共有三套LVM，其中45G的LVM中劃分了一個LV，裏面存放OA服務器端的數據，190G的LVM中劃分了一個LV，裏面存放臨時備份數據。剩余4個LUN組成一個2.1T左右的LVM，也只劃分了一個LV，裏面存放Oracle數據庫文件。編寫解釋LVM的程序，嘗試將每套LVM中的LV卷都解釋出來，但發現解釋程序出錯。
7、修復LVM邏輯卷
仔細分析程序報錯的原因，安排開發工程師debug程序出錯的位置，並同時安排高級文件系統工程師對恢復的LUN做檢測，檢測LVM信息是否會因存儲癱瘓導致LMV邏輯卷的信息損壞。經過仔細檢測，發現確實因為存儲癱瘓導致LVM信息損壞。嘗試人工對損壞的區域進行修復，並同步修改程序，重新解析LVM邏輯卷。
8、解析VXFS文件系統
搭建HP-Unix環境，將解釋出來的LV卷映射到HP-Unix，並嘗試Mount文件系統。結果Mount文件系統出錯，嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統，但修復結果還是不能掛載，懷疑底層vxfs文件系統的部分元數據可能破壞，需要進行手工修復。
9、修復VXFS文件系統
仔細分析解析出來的LV，並根據VXFS文件系統的底層結構校驗此文件系統是否完整。分析發現底層VXFS文件系統果然有問題，原來當時存儲癱瘓的同時此文件在系統正在執行IO操作，因此導致部分文件系統元文件沒有更新以及損壞。人工對這些損壞的元文件進行手工修復，保證VXFS文件系統能夠正常解析。再次將修復好的LV卷掛載到HP-Unix小機上，嘗試Mount文件系統，文件系統沒有報錯，成功掛載。
10、恢復所有用戶文件
在HP-Unix機器上mount文件系統後，將所有用戶數據均備份至指定磁盤空間。所有用戶數據大小在1.2TB左右。部分文件目錄截圖如下：
圖三：技術分享圖片

11、檢測數據庫文件是否完整
使用Oracle數據庫文件檢測工具“dbv”檢測每個數據庫文件是否完整，發現並沒有錯誤。再使用北亞自主研發的Oracle數據庫檢測工具（檢驗更嚴格），發現有部分數據庫文件和日誌文件校驗不一致，安排高級數據庫工程師對此類文件進行修復，並在次校驗，直到所有文件校驗均完全通過。
12、啟動Oracle數據庫
由於我們提供的HP-Unix環境沒有此版本的Oracle數據，因此和用戶協調將原始生成環境帶至數據恢復中心，然後將恢復的Oracle數據庫附加到原始生產環境的HP-Unix服務器中，嘗試啟動Oracle數據庫，Oracle數據庫啟動成功。部分截圖如下：
圖四：技術分享圖片

13、服務器數據驗證
由用戶方配合，啟動Oracle數據庫，啟動OA服務端，在本地筆記本安裝OA客戶端。通過OA客戶端對最新的數據記錄以及歷史數據記錄進行驗證，並且有用戶安排遠程不同部門人員進行遠程驗證。最終數據驗證無誤，數據完整，數據恢復成功。
由於故障發生後保存現場環境良好，沒用做相關危險的操作，對後期的數據恢復有很大的幫助。整個數據恢復過程中雖然遇到好多技術瓶頸，但也都一一解決。最終在預期的時間內完成整個服務器數據恢復，恢復的數據用戶方也相當滿意，Oracle數據庫服務，OA服務端等所有服務能夠正常啟動。

【長文+圖片】HP FC MSA2000服務器癱瘓數據恢復過程

掉線成功 io操作鏡像執行穩定壞道 raid roc 服務器數據恢復故障描述某公司的一臺HP FC MSA2000服務器，服務器中搭建RAID5陣列，服務器正常使用過程中出現2塊硬盤損壞並離線，而此時只有一塊熱備盤成功激活，因此導致RAID5陣列癱瘓，上層LUN

HP FC MSA2000服務器raid數據恢復成功案例

日誌文件剛才 pro img 研發 2tb log tex 正在執行一、服務器數據恢復案例背景： HP FC MSA2000服務器空間由8塊450GB SAS硬盤組成raid5磁盤陣列，一塊熱備盤。服務器在使用中先後有兩塊硬盤離線，導致服務器癱瘓，lun無法正常使用。服

服務器Raid數據恢復成功案例和raid 5數據恢復算法原理

服務器數據恢復 raid數據恢復磁盤陣列數據恢復北亞數據恢復中心服務器Raid 5數據恢復案例本次分享的案例是一臺服務器中的raid磁盤陣列，磁盤陣列中有12塊磁盤，單盤容量500G，ext3文件系統，系統平臺為Linux平臺。Raid中2號盤和6號盤兩塊硬盤報黃燈，管理人員檢查後對6號

轉：【實用教程】阿裏雲服務器的配置和使用

-a 文件 4.4 創建 site 租用服務器網頁 html F12 【實用教程】阿裏雲服務器的配置和使用隨著網絡應用的日常化，網絡資源的使用已經不是專業人士或機構的專利。通過簡單的學習，每個人都可以在無需硬件的情況下擁有一個甚至多個服務器，並配置屬於自己的網頁

【學習記錄】CentOS建立Git服務器

font cat 添加 gen bsp microsoft 一行 highlight 登錄 0.所有代碼沒有特別說明都是在root權限下執行，其他用戶權限執行失敗時候，切換root用戶或者添加sudo前綴。 1.安裝git，並創建git用戶 yum install g

【小程序】搭建本地https服務器(windows)

inf link title windows logs ews 事業部巴巴 SM （一）用json-server搭建簡單的服務器（搭建出來的服務器地址為localhonst:3000） 1.新建Mockjson文件夾，進入該文件夾目錄，運行命令

【產品介紹】“彈性裸金屬服務器”到底有那些特性？

架構摘要：彈性裸金屬服務器的八大特性，總結相關特性。那麽阿裏雲彈性裸金屬服務器（神龍）的表現呢在這裏我們定義的“彈性裸金屬服務器”是一個“新物種”，它強調的是“彈性”，也就是通過技術創新，使得傳統裸金屬服務能夠做到和虛擬機一致的使用體驗和業務敏捷。所以，“彈性裸金屬服務器”應該具備如下八個關鍵特征：? 特征

【產品場景】彈性裸金屬服務器服務於市場的技術概要分析

性能摘要：彈性裸金屬服務器服務於市場的技術概要分析混合雲和第三方虛擬化軟件部署伴隨著公有雲的高速發展，混合雲打通客戶線下專有雲和線上公有雲資源的需求日趨強烈。Open stack和VMware等IaaS stack在公有雲部署，同時管理客戶線上和線下IaaS資源。可以看到，VMware cloud on A

【WorkShare-181102】阿裏雲服務器上無法發送郵件的現象原因及解決

ali 進行 tex 發送 watermark ffffff shadow 出現審核 1、阿裏雲服務器上無法發送郵件的現象 2、原因及解決阿裏雲對ECS服務器的25號端口出現進行了封鎖；如果希望發送郵件，需要申請解封，地址是：https://yundun.consol

【ADO.NET】3、從TXT中導入數據到數據庫

split src 分割 img oid data 返回 ring sage private void btnInput_Click(object sender, EventArgs e) { if (opFile.ShowDialog() != DialogR

【Android基礎】利用Intent在Activity之間傳遞數據

一次 there center ack and block for success display 前言：上一篇文章給大家聊了Intent的使用方法。怎樣用Intent啟動Activity和隱式Intent。這一篇文章給大家聊聊怎樣利用Intent在Activit

【第二篇】ASP.NET MVC快速入門之數據註解（MVC5+EF6）

red 數據庫結構 varchar model 菜單錯誤提示 edi 還需問題目錄【第一篇】ASP.NET MVC快速入門之數據庫操作（MVC5+EF6）【第二篇】ASP.NET MVC快速入門之數據註解（MVC5+EF6）【第三篇】ASP.NET MVC快速入

【隨記】SQL備份一張表的數據

create 數據備份無需 oracl 默認備份 int 自動生成 span SQL Server： SELECT * INTO table_bak FROM table 可把表table中的數據備份到 table_bak ，而且無需重新建table

【python-excel】Selenium+python自動化之讀取Excel數據（xlrd）

logs title .html selenium2 ref target targe pos 數據 Selenium2+python自動化之讀取Excel數據（xlrd）轉載地址：http://www.cnblogs.com/lingzeng86/p/6793398.h

【第一篇】ASP.NET MVC快速入門之數據庫操作（MVC5+EF6）

c項目教程建數據庫因此 F5 ctr 文件頭部 lec 跨站請求偽造目錄【第一篇】ASP.NET MVC快速入門之數據庫操作（MVC5+EF6）【第二篇】ASP.NET MVC快速入門之數據註解（MVC5+EF6）【第三篇】ASP.NET MVC快速入門之安全

Hp DL380服務器硬盤故障數據恢復過程

完整操作簡介服務陣列 RM 需要 51cto 技術服務器數據恢復故障簡介：需要進行數據恢復的是一臺HP DL380服務器三塊300GSAS硬盤組成raid陣列，磁盤故障導致整個RAID組癱瘓，其中一塊硬盤狀態燈為紅色。數據庫存儲在D分區，備份存儲在E分區。存儲

Unity3d 腳本與C#Socket服務器傳輸數據

type ucc 字符串 ror callback internet cli 異步 spa Test.cs腳本 ---------------------------------------------------------------------------------

記住這個網站：服務器相關數據統計網站 http://news.netcraft.com/

etc post dsm edm sha con bds popu article http://news.netcraft.com/ 需要參考現在服務器相關數據，可以上這個網站。當然google趨勢也是一個可選得備案。有一個數據統計更全面的： http:/

MySQL庫database導入到另一臺服務器的數據庫中

mysql 數據 copy Copying MySQL Databases to Another MachineIn cases where you need to transfer databases between different architectures, you can use my

在Windows Server 2008 R2 Server中，連接其他服務器的數據庫遇到“未啟用當前數據庫的 SQL Server Service Broker，因此查詢通知不受支持。如果希望使用通知，請為此數據庫啟用 Service Broker ”

lba pos 數據庫名 nbsp bsp enable 輸入 images logs 項目代碼和數據庫部署在不同的Windows Server 2008 R2 Server中，錯誤日誌顯示如下： "未啟用當前數據庫的 SQL Server Service Broker，因

【長文+圖片】HP FC MSA2000服務器癱瘓數據恢復過程

服務器數據恢復過程：

相關推薦