1. 程式人生 > 實用技巧 >DELL POWEREDGE 830 RAID恢復與常見問題解決!

DELL POWEREDGE 830 RAID恢復與常見問題解決!

clip_p_w_picpath002

clip_p_w_picpath004

1. 備份您重要的資料,以免導致資料的丟失。

2. 重新啟動您的伺服器,按下ctr+m(這是raid 卡的bios),進入raid bios

3. 選擇object(目標物件),回車進入

4. 選擇physical driver(物理硬碟),在物理硬碟這個選單中,你可以看到各種硬碟的狀態:

主要有(online(線上)/fail(失敗)/rebuild(重建)/ready(預備)。通常情況下ready表示您的機器硬碟處於預備狀態,硬碟沒有任何資料。

Fail表示您的機器這個硬碟脫離了您的陣列,這個時候有可能硬碟壞了,也可能僅僅脫離陣列,您需要

在每個硬碟上按一下F2鍵,檢查一下是否有media error (媒質錯誤),other error(其他錯誤)

如果錯誤超過10個就需要更換硬碟。

如果錯誤全部是0,僅僅需要rebuild(重建)就可以。

在經過5小時後硬碟會從rebuild(重建)狀態改變為online(線上),就是raid 回覆正常。

有關RAID的常見問題

1. 為什麼硬碟會掉線?

SCSI的通訊採用的是並行匯流排技術,當SCSI鏈路中出現衝突,裝置故障或通訊干擾,就會造成匯流排無法釋放,在此期間SCSI控制器可能無法正確識別到某些磁碟的狀態,因此會將這些磁碟置為離線狀態。SCSI控制器會嘗試通過匯流排的復位來釋放匯流排。SCSI鏈路中的任何一個裝置的故障都會造成SCSI匯流排通訊故障,它包括下面這些部件:

l SCSI線纜

l 硬碟背板

l 硬碟

l SCSI控制器或RAID卡

l 有缺陷的SCSI裝置韌體

l SCSI終結器

l EMM卡

2. 為什麼診斷工具可以發現硬碟故障,而硬碟本身卻沒有報警?

硬碟在工作一段時間後,可能因各種原因會產生一些介質錯誤,但硬碟廠商對這些介質錯誤都有設定一個報警閥值,當硬碟的介質錯誤超過預設的報警閥值,硬碟firmware將觸發報警,並反映到硬碟報警燈,但有時硬碟雖然產生了介質錯誤,但這些錯誤並沒達到報警預設閥值,所以硬碟報警燈可能會沒有提示。

3. 為什麼硬碟可以rebuild成功,但卻經常掉線?

Rebuilding的操作是一個RAID資料冗餘性重新同步的過程,rebuilding成功僅反應出磁碟介質在同步過程中無讀寫錯誤。硬碟離線通常跟SCSI匯流排的穩定性有關(參見問題1)。

4. 什麼原因導致Rebuilding失敗?

l Double fault:由於多快磁碟故障,導致資料的冗餘性丟失。

l 錯誤的操作:在更換硬碟時,如果該硬碟本身並沒有離線,應該使用prepare remove功能通知RAID卡,以便系統更新磁碟狀態。否則,系統可能不會接納更換的硬碟,從而導致不能rebuild,另外,建議熱更換故障硬碟。

l 新換磁碟上存在不正確的RAID配置資訊(僅針對Apaptec公司的RAID卡)

l 更換的硬碟物理容量比故障硬碟的小或存在介質故障。

l RAID卡故障。

l SCSI匯流排不穩定。

5. RAIDFirmware有什麼作用?

RAID卡的功能都是由firmware決定的,不同版本的firmware會有不同實現方式,高版本的firmware總是提供更多的功能以及修復早期版本的缺陷。

6. 如何維護RAID資料?

定期執行check consistency和啟用RAID卡的patrol功能是一個良好的維護習慣。通常磁碟的介質會隨著時間的推移出現讀寫故障。當一個寫操作遇到壞塊 (RAID卡會將其標記,並存放在RAID卡及磁碟的NVRAM中,如果該表中的值到達預設閥值時,硬碟firmware將觸發故障告警),該寫操作不能完成,但RAID卡會嘗試將該資料寫到其它健康的塊上。當一個正常的讀操作遇到壞塊,那麼資料是可以通過校驗資訊重新得到,RAID卡將得到的資訊放到一個健康的塊上,並將先前的壞塊標記出來。有時我們可能會遭遇double fault(即資料存放於多個有壞塊的的硬碟上),為了防止這些錯誤的出現,我們必須進行維護。

7. 什麼是consistency check

一致性校驗是磁碟陣列控制器的一種高階維護功能。它可以預先檢查陣列上的資料,以保證它們的一致性,即資料是正確的、沒有被破壞。對於有奇偶校驗值的陣列(RAID-5),一致性校驗通過資料的奇偶校驗,並且和存校驗值的盤上的校驗值進行比較,確定並糾正資料的一致性。對於映象盤,一致性校驗比較RAID-1上2塊硬碟的資料是否完全一致。不一致的需要進行同步處理。對於剩餘空間的磁碟介質consistency check一樣會進行讀校驗。

8. 為什麼要進行一致性校驗?

系統崩潰、意外斷電或者硬碟出現壞道,都可能導致陣列上的資料被破壞或不一致。根據硬碟的原廠家的資料,平均每進行1,000,000,000,000,000次的位元位(bit)資料傳輸,就會產生一個不可恢復的資料錯誤。以36GB硬碟為例,平均每進行3000次的全盤讀操作,就會產生1個錯誤位元組(byte)。如果在陣列不一致的狀態時,發生硬碟故障,RAID控制器就無法通過奇偶校驗計算出正確的資料,陣列將無法rebuild成功。

9. 什麼是RAID卡的Patrol功能

Patrol功能是基於磁碟介質的,RAID卡firmware會在後臺按照設定的計劃定期對磁碟介質進行讀校驗,類似於SCSI卡的verify, 當發現壞塊時會對壞塊進行標記及搬移。Patrol功能不對RAID資料進行校驗。

10. 什麼是Media error

Media Error一般是指RAID卡發現的磁碟讀寫錯誤。通過這個指標我們可以簡單的判斷磁碟介質的情況,有media error並不意味者磁碟一定需要更換,因為磁碟的firmware會對壞塊進行遮蔽及遷移。但應建議對磁碟進行診斷,依據診斷結果來判斷是否需要更換該磁碟。

11. 什麼是other error

Other error一般是指RAID發現的SCSI匯流排通訊錯誤。一般表明SCSI匯流排中存在硬體裝置故障,一般是SCSI線纜,硬碟背板,SCSI終結器等。

轉載於:https://blog.51cto.com/lzy821218/388414