1. 程式人生 > >WSFC備份恢復

WSFC備份恢復

裸機恢復 wsfc 授權恢復 非授權恢復 群集數據庫

任何一項IT系統都需要備份恢復的機制,WSFC也不例外,對於WSFC,我們主要需要關註三塊內容


  1. 群集CNO VCO的備份恢復

  2. 群集數據磁盤,CSV內容的備份恢復

  3. 群集數據庫的備份恢復


群集 CNO VCO的備份恢復,其實就是活動目錄數據的備份恢復了,正常情況下,2008R2之後開啟活動目錄回收站功能,即便計算機誤刪除,也可以恢復出來,之後再在群集管理器修復名稱即可,這在前面文章已經講過,2012開始可以直接通過AD管理中心恢復。且我們可以通過防刪,備份等方案規避,CNO,VCO一旦誤刪,會導致群集無法訪問,無法進行群集身份驗證


群集數據磁盤,CSV內容,這點我們可以通過DPM,或是其它工具,例如,我們如果在群集CSV上面跑了很多虛擬機,那麽是需要定期對群集上面的虛擬機做備份的,這時候如果備份工具支援,我們可以從CSV級別去備份上面所有的虛擬機內容,防止群集共享數據丟失


群集數據庫的備份恢復,我們今天主要將涉及這個方面,之前,我們說過,群集數據庫是群集配置運行的核心,它儲存著WSFC群集所有的配置情況,會實時的在各個節點之間及見證磁盤同步,一旦發生故障轉移,節點會參照群集數據庫進行故障回復


群集數據庫儲存在節點註冊表及見證磁盤,我們備份時,使用windows server backup,DPM備份系統狀態,即可備份群集數據庫,群集數據庫儲存在系統狀態中。


群集數據庫的備份恢復主要分為兩種,一種是授權模式恢復,一種是非授權模式恢復,很有意思,有點像AD的數據庫恢復一樣


授權模式恢復


什麽場景下會使用到授權模式恢復,例如,之前群集運行最正常的情況下,你執行了一次備份,忽然有一天因為不小心操作,弄壞了一些群集配置,整個群集開始不正常工作,這時候,您可以使用授權恢復,選擇與一個節點進行恢復,在該節點上執行授權恢復,首先停止群集服務,恢復群集數據庫配置,再啟動群集節點,請註意,實質上這裏,執行授權恢復的時候,所有群集節點的群集服務都會被停止!授權恢復後只要被恢復節點會優先啟動,因為授權恢復,要把群集數據庫配置回滾到之前的paxos標記,回滾之後需要將被授權恢復節點的群集數據庫提升為黃金副本,之後,再手動啟動其它群集節點的群集服務,其它群集節點會從擁有黃金副本的節點同步群集數據庫配置,群集恢復正常。


可以看到,授權模式恢復的關鍵點在於


1.機器可以不關機在線恢復 ,恢復後不需要重啟

2.WSFC和Windows Server backup感知,執行群集授權模式恢復


基本上授權模式恢復的場景很明確,回滾群集配置,並提升回滾節點群集數據庫為黃金副本。


這裏需要註意的一點是,由於群集數據庫的paxos標記會實時變化,因此,執行群集數據庫授權恢復時,一定一定不要一起啟動所有群集節點的群集服務,一旦你不小心在其它節點改了配置,這次群集授權恢復就失敗了,因為被修改節點的paxos標記為最新,恢復節點還是會去和它同步群集數據庫



非授權恢復呢


相信大家已經猜到了,非授權恢復,和授權恢復類似,但是並不會有提升群集節點數據庫為黃金副本這個過程


非授權恢復和授權恢復最大的不同是非授權恢復需要重啟機器來完成,且恢復時間會較長


實質上當我們執行非授權恢復時,是相當於對於節點執行一個完整的裸機恢復


非授權恢復,老王認為主要適用於以下兩種場景


  1. 單個群集節點出現問題,經常藍屏崩潰,不穩定,現在不想繼續用了,希望重裝,這時候可以直接格式化節點,插入系統光盤,裸機恢復節點,裸機恢復後,群集節點數據庫paxos標記為舊的標記,並不會提升為黃金副本,被非授權恢復的單個節點,會和其它擁有最新paxos標記的群集節點同步數據庫。

  2. 整個群集出現問題,群集出現問題,任何一個節點都不能用了,但之前有裸機備份,這時候可以直接新裝一臺機器,插入系統光盤,裸機恢復到該節點,讓群集先單點復活,之後等待有資源準備就緒後再加入到群集。


總結一下


授權恢復主要是用於恢復群集配置,並同步到其它所有節點

非授權恢復主要用於恢復節點或群集可以正常使用,被恢復的節點將會和其它可用節點同步群集數據庫


目前老王來看能夠支持微軟群集數據庫授權恢復的只有Windows Server backup,DPM,其中主要以Windows Server backup為主,Windows Server backup可以看到群集執行授權恢復的過程


對於非授權恢復,無非是裸機備份,裸機恢復,maybe除了微軟的Windows Server backup,DPM,一些其它第三方的備份工具也可以使用


另外老王建議,備份群集數據庫配置和備份群集數據分開執行,備份群集數據庫就只是備份群集數據庫配置,恢復時候我也只恢復群集數據庫相關的內容,對於群集數據磁盤和CSV內容,建議單獨執行備份,不要和群集數據庫的備份恢復放在一起。


接下來我們分別實戰群集數據庫授權恢復和非授權恢復


授權恢復,場景介紹


DC01&iscsi

lan:10.0.0.2 255.0.0.0

iscsi:30.0.0.2 255.0.0.0


HV01

MGMET:10.0.0.9 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.9 255.0.0.0

CLUS:18.0.0.9 255.0.0.0


HV02

MGMET:10.0.0.10 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.10 255.0.0.0

CLUS:18.0.0.10 255.0.0.0


當前群集正常運行,群集名稱fscluster,群集文件服務應用fileshare

技術分享

當前群集正常運行,我們已經執行過一次裸機備份

技術分享

授權恢復操作流程如下


  1. 檢索確認備份信息

  2. 通過wbadmin命令執行群集信息恢復

  3. wbadmin和wsfc整合,停止所有節點群集服務

  4. 恢復群集數據庫為之前備份

  5. 啟動被恢復節點群集服務,提升群集數據庫為黃金副本

  6. 手動啟動其它群集節點群集服務


破壞群集,刪除文件服務器內容

技術分享

1.檢查群集節點備份記錄

wbadmin get versions

技術分享

檢查備份詳細信息

wbadmin get items -version:10/24/2017-02:17

技術分享

可以看到,雖然我們只是備份了裸機,但是windows server backup,感知到我們有群集,自動幫助我們備份群集,在2003時代只保存在系統狀態,2008時代開始已經單獨獨立成應用程序!


2.在線通過wbadmin執行群集數據庫授權恢復

wbadmin start recovery -itemtype:app -items:cluster -version:10/24/2017-02:17


正如我們所講

技術分享

準備好了輸入Y,群集開始執行停止群集節點群集服務 - 恢復數據庫 - 重新啟動恢復節點群集服務

技術分享

恢復完成後提示如下

技術分享

可以看到,備份恢復過程,首先會停止所有節點群集服務,之後會先啟動被恢復節點的群集服務,以提升為黃金副本

技術分享


技術分享


手動啟動HV02節點群集服務

技術分享


技術分享

群集配置恢復如初,授權恢復完成

技術分享

查看clusterlog 授權恢復過程

技術分享


開始執行群集數據庫還原


技術分享


恢復paxos標記,提升paxos標記為黃金副本


技術分享


技術分享


群集恢復過程停止群集所有節點群集服務,但會稍後會自動啟動被恢復節點,並提升paxos標記為最優,其它節點再加入時,必須要求與被恢復節點同步群集數據庫內容,才可以正常加入群集


技術分享


技術分享


接下來我們再執行非授權恢復


環境同授權恢復一樣,這裏我們模擬群集完全崩潰,兩個節點都不能使用,我們新建一個配置完全相同的HV03,之後把群集內容恢復到該節點


由於我們會通過網絡進行恢復,因此需要HV03這個新節點可以接入網絡,以訪問備份文件夾,可臨時架設個DHCP服務器


當前HV01 HV02節點已關機,無法再開機


技術分享

按照同樣配置新建HV03虛擬機,插入2016光盤,選擇修復計算機

技術分享

疑難解答

技術分享

系統映像恢復

技術分享

進去之後,如果你的新機器正常加入到了環境,正常聯系到DHCP獲取到地址,這裏可以通過輸入網絡路徑,憑據,訪問到備份共享文件夾。

技術分享

國際慣例,下一步下一步

技術分享


技術分享

如采用新硬件服務器,此處需載入驅動程序

技術分享


技術分享

泡杯茶等著好了

技術分享

恢復完成後重啟,進入開機界面

技術分享

群集節點網卡已經恢復到HV01的的狀態,一些時候會出現部分網卡未正常恢復,如發現未正常恢復,重新輸入即可。

技術分享存儲得到正常連接,在2008R2時代,如果執行非授權恢復,一些時候會碰見存儲要重新連接的情況,2012,2016這得到了優化,大部分情況下存儲狀態都會保持正常

技術分享

打開群集管理器發現群集也已經正常恢復,當前只有新HV01節點可用

技術分享


技術分享

稍後可以再重做其它節點添加進來


至此我們完成了在群集完全崩潰的情況下,利用已有的裸機備份重新恢復起群集。

除了我們這種形式的恢復

還有一種非授權恢復場景

即當前節點存活,那麽我就可以在存活節點上面通過執行命令

wbadmin start systemstaterecovery -version:

來恢復單個崩潰節點,該恢復過程只是系統狀態恢復,並不會執行數據庫副本paxos標記提升操作,執行完成後重啟,節點會和其它現有節點同步最新的群集數據庫內容。


之所以老王選擇演示群集完全崩潰的場景

是因為老王覺得這種場景下非授權恢復才發揮出最重要的意義

如果說因為一個節點的崩潰,而花力氣去執行非授權恢復,我不如直接新build一個節點加入群集


對於群集的備份恢復


老王建議是一體化來做


  1. 開啟活動目錄回收站功能,CNO/VCO誤刪後,活動目錄恢復,群集修復,如果群集所有信息都被刪除,應最優先恢復CNO/VCO

  2. 針對群集節點執行裸機備份,用於非授權恢復崩潰的的節點/群集,授權恢復群集數據庫配置。

  3. 針對群集數據磁盤,CSV,選擇能和群集感知的備份工具進行備份恢復,如果群集所有信息都被刪除,應先恢復CNO/VCO,群集數據庫配置,最後恢復群集數據磁盤。


本文出自 “老王的微軟技術研究樂園” 博客,請務必保留此出處http://wzde2012.blog.51cto.com/6474289/1975541

WSFC備份恢復