DBA:這有一份對接NBU備份故障排除指南,請查收!
摘要:當前DWS支援NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。
本文分享自華為雲社群《DWS對接NBU備份故障排除指南》,作者: 唐伯虎點蚊香。
NetBackup是Veritas公司軟體產品,為各種平臺提供完整而靈活的資料保護解決方案。這些平臺包括Microsoft Windows、UNIX、Linux 等系統。利用NetBackup可以備份、歸檔和還原計算機上的檔案、資料夾或目錄以及卷或分割槽。當前DWS支援NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。
部署方式
假如已有3節點DWS叢集,Roach(DWS備份工具)將本節點的叢集資料通過TCP傳送到遠端NBU Media Server機器。每臺NBU Media Server上面同時安裝NBU Client,並部署Roach client元件,後者接收叢集內Roach程序發來的備份資料,不落盤方式通過XBSA介面轉發給本機的NBU Client,完成NBU備份。恢復流程也類似,只是資料流相反。
在DWS備份過程中,一般故障主要出自以下三處:
- Roach agent: 即叢集節點內,直接檢視叢集備份日誌($GAUSSLOG/roach/)即可
- Roach client: 此外掛主要負責資料收發,日誌路徑啟動時通過-l引數指定,進入該路徑查詢即可
- NBU軟體端: 可通過下文定位方式排查故障
環境校驗
當進行NBU非侵入式備份時,考慮到叢集備份過於重量,可以先通過指定小檔案測試環境連通性,保證NBU配置
gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000
注:
--media-destination為NBU策略名稱
--backup-key為任一指定時間戳即可
--media-server為任意一臺部署了roach client外掛的ip地址
--client-port為roach client開放的埠
--metadata-destination為上傳指定檔案路徑,其中將測試上傳檔案重名名為metadata.tar.gz,並放置在/home/Ruby目錄下,並非/home/Ruby/meta目錄下
如果能備份成功,則說明所連線的media server配置無問題,如果存在失敗,則NBU端配置有問題,需要按照後續說明尋求原因。
故障定義
故障排除的第一步是定義問題。在NBU系統的安裝、配置、執行過程中,出現了與正確預期不同的結果,即可認為是出現了故障;有時候,這要求我們知道正確的情況應該是什麼樣的。
在NBU的交付和使用中常見的故障主要分為種:
一是軟體安裝和配置階段,比如軟體安裝不成功、對接不成功、某模組功能不可用等等,這一階段的錯誤一般沒有具體的錯誤碼,需要結合交付人員的經驗和系統日誌進行排錯,這種故障屬於一次性的故障,在排除之後再次出現的可能性很小;
二是在系統部署完成後,資料備份業務上線、備份和恢復任務執行時報錯,比如接入client失敗、儲存單元寫入資料失敗、找不到client伺服器等等;這種故障console會提供錯誤碼(error code),維護人員可以根據錯誤進行初步的定位,這種故障屬於日常性的故障,和環境中多種因素有關,備份系統自身之外的業務環境發生細微的變化都有可能導致故障的出現。
故障排除過程
要排除問題,必須知道發生了什麼錯誤。
錯誤訊息通常是指出哪裡出現故障的手段。所以,我們要做的第一件事就是查詢錯誤訊息。如果在介面上沒有看到錯誤訊息,但仍懷疑有問題,請檢查報告和日誌。NetBackup 提供了廣泛的報告和日誌記錄工具,這些工具可提供錯誤訊息,直接指出解決方案。日誌還可顯示什麼執行良好以及當發生問題時 NetBackup 正在執行什麼操作。
綜上,NBU備份與恢復故障排除過程如下:
1、確認伺服器和client執行的是受支援的作業系統或應用版本;具體資訊參看NBU相容性列表;
2、復現故障,獲取故障資訊;獲取資訊的渠道有錯誤碼、Job Details、日誌等;
3、根據獲取的資訊進行故障定位和排除;
故障排除方法
使用狀態碼
每一個備份和恢復任務都是一個activity,在activity monitor一欄中可以監控到它們。由任務監視看出該任務的ID、執行何種操作、狀態、返回值、Server和Client是誰、通過哪一個Policy和Schedule去執行的。
具體可顯示多長時間的任務,要看NetBackup全域性屬性中的設定。每個任務有以下幾個狀態:
- Queued 任務正在排隊
- Active 任務正在執行
- Done 任務執行完畢
在activity的執行過程中,每一個任務結果都對應著一個狀態程式碼,0代表成功,非0代表故障。返回值是一個非常有用的引數,通過返回值,可以通過錯誤程式碼查詢手冊中建議的相關調整建議,這對於問題檢查和效能調整是非常有用的。頁面中獲取位置如下:
以下連結提供了NBU備份任務status code list:
https://www.veritas.com/content/support/en_US/doc/44037985-127664609-0/v15096675-127664609
根據獲取到的status code可以初步定位錯誤原因
使用Job details
與狀態碼類似,Job details與activity也是一對一;不同的是,Job details比狀態碼提供的資訊更多,對於常見的故障,使用Job details可以完成故障的原因定位和排除。
雙擊一個activity,選擇detailed status,在status一欄即可獲取更多的細節資訊。找到關鍵錯誤資訊(通常是紅色字型或紅色字型的上下文),提煉出關鍵字,在google上搜索,網際網路上有大量的相同錯誤場景和解決辦法。
使用日誌
以上使用狀態碼和Job details進行故障排除的辦法停留在初級階段,通常只對簡單故障有效;對於複雜問題,如果解決不了則需要蒐集日誌進行分析。
在NBU系統中,日誌級別共分為6級,分別為0-5,以下為日誌級別對應的要記錄的資訊:
0:非常重要的少量診斷訊息和除錯訊息
1:該級別增加詳細的診斷訊息和除錯訊息
2:增加進度訊息
3:增加提示性轉儲訊息
4:增加功能進入和退出訊息
5:最詳細的資訊:記錄所有資訊
日誌等級調整方式如下:
1、console介面調整
2、vi /usr/openv/netbackup/bp.conf, 在末尾調加如下配置
VERBOSE = 5
NBU系統針對每一個程序都有一個獨立的目錄來存放,但是在預設情況下不建立,所有如果想要蒐集這些日誌,工程師需要手動建立這些目錄。目錄格式為/usr/openv/netbackup/logs/程序名;以bpcd程式為例,執行以下命令建立子目錄:
mkdir /usr/openv/netbackup/logs/bpcd
或者使用NBU提供的批量建立指令碼,一鍵建立所有日誌目錄,執行以下命令:
sh /usr/openv/netbackup/logs/mklogdir
在蒐集日誌時,NBU針對性地為每個程序建立一個日誌子目錄,來實現程序級別的日誌分析,那麼我們需要先知道NBU常用的程序有哪些:
admin:管理命令。
bpbrm:NetBackup 備份和還原管理器。
bpcd:NetBackup client後臺駐留程式或管理器。
bpdm:NetBackup 磁碟管理器。
bpdbm:NetBackup 資料庫管理器。此程序僅在主伺服器上執行。
bprd:NetBackup 請求管理器,對客戶機和備份、恢復、歸檔等管理請求作出響應。
vnetd:Veritas 網路後臺駐留程式。
bpbackup:在UNIX client上,當用戶啟動備份時,此程式與主伺服器上的bprd通訊。
在獲取了日誌之後,在各個檔案中搜索fail、error、can not、freeze等關鍵字,進行故障原因定位
NBU常用維護命令
用命令列啟動netbackup服務程序
/usr/openv/netbackup/bin/bp.start_all
用命令列停止netbackup服務程序
/usr/openv/netbackup/bin/bp.kill_all
用命令列清除host快取
/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 清除快取
cd /usr/openv/var/host_cache/ # 清除臨時檔案
rm –rf tmp
mkdir tmp
mv * tmp
用命令列檢測master和client連通性
/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname
若可以連通,返回結果類似如下:
NBU master server與NBU client 通訊問題
在client和master server上互相telnet對方的備份管理平面IP的1556、1372、13782三個埠,確認client伺服器與master server通訊正常
netstat –an | grep 1556
netstat –an | grep 1372
netstat –an | grep 13782
檢查NBU服務及程序
/usr/openv/netbackup/bin/./bpps -x
Media server不是認證的主機
此為client上對media server的信任配置問題。在console上點選host properties>client,找到故障客戶端,雙擊client,在彈出介面點選servers一欄,在additional server配置中新增media server的主機名
儲存單元不可用
出現“儲存單元不可用”故障資訊可能有以下幾種情況:
1、儲存單元已滿
2、此儲存單元上處於排隊狀態的備份任務過多
3、client與儲存單元歸屬的media server無法通訊
想了解GuassDB(DWS)更多資訊,歡迎微信搜尋“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技,後臺還可獲取眾多學習資料哦~