TSM日常維護
自動啟動TSM服務器
你可以將服務器配置為在系統啟動時自動啟動,要配置TSM服務器,請使用rc.dsmserv腳本。
rc.dsmserv腳本位於/opt/tivoli/tsm/server/bin目錄中。
如果未使用向導來配置IBM TSM服務器,請在/etc/inittab文件中為要自動啟動的每個服務器都添加一個條目。
如果實例所有者為tsminst1並且服務器實例目錄為/home/tsminst1/tsminst1,那麽將以下條目添加到/etc/inittab中的一行上:
tsm1:3:once:/opt/tivoli/tsm/server/bin/rc.dsmserv -u tsminst1 -i /home/tsminst1/tsminst1 -q >/dev/console 2>&1
暫停服務器
暫停服務器時,所有進程都會突然停止,並且會取消客戶機會話,即使它們未完成也如此。重新啟動服務器後,將會回滾所有進行中事務。
要在不嚴重影響服務器的管理和客戶機節點活動的情況下關閉服務器,必須執行以下操作:
1.通過發出DISABLE SESSIONS 命令,禁用服務器以防止啟動新的客戶機節點會話。
2.通知所有現有管理會話和客戶機節點會話你計劃關閉服務器。
3.通過發出CANCEL SESSION命令和相關聯的會話號,取消所有現有管理會話或客戶機節點會話。使用QUERY SESSION命令可以獲取會話號。
4.通過使用QUERY PROCESS命令了解是否有任何其他進程在運行,請使用CANCEL PROCESS命令將其取消。
5.使用HALT命令暫停服務器以關閉所有服務器操作。
服務器作為後臺進程運行時將其停止
如果無法使用管理客戶機連接至服務器但是想要停止服務器,可使用以下步驟來取消進程:
1.cat /instance_dir/dsmserv.v6lock查找TSM服務器的正確進程標識。
2.使用KILL命令停止進程
更改TSM服務器的主機名
1.停止系統上正在運行的任何TSM服務器。
2.通過使用操作系統定義的過程來更改主機名。
3.通過系統上的root用戶標識,發出以下命令:
db2set -g DB2SYSTEM=newhostname
4.通過發出以下命令驗證DB2SYSTEM值是否已更改:
db2set -all
5.在instance directory/sqllib目錄中,找到db2nodes.cfg文件。文件包含了顯示先前主機名的條目:
0 tsmnew newhostname 0
添加或更新服務器選項
如果你具有系統特權,可以在dsmserv.opt文件中添加或更新服務器選項。
可以通過使用SETOT命令編輯dsmserv.opt文件來添加或更新服務器選項。
在不重新啟動服務器的情況下添加或更新服務器選項
可通過發出SETOPT命令來更新現有服務器選項:
setopt maxsessions 20
獲取關於命令和錯誤消息的幫助
可發出不帶操作數的HELP命令來顯示幫助選項的菜單。也可發出帶操作數的HELP命令,這些操作數用於指定幫助菜單號、命令或消息號。
要顯示幫助菜單,請輸入:
help
要顯示關於remove命令的幫助信息,請輸入:
help remove
要顯示關於特定消息(例如ANR0992I)的幫助信息,請輸入:
help 0992
數據庫和恢復日誌的概述
數據庫不存儲客戶機數據;它指向客戶機文件在存儲池中的位置。
數據庫包括有關下列內容的信息:
*客戶機節點和管理員
*策略和調度
*服務器設置
*服務器存儲器上的客戶機文件的位置
*服務器操作(例如活動日誌和事件記錄)
數據庫管理器管理數據庫卷,並且無需對這些卷進行格式化。
註意:如果數據庫不可用,那麽整個TSM 服務器都不可用。如果數據庫丟失且無法恢復,那麽可能難以或無法恢復由該服務器管理的數據。
數據庫可分布在最多128個目錄中。支持的最大數據庫大小為2TB。
數據庫管理器的一些優點包括:
*自動備份數據庫
*自動統計信息收集
*自動數據庫重組
*用於數據庫備份和復原的多數據流
*SQL查詢
*數據庫審計
*數據庫緩沖區大小
恢復日誌
恢復日誌幫助確保故障(如系統停電或應用程序錯誤)不會使數據庫處於不一致狀態。如果你需要復原數據庫,那麽恢復日誌不可或缺。
如果發生故障,那麽會回滾已進行但未落實的更改。然後,將會重做可能尚未實際寫入磁盤的所有已落實事務。
恢復日誌由下列日誌組成:
*活動日誌
*日誌鏡像(可選)
*歸檔日誌
*歸檔故障轉移日誌(可選)
在安裝過程中,需要指定目錄位置、活動日誌大小和歸檔日誌位置。
根據文件數估算數據庫空間需求
要根據服務器存儲器中的最大文件數估算數據庫的空間需求,請使用以下準則:
*文件的每個已存儲版本需要600-1000字節。
*每個高速緩存的文件、副本存儲池文件、活動數據池文件和已進行重復數據刪除的文件需要100-200字節。
*還需要額外的空間用於數據庫優化,以支持不斷變化的數據存取模式並支持數據的服務器後端處理。額外空間量等於文件對象總字節數的估算值的50%。
根據存儲池容量估算數據庫空間需求
要根據存儲池容量估算數據庫空間需求,請使用1-5%的比率。
估算恢復日誌空間需求
對於估算活動日誌的大小,請考慮以下一般準則:
*活動日誌的建議開始大小為16GB
*確保活動日誌大小至少足夠用於服務器通常處理的並發活動量。可以考慮使用20%的合理額外空間量。
*監視已用和可用活動日誌空間。
*確保包含活動日誌的目錄大於或等於活動日誌大小。
歸檔日誌的建議開始大小為48GB
歸檔日誌目錄必須足夠大,以包含自上次完全備份以來生成的日誌文件。
監視歸檔日誌利用率和歸檔日誌目錄中的空間。如果歸檔日誌目錄中的空間變滿,那麽可能會指示以下問題:
*服務器無法執行完全數據庫備份。
*其他應用程序正在對歸檔日誌目錄進行寫入,從而耗盡歸檔日誌所需的空間。
監視數據庫和恢復日誌的空間利用情況
要確定已用和可用的活動日誌空間量,可以發出QUERY LOG命令。要監視數據庫和恢復日誌中的空間利用情況,還可檢查活動日誌以獲取消息。
如果可用活動日誌空間量過低,那麽在活動日誌中會顯示以下消息:
ANR4531I:IC_AUTOBACKUP_LOG_USED_SINCE_LAST_BACKUP_TRIGGER
當活動日誌空間超過最大指定大小時會顯示此消息。TSM 服務器啟動完全數據庫備份。
要更改最大日誌大小,請停止服務器,打開dsmserv.op文件,然後為ACTIVELOGSIZE選項指定新值,重啟服務器。
ANR0297I:IC_BACKUP_NEEDED_LOG_USED_SINCE_LAST_BACKUP
當活動日誌空間超過最大指定大小時會顯示此消息。你必須手動備份數據庫。
要更改最大日誌大小,請停止服務器,打開dsmserv.op文件,然後為ACTIVELOGSIZE選項指定新值,重啟服務器。
ANR4529I:IC_AUTOBACKUP_LOG_UTILIZATION_TRIGGER
已用活動日誌空間與可用活動日誌空間的比率超過日誌使用率閥值。如果已進行至少一次完全數據庫備份,那麽TSM服務器將啟動增量數據庫備份。否則,服務器會啟動完全數據庫備份。
ANR0295I:IC_BACKUP_NEEDED_LOG_UTILIZATION
已用活動日誌空間與可用活動日誌空間的比率超過日誌使用率閥值,你必須手動備份數據庫。
歸檔日誌
如果可用歸檔日誌空間量過低,那麽在活動日誌中會顯示以下消息:
ANR0299I:IC_BACKUP_NEEDED_ARCHLOG_USED
已用歸檔日誌空間與可用歸檔日誌空間的比率超過日誌利用率閥值。TSM服務器啟動自動完全數據庫備份。
數據庫
如果可用於數據庫活動的空間量過低,那麽在活動日誌中會顯示以下消息:
ANR2992W:IC_LOG_FILE_SYSTEM_UTILIZATION_WARNING_2
已用數據庫空間超過數據庫空間利用率閥值。要增加數據庫空間,請使用EXTED DBSPACE命令、EXTEND DBSPACE命令或帶有DBDIR參數的DSMSERV FORMAT使用程序。
ANR1546W:FILESYSTEM_DBPATH_LESS_1GB
服務器數據庫文件所在目錄的可用空間小於1GB.
監視數據庫和恢復日誌
當TSM服務器聯機時,你可以發出QUERY DBSPACE命令來查看你的數據庫所在的文件系統或驅動器的總空間、已用空間和可用空間。要在服務器脫機時查看相同信息,請發出DSMSERV DISPLAY DBSPACE命令。
要在服務器聯機時查看有關數據庫的更多詳細信息,請發出QUERY DB命令。
當TSM服務器聯機時,請發出QUERY LOG F=D命令以顯示活動日誌的總空間、已用空間和可用空間以及所有日誌的位置。要在TSM服務器脫機時顯示相同信息,請發出DSMSERV DISPLAY LOG命令。
可以在服務器控制臺和活動日誌中查看有關數據庫的信息。可使用SET DBREPORTMODE命令來設置該信息的級別。指定不顯示診斷信息(NONE)、顯示所有診斷信息(FULL)或者僅顯示異常並且可能表示錯誤的事件(PARTIAL)。缺省值為PARTIAL。
增加數據庫的大小
你可通過創建目錄並將目錄添加到數據庫來增加數據庫的大小。
服務器可使用對於驅動器或數據庫目錄所在文件系統可用的所有空間。支持的最大數據庫大小為2TB。
要增加數據庫的大小,請采用以下步驟:
1.創建一個或多個數據庫目錄。
2.發出EXTEND DBSPACE命令以將一個或多個目錄添加到數據庫。
在將目錄添加到TSM服務器之後,可能無法在最大程度地使用該目錄。某些TSM事件可能導致添加的數據庫空間隨時間推移而被使用。
增加活動日誌的大小
如果日誌將耗盡空間,那麽將回滾當前事務,並且服務器會發出錯誤消息並停止。只有在增加活動日誌大小之後,才能重新啟動服務器。
要在服務器停止時增加活動日誌的大小,請完成以下步驟:
1.發出DSMSERV DISPLAY LOG脫機實用程序以顯示活動日誌的大小。
2.確保活動日誌的位置具有足夠空間以用於增加後的日誌大小。
3.停止服務器
4.在dsmserv.opt文件中,將ACTIVELGSIZE選項更新為活動日誌的新的最大大小(以字節為單位)。
5.如果你將使用新的活動日誌目錄,請更新ACTIVELOGDIR服務器選項中指定的目錄名稱。
6.重新啟動服務器
將自動定義512MB的日誌文件,直至達到ACTIVELOGSIZE選項中指定的大小。
手動備份數據庫
要手動備份數據庫,請發出BACKUP DB命令。
backup db devclass=ltotape type=full volumename=vol1,vol2,vol3 numstreams=3
恢復數據庫
要復原數據庫,你必須具有數據庫備份卷、卷歷史記錄文件和設備配置文件。數據庫備份卷可以是完全備份、增量備份或快照。數據庫備份還可以包含恢復日誌的備份。
要將數據庫恢復到其最近狀態,請輸入DSMSERV RESTORE DB命令。
dsmserv restore db
移動數據庫和恢復日誌
你可以將同一文件系統上的數據庫、活動日誌和歸檔日誌移動到其他文件系統上的各種目錄,以進行更好的保護。
1.備份數據庫。
backup db type=full devclass=files
2.停止服務器。
3.創建數據庫、活動日誌和歸檔日誌的目錄。
mkdir /tsmdb005
mkdir /tsmdb006
mkdir /tsmdb007
mkdir /tsmdb008
mkdir /activelog2
mkdir /archivelog2
4.創建列出數據庫目錄位置的文件。例如,下面是dbdirs.txt文件的內容:
/tsmdb005
/tsmdb006
/tsmdb007
/tsmdb008
5.除去數據庫實例。
dsmserv removedb TSMDB1
6.請發出dsmserv restore db實用程序來移動數據庫並創建新的活動日誌。例如:
dsmserv restore db todate=today on=dbdirs.txt activelogdir=/activelog2
7.重新啟動服務器
8.將歸檔日誌從舊目錄移動到新目錄。請確保保留任何子目錄結構。
cp -r /archivelog/* /archivelog2
每日監視任務
*驗證數據庫文件系統是否有足夠的空間。
*檢查數據庫使用率百分比、可用空間和可用頁面。
*驗證包含這些日誌文件的文件系統中是否有足夠的磁盤空間。
--活動日誌
--歸檔日誌
--鏡像日誌
--歸檔故障轉移日誌
*驗證實例目錄文件系統是否有足夠的空間。
*驗證數據庫備份是否成功完成,以及運行備份的頻率是否足夠。
*檢查數據庫和恢復日誌統計信息。
*驗證是否具有設備配置的當前備份文件以及卷歷史記錄信息。可通過查看dsmserv.opt文件的DEVCONFIG和VOLUMEHISTORY選項來查找備份的文件名。請確保存儲文件的文件系統具有足夠的空間。
*搜索總結表以查找失敗的進程。
*搜索活動日誌以查找錯誤信息。
*對於啟用了重復數據刪除的存儲池,請確保進程正在成功完成。
*檢查存儲池的狀態以確保有足夠的可用空間。
*檢查是否有任何失敗的存儲池遷移。
*檢查有多少可用臨時卷。
*確定是否有任何磁帶機處於脫機狀態,或者是否有磁帶機路徑處於脫機狀態。
*確定是否有任何庫處於脫機狀態,或者是否有庫路徑處於脫機狀態。
*驗證所有磁帶是否有相應的寫訪問權。
*驗證disaster recovery manager(DRM)的狀態和設置。
*驗證是否有失敗或缺失的調度。
*檢查調度客戶機操作的總結表。
*檢查調度服務器操作的總結表。
使用命令行監視操作
每日監視服務器進程
1.搜索總結表以查找先前24小時周期內失敗的任何服務器進程:
select activity as process,number as processnum from summary where
activity in (‘EXPIRATION‘,‘RECLAMATION‘,‘MIGRATION‘,‘STGPOOL BACKUP‘,
‘FULL_DBBACKUP‘,‘INCR_DBBACKUP‘) and successful=‘NO‘ and end_time>
(current_timestamp - interval ‘24‘ hours)
2.搜索活動日誌以查找與第一步中的命令輸出中指示的失敗進程號關聯的消息。
select message from actlog where process=7 and date_time>(current_timestamp - interval ‘24‘ hours) and severity in (‘W‘,‘E‘,‘S‘)
3.檢查成功數據庫備份的頻率以確定運行的頻率是否足夠,因為足夠的頻率才能清除歸檔日誌空間,提供足夠恢復點,以及允許保存相應數量的卷以進行災難恢復。
每日監視數據庫
1.使用query dbspace命令,然後檢查通過查詢報告的文件系統信息,以確保文件系統具有足夠空間。請檢查總空間、已用空間和可用空間。
2.檢查數據庫所在的文件系統
3.查詢數據庫以確保使用率百分比是可接受的,而且剩余的空間足以應對未來幾天或幾周的預期活動。這包括檢查可用空間容量和可用頁面的值。
query db f=d
4.監視文件系統以確保它們沒有耗盡空間。
query log f=d
5.檢查實例目錄以確保它有足夠的空間.
檢查instance_dir/sqllib/db2dump目錄並定期刪除*.trap.txt和*.dump.bin文件.
V6.2和更高版本的服務器:
db2diag.log文件由TSM管理並且將定期自動清理.
DB2DIAGSIZE選項可用於控制診斷日誌文件的最大大小.
V6.1服務器必須定期刪除db2diag.log文件.
6.驗證數據庫備份是否已成功完成
7.檢查以確保dsmserv.opt文件中配置的DEVCONFIG和VOLUMEHISTORY文件是當前版本而且是最新的.
每日監視磁盤存儲池
1.檢查存儲池的狀態並確保有足夠高的可用空間。
*檢查使用率百分比以確保空間量足以應對數據傳入速率。
*應將遷移閥值的上限和下限設置為將允許正確遷移循環的值
*如果存儲池設置為CACHE=YES,那麽遷移百分比應接近於零。
*這表示系統正在將項適當地清除存儲池。
發出QUERY STGPOOL命令顯示關於一個或多個存儲池的信息。
2.查看磁盤卷的狀態。發出SELECT命令並指定特定設備類名稱:
select volume_name,status from volumes
where devclass_name=‘devclass_name‘
3.檢查是否存在可導致空間未及時釋放的任何失敗遷移:
select start_time,end_time,activity as process,number as processnum,
entity as poolname from summary where activity=‘MIGRATION‘ and successful=‘NO‘
and end_time>(current_timestamp - interval ‘24‘ hours)
每日監視順序存取存儲池
1.檢查存儲池的狀態並確保有足夠的可用空間。
QUERY STGPOOL
2.使用該select命令檢查順序存取存儲池卷的狀態:
select volume_name,status,access,write_errors,read_errors,
error_state from volumes where stgpool_name=‘STORAGE_POOL_NAME‘
3.驗證是否所有磁帶都有都有適當的寫訪問權:
select volume_name,access from volumes
where stgpool_name=‘TAPEPOOL‘ and access!=‘READWRITE‘
4.使用QUERY DIRSPACE命令可顯示設備類為FILE的設備類相關聯目錄中的可用空間。
query dirspace
5.使用select命令確定磁帶庫中有多少臨時卷可用:
select library_name,count(*) "Scratch volumes" from libvolumes
where status=‘Scratch‘ group by library_name
6.確定可能從使用這些磁帶庫的存儲池分配出多少臨時卷
select stgpool_name,(maxscratch-numsratchused)
as "Num Scratch Allocatable" from stgpools
where devclass=‘DEVICE_CLASS_NAME‘
7.確定是否有任何磁帶機或路徑處於脫機狀態
a.檢查以確保磁帶機處於聯機狀態:
select drive_name,online from drives
where online<>‘YES‘
b.檢查以確保磁帶機的路徑也處於聯機狀態。
select library_name,destination_name,online
from paths where online<>‘YES‘ and destination_type=’DRIVE‘
8.檢查是否有任何庫路徑處於脫機狀態:
select destination_name,device,online from paths
where online<>‘YES‘ and destination_type=‘LIBRARY‘
每日監視調度操作
1.查找可能指示問題的任何缺失或失敗的調度操作:
query event * * type=client
query event * type=admin
2.檢查缺失的調度
select time(scheduled_start)"Start Time",node_name"Client"
from events where status=‘Missed‘
3.檢查任何失敗的調度
select time(scheduled_start)"Start Time",node_name"Client"
from events where status=‘Failed‘
4.檢查活動日誌以查找可能指示問題的任何意外消息。
query actlog search=ANE????E begindate=today
query actlog search=ANE????W begindate=today
query actlog search=ANE????S begindate=today
5.檢查火活動日誌以查找服務器消息
query actlog search=ANR????E begindate=today
query actlog search=ANR????W begindate=today
query actlog search=ANR????S begindate=today
query actlog search=ANR9999D begindate=today
6.檢查各種調度客戶機操作
select * from summary where schedule_name is not null and end_time>
(current_timestamp - interval ‘24‘ hours) and activity in
(‘BACKUP‘,‘ARCHIVE‘,‘RETRIEVE‘,‘RESTORE‘)
7.檢查調度服務器進程
select * from summary where schedule_name is not null and end_time>
(current_timestamp - interval ‘24‘ hours) and activity in
(‘EXPIRATION‘,‘MIGRATION‘,RECLAMATION‘,‘STGPOOL BACKUP‘,‘FULL_DBBACKUP‘,‘INCR_DBBACKUP‘)
基本監視方法
關於客戶機會話的信息
query session
關於服務器進程的信息
query process
關於服務器設置的信息
query status
查詢服務器選項
query option
查詢系統
query system
該命令可用於為IBM服務所作的問題分許來收集統計信息並提供信息
輸入query system命令時,服務器將發出以下查詢:
query association
顯示與一個或多個客戶機調度相關聯的所有客戶機節點
query copygroup
顯示所有備份和歸檔副本組(標準格式)
query db
顯示關於數據庫的信息(詳細格式)
query dbspace
顯示與數據庫使用的目錄相關的顯示信息
query devclass
顯示所有設備類(詳細格式)
quer domain
顯示所有策略域(標準格式)
query log
顯示關於恢復日誌的信息(詳細格式
query mgmtclass
顯示所有管理類(標準格式)
query option
顯示所有服務器選項
query process
顯示關於所有活動後臺進程的信息
query schedule
顯示客戶機調度(標準格式)
query session
以標準格式顯示所有管理和客戶機節點會話的相關信息
query status
顯示常規服務器參數
query stgpool
顯示關於所有存儲池的信息(詳細格式)
query volume
顯示關於所有存儲池的信息(標準格式)
query volhistory
顯示服務器收集的順序卷歷史記錄信息
select platform_name,count(*) from nodes group by platform_name
按平臺顯示客戶機節點的數量
select stgpool_name,devclass_name,count(*) from volumes
group by stgpool_name,devclass_name
顯示被分配了一個或多個卷的所有存儲池的名稱及關聯設備類
了解系統目錄表
TSM提供了三個系統目錄表:
SYSCAT.TABLES
包含可以用SELECT命令查詢的所有表格的相關信息
SYSCAT.COLUMNS
說明每個表中的列
SYSCAT.ENUMTYPES
定義每種枚舉類型的有效值以及每種類型的值的順序。
TSM日常維護