運維老司機分享的八個AIX日常運維經驗及案例
原文來自微信公眾號:AIX專傢俱樂部
【經驗分享】在AIX啟動時,開啟debug模式
經常遇到aix無法啟動,但又不知道pending在哪,因此開啟啟動過程的debug模式,對於診斷問題有很大的幫幫助。下面是開啟debug的方法:
開啟啟動debug先進入微碼模式(啟動介面中輸入8)
boot -s trap
進入kdb
dbgopt
選擇要debug的內容
重新進入kdb
輸入g
分享者:崔增順
【經驗分享】odm庫修復方法
分享者:崔增順
【經驗分享】如何收集filemon資料
filemon -O all -o filemon.out;sleep 30;trcstop
語法:
filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]
輸出結果儲存在fm.out 中。輸出欄位說明如下:
最活躍的檔案
#MBs 此檔案在測量間隔時間內的傳送量(以 MBs 為單位)。各行按照此欄位降序排列。
#opns 在測量週期內的檔案的開啟次數。
#rds 檔案讀取呼叫的次數
#wrs 檔案寫入呼叫的次數
file 檔名稱(檔案路徑全稱在詳細報告中)。
volume:inode 檔案駐留的邏輯卷和在相連檔案系統總的 i-node 數目。此欄位可以被用來把檔案和在詳細的 VM 段報告中顯示的其相應的永久段關聯起來。此欄位對在執行過程中建立和刪除的臨時檔案可以為空。
最活躍的段
#MBs 此段在測量間隔時間內的傳送量(以 MBs 為單位)。各行按照此欄位降序排列。
#rpgs 從磁碟讀入段中大小為 4-KB 的頁面數
#wpgs 從段中寫入磁碟大小為 4-KB 的頁面數(page out)
#segid 記憶體段的 VMM 標識
segtype段的型別:工作段、永久段(本地檔案)、客戶機段(遠端檔案)、頁表段、系統段或者包含檔案系統資料的指定永久段。
volume:inode 對永久段來說,包含相關檔案的邏輯卷名稱和檔案的 i-node 數目。此欄位可以被用來把段和在詳細的檔案狀態報告中顯示的其相應的檔案關聯起來。對非永久段來說,此欄位為空。
最活躍的邏輯卷
util 邏輯卷使用率。
#rblk 從邏輯卷讀取的大小為 512 位元組的塊數。
#wblk 寫入邏輯卷大小為 512 位元組的塊數。
KB/s 每秒鐘平均傳送速率,單位 KB。
volume 邏輯卷名稱。
description 檔案系統安裝點或是邏輯卷型別(paging, jfslog, boot,or sysdump)。例如,邏輯卷 /dev/hd2 是/usr型別;/dev/hd6 是 paging 型別以及 /dev/hd8 是 jfslog 型別。有時也可能出現被壓縮的這個字眼。這意味著所有的資料在被寫入磁碟前都會以 Lempel-Zev(LZ)壓縮技術自動壓縮,在從磁碟讀取時則自動解壓縮。
最活躍的物理卷
util 物理卷使用率。
注:邏輯卷 I/O 請求在物理卷 I/O 請求前後啟動。總的邏輯卷使用率將會看起來比總的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在測量時間間隔內繁忙。
#rblk 從物理卷讀取的大小為 512 位元組的塊數。
#wblk 寫入物理卷大小為 512 位元組的塊數。
KB/s 每秒鐘平均傳送速率,單位 KB。
volume 物理卷名稱。
description 有關物理卷型別的簡單描述,例如, SCSI 多媒體 CD-ROM 驅動器或 16位SCSI 磁碟驅動器。
檔案系統的安裝點(mount point)及檔案的i節點(inode)可與命令ncheck一起使用,來找出相對應的檔案。
分享者:崔增順 張文正
【案例分享】/dev/null 2>&1 檔案過大導致根目錄爆滿
在日常檢查維護過程中,發現小機分割槽/目錄89%,90%,
du -axg / |sort -rn|head
查找出/根目錄下最大的10 個檔案,發現 ‘/dev/null 2>&1’檔案非常大,佔比達60%,而且rootvg所剩餘的空間不足,無法進行擴容。在IBM官網查詢手冊以及證實後,發現此檔案不停增大為AIX6.1的系統BUG。在觀察了近1個月後,在和童確認。在dfkdr分割槽上進行嘗試刪除。之後,,進行刪除操作。根目錄恢復正常。
http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f
Description
The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.
This happens with agents that have the following cas.agent fileset version:
cas.agent 1.4.2.32
Common Agent Services Agent
Work-around and fix notes are detailed below.
判別是否存在BUG
lslpp -L cas.agent
可看到Level為1.4.2.32,C F
BUG指令碼為
cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh
…
else
CAS_SRC_LOG=”/dev/null 2>&1”
fi
…
Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.
處理方式:
1.disable cas_agent 操作命令: stopsrc –s cas_agent
2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”
3.在/dev下執行rm nul*1
分享者:ACDante
【案例分享】多CEC櫃 9117-570更換FSP後報無法開機,程式碼報B1551380
原因:沒有按HMC流程更換FSP,換上去的FSP的”processing unit identifier”記錄的是B2,B2設定只能支援單櫃,不支援多CEC櫃。
解決:powered off狀態時,進入ASM把”processing unit identifier”改為B3。
Note: This feature is available only when the system is powered off. This operation resets the service processor.
To change the processing unit identifier, do the following:
1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.
2.In the navigation area, expand System Configuration.
3.Select Processing Unit Identifier.
4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:
5.Note: Processing unit IDs are not applicable for IntelliStation® POWER® 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.
6.Click Save settings to complete the operation.
分享者:姜恆
【案例分享】AIX6100-06-06系統bug引起down機
某機器作業系統版本6100-06-06,系統down機,生成dump檔案。
Problem:
System crash with following stack
CRASH INFORMATION:
CPU 3 CSA F00000002FF47600 at time of crash, error code
for
LEDs: 30000000
pvthread+02BD00 STACK:
[00009500].simple_lock+000000 ()
[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,
??, ??)
[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)
[004504DC]netinfo+0000FC (??, ??, ??, ??)
[00003850]ovlya_addr_sc_flih_main+000130 ()
[kdb_get_virtual_memory] no real storage @
FFFFFFFFFFFEF20
[100002640]0000000100002640 ()
[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30
bug原因
File lock is taken before checking whether the file type is
socket.
該故障因netstat -f unix 命令引起系統 crash, 是iBM bug 引起
建議單獨提升bos.mp64包補丁包或者整體升級到6100-06-12-1339(SP12)
官網解釋:
IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06
http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793
File lock is taken before checking whether the file type is
socket.
分享者:qb306
【案例分享】一次HACMP的回車
記得印象很深刻的一次,當時並沒有陪過HACMP,但維護的環境中有一臺出報的系統找到了我。當時是打電話聯絡當時做這套系統的技術支援。逐步檢查HACMP的配置,檢查後。本來應該推出,但是當時手抖。習慣性的敲了回車。什麼配置都沒有改動。但是卻報了錯說讓我重啟生效,那時候才知道HACMP無論配置有沒有改動。敲了回車就認為是修改了配置。要重啟。
分享者:pysx0503
【案例分享】某企業HACMP軟體,在網路交換機變更是引起down機
某企業HA cluster log, IP switch down時引起雙節點halt,系統版本7100-03-03,HA版本6.1sp13
Error description
In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all
IP networks are lost and at least one non-IP network is
functioning, the Group Services subsystem will core dump when
trying to send packets to be routed through Topology Services
(across the non-IP connection). This will cause a node halt.
Customers with PowerHA 7, or HACMP 6 customers with no non-IP
networks (such as rs232 or disk) are not in danger. Also this
will not happen if only one node is still running, since there
will be no other cluster members to send messages to.
日誌如下
Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0
Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)
Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d
ispatch group services (1).
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!
原因是補丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升級rsct檔案集。
官網解釋:
http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293
分享者:qb306