sar詳解(linux/unix通用)
轉載:http://www.toxingwang.com/linux-unix/2027.html
sar是linux和unix通用的性能報告工具,常用命令組合如下:
sar 命令行的常用格式:
sar [options] [-A] [-o file] t [n]
sar [ 選項 ] [ <時間間隔> [ <次數> ] ]
在命令行中,n 和t 兩個參數組合起來定義采樣間隔和次數,t為采樣間隔,是必須有
的參數,n為采樣次數,是可選的,默認值是1,-o file表示將命令結果以二進制格式
存放在文件中,file 在此處不是關鍵字,是文件名。options 為命令行選項,sar命令
的選項很多,下面只列出常用選項:
-A 所有的報告總和
-a 文件讀,寫報告
-B 報告附加的buffer cache使用情況
-b buffer cache使用情況
-c 系統調用使用報告
-d 硬盤使用報告
-h 關於buffer使用統計數字
-m IPC消息和信號燈活動
-p 調頁活動
-q 運行隊列和交換隊列的平均長度
-R 報告進程的活動
-r 沒有使用的內存頁面和硬盤塊
-u CPU利用率
-v 進程,i節點,文件和鎖表狀態
-w 系統交換活動
-y TTY設備活動
下面將舉例說明。
例一:報告CPU使用情況,使用命令行 sar -u t n
例如,每60秒采樣一次,連續采樣5次,觀察CPU 的使用情況,並將采樣結果以二進制
形式存入當前目錄下的文件sar.out中,需鍵入如下命令:
root@prddb1:/home#sar -u -o sar.out 60 5
HP-UX prddb1 B.11.31 U ia64 01/06/14
09:52:54 %usr %sys %wio %idle
09:53:54 39 9 45 7
09:54:54 47 9 38 6
09:55:54 46 9 38 7
09:56:54 44 9 40 6
09:57:54 40 8 45 7
Average 43 9 41 7
在顯示內容包括:
- %usr:CPU處在用戶模式下的時間百分比。
- %sys:CPU處在系統模式下的時間百分比。
- %wio:CPU等待輸入輸出完成時間的百分比。
- %idle:CPU空閑時間百分比。
在所有的顯示中,我們應主要註意%wio和%idle,%wio的值過高,表示硬盤存在I/O瓶頸,%idle值高,表示CPU較空閑,如果%idle值高但系統響應慢時,有可能是CPU等待分配內存, 此時應加大內存容量。%idle值如果持續低於10,那麽系統的CPU處理能力相對較低,表明系統中最需要解決的資源是CPU。
如果要查看二進制文件sar.out中的內容,則需鍵入如下sar命令:
# sar -u -f sar.out
可見,sar命令即可以實時采樣,又可以對以往的采樣結果進行查詢。
例二:報告核心表狀態,使用命行sar -v t n
例如,每5秒采樣一次,連續采樣3次,觀察核心表的狀態,需鍵入如下命令:
root@prddb1:/#sar -v 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:32:28 text-sz ov proc-sz ov inod-sz ov file-sz ov
14:32:33 N/A N/A 335/4200 0 2227/139264 0 2579/2147483647 0
14:32:38 N/A N/A 335/4200 0 2227/139264 0 2581/2147483647 0
14:32:43 N/A N/A 335/4200 0 2227/139264 0 2584/2147483647 0
顯示內容包括:
- proc-sz:目前核心中正在使用或分配的進程表的表項數,由核心參數MAX-PROC控制。
- inod-sz:目前核心中正在使用或分配的i節點表的表項數,由核心參數MAX-INODE控制。
- file-sz: 目前核心中正在使用或分配的文件表的表項數,由核心參數MAX-FILE控制。
- ov:溢出出現的次數。
- Lock-sz:目前核心中正在使用或分配的記錄加鎖的表項數,由核心參數MAX-FLCKRE控制。
顯示格式為:
實際使用表項/可以使用的表項數顯示內容表示,核心使用完全正常,三個表沒有出現溢出現象,核心參數不需調整,如果出現溢出時,要調整相應的核心參數,將對應的表項數加大。
例三:報告磁盤使用情況,使用命行sar -d t n
例如,每5秒采樣一次,連續采樣3次,報告設備使用情況,需鍵入如下命令:
root@prddb1:/#sar -d 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:17:47 device %busy avque r+w/s blks/s avwait avserv
10:17:52 disk33 0.40 0.50 1 10 0.00 5.02
disk34 100.00 0.50 824 35543 0.00 10.74
disk35 100.00 0.50 2387 86635 0.00 9.77
disk67 100.00 0.50 454 17651 0.00 14.35
10:17:57 disk33 2.01 0.50 3 35 0.48 21.28
disk34 100.00 0.50 751 34238 0.00 12.11
disk35 100.00 0.50 1799 74124 0.00 11.93
disk67 100.00 0.50 407 14429 0.00 14.71
10:18:02 disk33 2.59 0.50 4 36 0.00 7.46
disk34 100.00 0.50 634 30645 0.00 12.69
disk35 100.00 0.50 1611 74142 0.00 13.54
disk67 100.00 0.50 354 13294 0.00 14.99
Average disk33 1.66 0.50 3 27 0.18 12.49
Average disk34 100.00 0.50 736 33473 0.00 11.76
Average disk35 100.00 0.50 1933 78311 0.00 11.49
Average disk67 100.00 0.50 405 15126 0.00 14.66
顯示內容包括:
- device: sar命令正在監視的塊設備的名字。
- %busy: 設備忙時,傳送請求所占時間的百分比。
- avque: 隊列站滿時,未完成請求數量的平均值。
- r+w/s: 每秒傳送到設備或從設備傳出的數據量。
- blks/s: 每秒傳送的塊數,每塊512字節。
- avwait: 隊列占滿時傳送請求等待隊列空閑的平均時間。
- avserv: 完成傳送請求所需平均時間(毫秒)。
在顯示的內容中,disk##是硬盤的名字,%busy的值比較小,說明用於處理傳送請求的有效時間太少,文件系統效率不高,一般來講,%busy值高些,avque值低些,文件系統的效率比較高,如果%busy和avque值相對比較高,說明硬盤傳輸速度太慢,需調整。
例四:報告緩沖區使用情況,使用命行sar -b t n
例如,每5秒采樣一次,連續采樣3次,報告緩沖區的使用情況,需鍵入如下命令:
root@prddb1:/#sar -b 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:20:46 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s
10:20:51 0 5029 100 24 27 13 0 0
10:20:56 0 4335 100 21 22 6 0 0
10:21:01 0 5118 100 22 26 13 0 0
Average 0 4827 100 22 25 11 0 0
顯示內容包括:
- bread/s: 每秒從硬盤讀入系統緩沖區buffer的物理塊數。
- lread/s: 平均每秒從系統buffer讀出的邏輯塊數。
- %rcache: 在buffer cache中進行邏輯讀的百分比。
- bwrit/s: 平均每秒從系統buffer向磁盤所寫的物理塊數。
- lwrit/s: 平均每秒寫到系統buffer邏輯塊數。
- %wcache: 在buffer cache中進行邏輯讀的百分比。
- pread/s: 平均每秒請求物理讀的次數。
- pwrit/s: 平均每秒請求物理寫的次數。
在顯示的內容中,最重要的是%cache和%wcache兩列,它們的值體現著buffer的使用效率,%rcache的值小於90或者%wcache的值低於65,應適當增加系統buffer的數量,buffer數量由核心參數NBUF控制,使%rcache達到90左右,%wcache達到80左右。但buffer參數值的多少影響I/O效率,增加buffer,應在較大內存的情況下,否則系統效率反而得不到提高。
sar命令的用法很多,有時判斷一個問題,需要幾個sar命令結合起來使用,比如,懷疑CPU存在瓶頸,可用sar -u 和sar -q來看,懷疑I/O存在瓶頸,可用sar -b、sar -u和sar-d來看
例五:報告文件讀寫情況,使用命令sar -a t n
root@prddb1:/home#sar -a 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:31:23 iget/s namei/s dirbk/s
10:31:28 0 178 2
10:31:33 0 220 3
10:31:38 0 164 4
Average 0 187 3
顯示內容包括:
- iget/s 每秒由i節點項定位的文件數量
- namei/s 每秒文件系統路徑查詢的數量
- dirbk/s 每秒所讀目錄塊的數量
*這些值越大,表明核心花在存取用戶文件上的時間越多,它反映著一些程序和應用文件系統產生的負荷。一般地,如果iget/s與namei/s的比值大於5,並且namei/s的值大於30,則說明文件系統是低效的。這時需要檢查文件系統的自由空間,看看是否自由空間過少。
例六:報告進程間的通信活動(IPC消息和信號燈活動)情況
root@prddb1:/#sar -m 4 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:16:30 msg/s sema/s
14:16:34 1384.79 906.48
14:16:38 1212.97 799.25
14:16:42 789.25 905.00
Average 1129.28 870.22
顯示內容包括:
- msg/s 每秒消息操作的次數(包括發送消息的接收信息)。
- sema/s 每秒信號燈操作次數。
*信號燈和消息作為進程間通信的工具,如果在系統中運行的應用過程中沒有使用它們,那麽由sar命令報告的msg 和sema的值都將等於0.00。如果使用了這些工具,並且其中或者msg/s大於100,或者sema/s大於100,則表明這樣的應用程序效率比較低。原因是在這樣的應用程序中,大量的時間花費在進程之間的溝通上,而對保證進程本身有效的運行時間必然產生不良的影響。
例七:報告分頁活動
Linux下使用如下:
[root@nagios ~]# sar -u -p 0 5 3
Linux 2.6.32-431.el6.x86_64 (nagios.aisidi.com) 2014年01月06日 _x86_64_ (2 CPU)
14時14分39秒 CPU %user %nice %system %iowait %steal %idle
14時14分44秒 all 12.47 0.00 5.68 0.00 0.00 81.85
14時14分49秒 all 61.03 0.00 1.42 0.00 0.00 37.55
14時14分54秒 all 14.39 0.00 0.75 0.00 0.00 84.85
平均時間: all 29.60 0.00 2.65 0.00 0.00 67.75
HP-UX需與-u或-q一起使用,且需要指定CPU,具體如下:
root@prddb1:/#sar -u -p 0 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:22:52 %usr %sys %wio %idle
14:22:54 70 6 17 6
14:22:56 77 5 12 5
14:22:58 68 5 15 11
Average 72 6 15 8
顯示內容包括:
- vflt/s 每秒進行頁面故障地址轉換的數量(由於有效的頁面當前不在內存中)。
- pflt/s 每秒來自由於保護錯誤出現的頁面故障數量(由於對頁面的非法存,取引起的頁面故障)。
- pgfil/s 每秒通過”頁—入”滿足vflt/s的數量。
- rclm/s 每秒由系統恢復的有效頁面的數量。有效頁面被增加到自由頁面隊列上。
*如果vflt/s的值高於100,可能預示著對於頁面系統來說,應用程序的效率不高,也可能分頁參數需要調整,或者內存配置不太合適。
例八:報告進程隊列(運行隊列和交換隊列的平均長度)情況
root@prddb1:/#sar -q 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:25:21 runq-sz %runocc swpq-sz %swpocc
14:25:23 1.2 46 0.0 0
14:25:25 1.0 42 0.0 0
14:25:27 1.2 17 0.0 0
Average 1.1 35 0.0 0
顯示內容包括:
- runq-sz 準備運行的進程運行隊列。
- %runocc 運行隊列被占用的時間(百分比)
- swpq-sz 要被換出的進程交換隊列。
- %swpocc 交換隊列被占用的時間(百分比)。
*如果%runocc大於90,並且runq-sz的值大於2,則表明CPU的負載較重。其直接後果,可能使系統的響應速度降低。如果%swpocc大於20,表明交換活動頻繁,將嚴重導致系統效率下降。解決的辦法是加大內存或減少緩存區數量,從而減少交換及頁—入,頁—出活動。
例九:報告內存及交換區使用情況(沒有使用的內存頁面和硬盤塊) ,hp-ux不支持
[root@nagios ~]# sar -r 2 3
Linux 2.6.32-431.el6.x86_64 (nagios.aisidi.com) 2014年01月06日 _x86_64_ (2 CPU)
14時26分26秒 kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit
14時26分28秒 559572 460564 45.15 42048 145256 702880 22.79
14時26分30秒 536416 483720 47.42 42056 145356 967436 31.36
14時26分32秒 536464 483672 47.41 42064 145356 967436 31.36
平均時間: 544151 475985 46.66 42056 145323 879251 28.51
顯示內容包括:
- kbmemfree 空閑內存,以KB為單位可用量。
- kbmemused 使用的內存,以KB為單位量。這並沒有考慮到內核所使用內存。
- %memused 已用內存的百分比。
- kbbuffers 內存量,以kb為單位,用於內核緩沖區。
- kbcached 內存量,以kb為單位,用於內核緩存數據。
- kbcommit 內存在需要目前的工作量kb量。
- %commit 當前工作負載所需的內存百分比(物理內存+swap)。這個數字可能會大於100%,因為內核通常over commits內存。
例十:報告系統交換活動
root@prddb1:/#sar -w 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:27:43 swpin/s bswin/s swpot/s bswot/s pswch/s
14:27:45 0.00 0.0 0.00 0.0 19280
14:27:47 0.00 0.0 0.00 0.0 6114
14:27:49 0.00 0.0 0.00 0.0 22083
Average 0.00 0.0 0.00 0.0 15836
顯示內容包括:
- swpin/s 每秒從硬盤交換區傳送進入內存的次數。
- bswin/s 每秒為換入而傳送的塊數。
- swpot/s 每秒從內存傳送到硬盤交換區的次數。
- bswots 每秒為換出而傳送的塊數。
- pswch/s 每秒進程交換的數量。
*swpin/s,bswin/s,swpot/s和bswots描述的是與硬盤交換區相關的交換活動。交換關系到系統的效率。交換區在硬盤上對硬盤的讀,寫操作比內存讀,寫慢得多,因此,為了提高系統效率就應該設法減少交換。通常的作法就是加大內存,使交換區中進行的交換活動為零,或接近為零。如果swpot/s的值大於1,預示可能需要增加內存或減少緩沖區(減少緩沖區能夠釋放一部分自由內存空間)。
例十一:報告終端的I/O活動(TTY設備活動)情況
root@prddb1:/#sar -y 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:28:43 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s
14:28:45 0 0 0 0 0 0
14:28:47 0 0 0 0 0 0
14:28:49 0 0 0 0 0 0
Average 0 0 0 0 0 0
顯示內容包括:
- rawch/s 每秒輸入的字符數(原始隊列)
- canch/s 每秒由正則隊列(canonical queue)處理的輸入字符數。進行正則處理過程中,可以識別出一些有特殊意義的字符。比如,(中斷字符),(退出符),(退格鍵)等。因此,canch/s中的計數不包括這些有特殊意義的字符。
- outch/s 每秒輸出的字符數。
- rcvin/s 每秒接收的硬件中斷次數。
- xmtin/s 每秒發出的硬件中斷次數。
- mdmin/s 每秒modem中斷次數。
*應該特別說明,sar命令可以對任意終端活動進行統計,所謂任意終端,是指任意tty設備。它們可以是串行終端,主控臺,偽終端等等。
*在這幾個量中,modem中斷次數mdmin/s應該接近0。其它沒有特殊要求,但如果每發送一個字符,中斷的數量就動態地增加,這表明終端線出了差錯,可能是接觸不好。
sar詳解(linux/unix通用)