linux系統cpu、記憶體、磁碟IO異常查詢方式彙總

阿新 • • 發佈：2019-01-01

對linux系統中cpu、記憶體、磁碟IO異常定位的方式進行梳理總結如下：

1、先記錄下基本的cpu資訊查詢方式：

# 總核數 = 物理CPU個數 X 每顆物理CPU的核數
# 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超執行緒數

# 檢視物理CPU個數
cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

# 檢視每個物理CPU中core的個數(即核數)
cat /proc/cpuinfo| grep "cpu cores"| uniq

# 檢視邏輯CPU的個數
cat /proc/cpuinfo| grep "processor"| wc -l

#檢視CPU資訊（型號）
cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c

2、cpu使用情況以及高使用率程序查詢：

2.1、整體檢視cpu的負載情況，load average數不要超過超過邏輯cpu的個數太高

uptime
11:14:13 up 246 days, 6:00, 4 users, load average: 0.07, 0.14, 0.09

2.2、vmstat檢視cpu的us、sy、id、wa 使用情況也可查詢記憶體使用情況

vmstat 2 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
0 0      0 597864 43364 1183452    0    0     6    27    1    0 1 2 97 0 0
0 0      0 597336 43376 1183476    0    0     0    76 2155 7076 2 3 87 8 0
0 0      0 597336 43376 1183476    0    0     0    84 2128 7223 2 2 97 0 0
0 0      0 594160 43384 1183804    0    0     0    44 2086 6940 4 3 94 0 0
0 0      0 595788 43392 1183932    0    0     0    28 2308 7650 1 3 91 5 0

2.3、top 查詢cpu的詳細使用情況和佔cpu較高的程序

top
top - 11:15:37 up 246 days, 6:01, 4 users, load average: 0.05, 0.12, 0.09
Tasks: 194 total,   1 running, 193 sleeping,   0 stopped,   0 zombie
Cpu(s): 1.4%us, 1.8%sy, 0.0%ni, 96.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem:   3786980k total, 3191104k used,   595876k free,    43280k buffers
Swap: 6291452k total,        0k used, 6291452k free, 1182756k cached

   PID USER      PR NI VIRT RES SHR S %CPU %MEM    TIME+ COMMAND
2186 root      20   0 466m 39m 3808 S 5.9 1.1 16911:21 hekad
     1 root      20   0 19356 804 496 S 0.0 0.0   0:03.77 init
     2 root      20   0     0    0    0 S 0.0 0.0   0:00.13 kthreadd
   通過此處可以找到使用cpu最高的程序pid。

3.4、top -Hp pid檢視使用cpu最高的執行緒數，然後列印對應java程序的threaddump，找出對應執行緒的執行程式碼。需要將tid準換成16進位制的執行緒號

3、查詢記憶體使用

3.1、free -m查詢記憶體使用情況

total       used       free     shared    buffers     cached
Mem:          3698       3133        564          0         43       1170
-/+ buffers/cache:       1919       1779
Swap:         6143          0       6143

第一部分Mem行:
total 記憶體總數: 1002M
used 已經使用的記憶體數: 769M
free 空閒的記憶體數: 232M
shared 當前已經廢棄不用,總是0
buffers Buffer 快取記憶體數: 62M
cached Page 快取記憶體數:421M

關係：total(1002M) = used(769M) + free(232M)

第二部分(-/+ buffers/cache):
(-buffers/cache) used記憶體數：286M (指的第一部分Mem行中的used – buffers – cached)
(+buffers/cache) free記憶體數: 715M (指的第一部分Mem行中的free + buffers + cached)

可見-buffers/cache反映的是被程式實實在在吃掉的記憶體,而+buffers/cache反映的是可以挪用的記憶體總數.

第三部分是指交換分割槽，當used為0時說明記憶體不緊張，數字較小時記憶體有點緊張，較大時說明記憶體已不夠用。

3.2、vmstat 2 5也可檢視記憶體使用情況。

3.3、top命令進入後輸入M按記憶體使用排序，可以找到佔用記憶體較高程序。

4、IO使用情況定位

4.1、top查詢wa的使用情況，檢視io佔用cpu是否較高。

4.2、iostat -x 2 5檢視各磁碟的%util情況，越高說明磁碟對應的io越高。

[[email protected] ~]$ iostat -x 2 5
Linux 2.6.32-573.el6.x86_64 (SZA-L0016461) 2017年04月27日 _x86_64_ (2 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle
1.38 0.00 1.85 0.05 0.00 96.72

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await svctm %util
sda               0.05     6.58    0.12    3.43     8.17    80.10    24.84     0.00    1.39   0.59   0.21
dm-0              0.00     0.00    0.14    7.67     7.66    61.39     8.84     0.04    4.54   0.15   0.12
dm-1              0.00     0.00    0.00    0.00     0.00     0.00     8.00     0.00    0.46   0.42   0.00
dm-2              0.00     0.00    0.03    0.56     0.35     4.51     8.24     0.00    7.06   0.11   0.01
dm-3              0.00     0.00    0.00    0.52     0.15     4.15     8.22     0.00    1.91   0.43   0.02
dm-4              0.00     0.00    0.00    0.00     0.00     0.00     2.57     0.00    1.89   1.45   0.00
dm-5              0.00     0.00    0.00    1.26     0.00    10.05     8.00     0.00    1.16   0.56   0.07
sdb               0.00     2.55    0.10    0.66    16.00    25.79    55.24     0.00    3.06   1.19   0.09
dm-6              0.00     0.00    0.10    3.22    16.00    25.79    12.62     0.08   22.76   0.27   0.09

4.3、iotop直接檢視IO較高的程序號，當iotop命令不可以用時使用for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done查詢IO等待的對應程序

# for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done
D 248 [jbd2/dm-0-8]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp

4.4、cat /proc/pid/io檢視對應程序使用的io情況

# cat /proc/16528/io
rchar: 48752567
wchar: 549961789
syscr: 5967
syscw: 67138
read_bytes: 49020928
write_bytes: 549961728
cancelled_write_bytes: 0

4.5、lsof -p pid 或 ls /proc/pid/fd檢視對應的應用目錄

# lsof -p 16528
COMMANDPIDUSERFDTYPEDEVICESIZE/OFFNODENAME
bonnie++ 16528 rootcwdDIR 252,0 4096 130597 /tmp
<truncated>
bonnie++ 16528 root 8u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 9u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 10u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 11u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 12u REG 252,0 501219328 131869 <strong>/tmp/Bonnie.16528</strong>

4.5、fd /tmp檢視對應的卷名

# df /tmp
Filesystem 1K-blocksUsedAvailableUse% Mountedon
/dev/mapper/workstation-root 7667140 2628608 4653920 37% /

4.6、是fdisk -l 或pvdisplay 檢視對應的磁碟，來確認是否與io高的磁碟一致。

業務級IO監控

ioprofile

ioprofile 命令本質上是 lsof + strace, 具體下載可見 http://code.google.com/p/maatkit/

ioprofile 可以回答你以下三個問題:

1 當前程序某時間內,在業務層面讀寫了哪些檔案(read, write)？

2 讀寫次數是多少?(read, write的呼叫次數)

3 讀寫資料量多少?(read, write的byte數)

假設某個行為會觸發程式一次IO動作,例如: "一個頁面點選,導致後臺讀取A,B,C檔案"

============================================

./io_event # 假設模擬一次IO行為,讀取A檔案一次, B檔案500次, C檔案500次

ioprofile -p `pidof io_event` -c count # 讀寫次數

ioprofile -p `pidof io_event` -c times # 讀寫耗時

ioprofile -p `pidof io_event` -c sizes # 讀寫大小

iotop 和 pidstat (僅rhel6u系列)

iotop 顧名思義, io版的top

pidstat 顧名思義, 統計程序(pid)的stat,程序的stat自然包括程序的IO狀況

這兩個命令,都可以按程序統計IO狀況,因此可以回答你以下二個問題

1. 當前系統哪些程序在佔用IO,百分比是多少?
2. 佔用IO的程序是在讀?還是在寫?讀寫量是多少?

pidstat 引數很多,僅給出幾個個人習慣

pidstat -d 1 #只顯示IO

pidstat -u -r -d -t 1 # -d IO 資訊,

                                           # -r 缺頁及記憶體資訊
                                           # -u CPU使用率
                                           # -t 以執行緒為統計單位
                                           # 1 1秒統計一次

block_dump, iodump

iotop 和 pidstat 用著很爽,但兩者都依賴於/proc/pid/io檔案匯出的統計資訊, 這個對於老一些的核心是沒有的,比如rhel5u2

因此只好用以上2個窮人版命令來替代:

echo 1 > /proc/sys/vm/block_dump # 開啟block_dump,此時會把io資訊輸入到dmesg中

# 原始碼: [email protected]_rw_blk.c:3213

watch -n 1 "dmesg -c | grep -oP \"\w+$\d+$: (WRITE|READ)\" | sort | uniq -c"

# 不停的dmesg -c

echo 0 > /proc/sys/vm/block_dump # 不用時關閉

也可以使用現成的指令碼 iodump, 具體參見 http://code.google.com/p/maatkit/source/browse/trunk/util/iodump?r=5389

linux系統cpu、記憶體、磁碟IO異常查詢方式彙總

ioprofile

block_dump, iodump

linux系統cpu、記憶體、磁碟IO異常查詢方式彙總

Linux 釋放cpu&gpu記憶體、視訊記憶體和硬碟

linux調優：按照CPU、記憶體、磁碟IO、網路效能監測

Linux下java獲取CPU、記憶體、磁碟IO、網路頻寬使用率

Linux按照CPU、記憶體、磁碟IO、網路效能監測(強烈推薦)

Linux下java獲取CPU、記憶體、磁碟IO、網路IO

linux下檢視CPU、記憶體、磁碟資訊，資料夾資訊，GPU資訊

shell指令碼採集系統cpu、記憶體、磁碟、網路資訊

利用shell指令碼監控linux中CPU、記憶體和磁碟利用率。（centos7）

Linux效能優化之CPU、記憶體、IO優化

Qt linux獲取cpu使用率、記憶體、網路收發速度、磁碟讀寫速度、磁碟剩餘空間等

Erlang監測系統CPU、記憶體、磁碟

python功能模組之psutil------ Linux效能（CPU、磁碟、記憶體、網絡卡）監控

檢視系統硬體資訊（CPU、記憶體、磁碟、網絡卡）

Linux系統管理初步（二）io、free、ps、netstat命令編輯中

Ubuntu16下檢視CPU、記憶體和磁碟相關資訊

python通過內建模組監控磁碟、記憶體、CPU、負載

Zabbix4.0.1使用自帶模板監控Linux主機基本選項（CPU、記憶體、硬碟、網絡卡）

cpu、記憶體、磁碟、作業系統的關係

jmeter學習------監控linux的cpu、記憶體、網路等資源佔用曲線圖

linux系統cpu、記憶體、磁碟IO異常查詢方式彙總

ioprofile

block_dump, iodump

相關推薦