1. 程式人生 > >集群監控

集群監控

隊列 足夠 一個隊列 健康 網卡 過多 分數 間隔 進程

監控指標

1、load

  load表示在特定時間間隔內運行隊列中的線程數,每個CPU核維護著一個運行隊列,隊列中的線程數越多,意味著cpu越繁忙。一般一個隊列維護的線程數不大於3表示cpu運行正常,如果大於5表明cpu運行超負荷。查看load指標的指令為uptime

2、cpu使用率

  通過top指令來查看cpu的使用率

3、trafic

  可以通過sar指令查看每個節點的trafic狀態。指令為:sar -n DEV 1 1。n表示匯報網絡狀態,DEV表示查看各個網卡的網絡流量,第一個1表示每一秒抽樣一次,第二個1表示總共抽樣一次。

4、磁盤I/O

  對於數據庫應用和分布式文件存儲系統,I/O指標在一定程度上反映了服務的繁忙程度,IO查看指令為:iostat -d -k。

5、內存使用

  free -g指令查看系統內存。total表示物理內存。剩余內存的計算方式為free=free+buffers+cached。使用內存used=used-buffers-cached。對於應用來說更應該關註的是swap,swap消耗過多表示物理內存已經不夠用了。因為如果內存不夠,部分數據會從內存轉到磁盤,以騰出足夠的空間給當前進程。內存越不夠用,內存與磁盤的交換越頻繁,swap使用越高。

心跳檢測

1、ping

  ping指令可以查看地址的響應數據。

2、應用層檢測

  通過curl指令可以訪問應用層預留的自檢url,通過響應數據來感知應用的健康狀態,一旦響應超時或者無響應可以輸出報警信息。

集群監控