常用中介軟體的 監控工具與指標 彙總
Kafka 幾種主流監控工具:
- Kafka Web Conslole 測試環境使用 功能全面強大 - 不推薦生產環境使用
- Kafka Manager 管理叢集使用
- KafkaOffsetMonitor 實時監控使用 - 測試監控推薦
KafkaOffsetMonitor 中的引數項說明:
topic:建立時topic名稱
partition:分割槽編號
offset:表示該parition已經消費了多少條message
logSize:表示該partition已經寫了多少條message
Lag:表示有多少條message沒有被消費。
Owner:表示消費者
Created:該partition建立時間
Last Seen:消費狀態重新整理最新時間。
Redis 幾種主流監控工具:
- redis-stat 測試推薦使用,安裝部署簡單,指標清晰
- RedisLive
- redis_exporter + grafana + Prometheus Redis外掛 生產環境監控使用
redis-stat監控引數項說明:
效能指標:Performance
指標名稱 | 名詞解釋 |
---|---|
latency | Redis響應一個請求的時間 |
instantaneous_ops_per_sec | 平均每秒處理請求總數 |
hi rate(calculated) | 快取命中率(計算出來的) |
記憶體指標:memory
指標名稱 | 名詞解釋 |
---|---|
used_memory | 已使用記憶體 |
mem_fragmentation_ratio | 記憶體碎片率 |
evicted_keys | 由於最大記憶體限制被移除的key的數量 |
blocked_clients | 由於BLPOP,BRPOP,or BRPOPLPUSH而備阻塞的客戶端 |
基本活動指標:Basic activity
指標名稱 | 名稱解釋 |
---|---|
connected_clients | 客戶端連線數 |
conected_laves | slave數量 |
master_last_io_seconds_ago | 最近一次主從互動之後的秒數 |
keyspace | 資料庫中的key值總數 |
永續性指標: Persistence
指標名稱 |
名詞解釋 |
rdb_last_save_time |
最後一次持久化儲存磁碟的時間戳 |
rdb_changes_sice_last_save |
自最後一次持久化以來資料庫的更改數 |
指標名稱 | 名詞解釋 |
---|---|
rejected_connections | 由於達到maxclient限制而被拒絕的連線數 |
keyspace_misses | key值查詢失敗(沒有命中)次數 |
master_link_down_since_seconds | 主從斷開的持續時間(以秒為單位) |
ElasticSearch 幾種主流監控工具:
- Cerebro 推薦使用
- Elaticsearch-HQ
ElasticSearch 指標說明
叢集執行的重要指標:
Status:狀態群集的狀態。紅色:部分主分片未分配。黃色:部分副本分片未分配。綠色:所有分片分配ok。
Nodes:節點。包括群集中的節點總數,幷包括成功和失敗節點的計數。 Count of Active
Shards:活動分片計數。叢集中活動分片的數量。 Relocating Shards:重定位分片。由於節點丟失而移動的分片計數。
Initializing Shards:初始化分片。由於新增索引而初始化的分片計數。 Unassigned
Shards。未分配的分片。尚未建立或分配副本的分片計數。
————————————————
請求檢索效能相關的重要指標如下:
query_current:當前正在進行的查詢數。叢集當前正在處理的查詢計數。
fetch_current:當前正在進行的fetch次數。叢集中正在進行的fetch計數。
query_total:查詢總數。叢集處理的所有查詢的聚合數。
query_time_in_millis:查詢總耗時。所有查詢消耗的總時間(以毫秒為單位)。
fetch_total:提取總數。叢集處理的所有fetch的聚合數。
fetch_time_in_millis:fetch所花費的總時間。所有fetch消耗的總時間(以毫秒為單位)。
————————————————
索引效能維度相關重要指標:
refresh.total:總重新整理計數。重新整理總數的計數。
refresh.total_time_in_millis:重新整理總時間。彙總所有花在重新整理的時間(以毫秒為單位進行測量)。
merges.current_docs:目前的合併。合併目前正在處理中。
merges.total_docs:合併總數。合併總數的計數。
merges.total_stopped_time_in_millis。合併花費的總時間。合併段的所有時間的聚合。
————————————————
節點執行的重要指標:
disk.total :總磁碟容量。節點主機上的總磁碟容量。
disk.used:總磁碟使用量。節點主機上的磁碟使用總量。
avail disk:可用磁碟空間總量。
disk.avail disk.used_percent:使用的磁碟百分比。已使用的磁碟百分比。
ram:當前的RAM使用情況。當前記憶體使用量(測量單位)。
percent ram:RAM百分比。正在使用的記憶體百分比。
max : 最大RAM。 節點主機上的記憶體總量
cpu:中央處理器。正在使用的CPU百分比。
————————————————
JVM執行的重要指標如下:
mem:記憶體使用情況。堆和非堆程序和池的使用情況統計資訊。
threads:當前使用的執行緒和最大數量。
gc:垃圾收集。算和垃圾收集所花費的總時間。
————————————————
常用監控指標:
Cluster Health – Nodes and Shards
Search Performance – Request Latency and
Search Performance – Request Rate
Indexing Performance – Refresh Times
Indexing Performance – Merge Times
Node Health – Memory Usage
Node Health – Disk I/O
Node Health – CPU
JVM Health – Heap Usage and Garbage Collection
JVM health – JVM Pool Size
RabbitMQ 主流監控工具:
- rabbitmq_management外掛
- RabbitMQ自帶的tracing Log外掛
叢集範圍指標
指標名稱 |
指標欄位 |
Cluster-wide message rates訊息速率 |
message_stats |
Total number of connections連線總數 |
object_totals.connections |
Total number of channels通道總數 |
object_totals.channels |
Total number of queues佇列總數 |
object_totals.queues |
Total number of consumers消費者總數 |
object_totals.consumers |
Total number of messages (ready plus unacknowledged)就緒未確認總數 |
queue_totals.messages |
Number of messages ready for delivery準備傳送訊息數 |
queue_totals.messages_ready |
Number of unacknowledged messages未確認訊息數 |
queue_totals.messages_unacknowledged |
Messages published recently最近釋出訊息 |
message_stats.publish |
Message publish rate訊息釋出率 |
message_stats.publish_details.rate |
Messages delivered to consumers recently 最近傳遞給消費者消費數 |
message_stats.publish |
Message delivery rate訊息傳遞率 |
message_stats.deliver_get.rate |
Other message stats其他訊息統計 |
message_stats |
節點指標:
指標名稱 |
指標欄位 |
Total amount of memory used使用總量 |
mem_used |
Memory usage high watermark記憶體使用限制 |
mem_limit |
Is a memory alarm in effect?記憶體閥值 |
mem_alarm |
Free disk space low watermark可用磁碟空間 |
disk_free_limit |
Is a disk alarm in effect?磁碟空閒警報 |
disk_free_alarm |
File descriptors available可用有效檔案 |
fd_total |
File descriptors used使用的檔案 |
fd_used |
File descriptor open attempts可用套接字 |
sockets_total |
Sockets available sockets_total已使用套接字 |
sockets_used |
Message store disk reads訊息儲存磁碟讀取 |
message_stats.disk_reads |
Message store disk writes訊息儲存磁碟寫入 |
message_stats.disk_writes |
Inter-node communication link節點通訊連結數 |
cluster_links |
GC runsGC執行數 |
gc_num |
Bytes reclaimed by GC回收GC的位元組數 |
gc_bytes_reclaimed |
Erlang process limitErlang程序限制總數 |
proc_total |
Erlang processes usedErlang 程序已使用數 |
proc_used |
Runtime run queue執行佇列 |
run_queue |
單個佇列指標
指標名稱 |
指標欄位 |
Memory 記憶體數 |
Memory |
Total number of messages 訊息總數(準備+未確認) |
(readyplusunacknowledged) messages |
Number of messages ready for delivery準備傳送的訊息數 |
messages_ready |
Number of unacknowledged messages未確認訊息數 |
messages_unacknowledged |
Messages published recently最近釋出的訊息 |
message_stats.publish |
Message publishing rate訊息釋出率 |
message_stats.publish_details.rate |
Messages delivered recently最近釋出的訊息 |
message_stats.deliver_get |
Message delivery rate訊息傳遞速率 |
message_stats.deliver_get.rate |
Other message stats其他訊息統計 |
message_stats.* |