Prometheus+Grafana+Altermanager監控告警（四）

阿新 • • 發佈：2021-10-20

rule監控規則配置

語法檢查規則

promtool check rules /path/to/example.rules.yml

nodes.rules:

groups:
- name: nodes.rules
  rules:             
  - alert: NodeFilesystemUsage
    expr: 100 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"}) * 100 > 80
    for: 1m
    labels:
      severity: warning
    annotations:
      summary:  
'Instance {{ $labels.instance }} : {{ $labels.mountpoint }} 分割槽使用率過高'
      description: '節點: {{ $labels.instance }}: {{ $labels.mountpoint }} 分割槽使用大於80% (當前值: {{ $value }})'
       
  - alert: NodeMemoryUsage
    expr: 100 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 
 > 90
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: 'Instance {{ $labels.instance }} 記憶體使用率過高'
      description: '節點: {{ $labels.instance }}記憶體使用大於80% (當前值: {{ $value }})'
        
  - alert: NodeCPUUsage
    expr: 100 - (avg by(instance, cluster) (irate(node_cpu_seconds_total{mode=" 
idle"}[5m])) * 100) > 80
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: 'Instance {{ $labels.instance }} CPU使用率過高'
      description: '節點: {{ $labels.instance }}CPU使用大於60% (當前值: {{ $value }})'
      
  - alert: KubeNodeNotReady
    expr: kube_node_status_condition{condition="Ready",status="true"} == 0
    for: 1m
    labels:
      severity: error
    annotations:
      summary: '節點: {{ $labels.node }} 已經有10多分鐘沒有準備好了.'

View Code

pods.rules:

groups:
- name: pods.rules
  rules:
  - alert: PodFailed
    expr: sum
      by(pod, namespace) (kube_pod_status_phase{phase="Failed"})
      > 0
    for: 30s
    labels:
      severity: error
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} Pod狀態Failed (當前值: {{ $value }})'
        
  - alert: InstanceDown
    expr: up == 0
    for: 1m
    labels:
      severity: error
    annotations:
      description: '{{ $labels.instance }} job {{ $labels.job }} 已經停止5分鐘以上.'
      summary: Instance {{ $labels.instance }} 停止工作
      
  - alert: PodCPUUsage
    expr: sum
      by(pod, namespace, cluster, container) (rate(container_cpu_usage_seconds_total{cluster!~"(test|job)",image!=""}[10m])
      * 100) > 90
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} 容器：{{ $labels.container }} CPU使用大於90% (當前值: {{ $value }})'
        
  - alert: PodMemoryUsage
    expr: sum
      by(pod, namespace, container) (container_memory_rss{image!=""})
      / sum by(pod, namespace, container) (container_spec_memory_limit_bytes{image!=""})
      * 100 != +Inf > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} 容器：{{ $labels.container }} 記憶體使用大於80% (當前值: {{ $value }})'
        
  - alert: PodNetworkReceive
    expr: sum
      by(pod, namespace) (rate(container_network_receive_bytes_total{image!="",name=~"^k8s_.*"}[5m])
      / 1000) > 30000
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} 入口流量大於30MB/s (當前值: {{ $value }}K/s)'
        
  - alert: PodNetworkTransmit
    expr: sum
      by(pod, namespace) (rate(container_network_transmit_bytes_total{image!="",name=~"^k8s_.*"}[5m])
      / 1000) > 30000
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} 出口流量大於30MB/s (當前值: {{ $value }}/K/s)'
        
  - alert: PodPending
    expr: sum
      by(pod, namespace) (kube_pod_status_phase{phase="Pending"})
      > 0
    for: 1m
    labels:
      severity: error
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} Pod狀態Pending (當前值: {{ $value }})'
        
  - alert: PodRestart
    expr: sum
      by(pod, namespace) (changes(kube_pod_container_status_restarts_total{}[1m]))
      > 0
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: '名稱空間: {{ $labels.namespace }} | Pod名稱: {{ $labels.pod
        }} Pod重啟 (當前值: {{ $value }})'

View Code

Prometheus+Grafana+Altermanager監控告警（四）

rule監控規則配置語法檢查規則 promtool check rules /path/to/example.rules.yml nodes.rules: groups:

Prometheus+Grafana+Altermanager監控告警（二）

啟動並配置 AlertManager cat alertmanager_run.s docker rm -f alertmanager docker run --name=alertmanager -d \\

Prometheus+Grafana+Altermanager監控告警（五）

node exporter curl -Lo /etc/yum.repos.d/_copr_ibotty-prometheus-exporters.repohttps://copr.fedorainfracloud.org/coprs/ibotty/prometheus-exporters/repo/epel-7/ibotty-prometheus-exporters-epel-7.repo

TICK技術棧（四）Grafana安裝及使用

1.什麼是Grafana？ Grafana是一款採用go語言和Angular框架編寫的開源的視覺化工具，主要用於大規模指標資料的視覺化展示，提供包括折線圖，餅圖，儀表盤等多種監控資料視覺化UI，是網路架構和應用分析中最流行的時序

Spring Boot （四）： Druid 連線池密碼加密與監控

在上一篇文章《Spring Boot （三）： ORM 框架 JPA 與連線池 Hikari》我們介紹了 JPA 與連線池 Hikari 的整合使用，在國內使用比較多的連線池還有一個是阿里開源的 Druid 。本篇文章我們就來聊一聊 Druid 的一些

Kubernetes監控實踐（2）：可行監控方案之Prometheus和Sensu

本文介紹兩個可行的K8s監控方案：Prometheus和Sensu。兩個方案都能全面提供系統級的監控資料，幫助開發人員跟蹤K8s關鍵元件的效能、定位故障、接收預警。

樹義帶你學 Prometheus（四）：PromQL 快速入門

文章首發於【陳樹義】公眾號，點選跳轉到原文：https://mp.weixin.qq.com/s/wnudWqfafzKUoDk4ke5Npg

JMeter+InfluxDB+Grafana視覺化實時監控平臺（六）

1、InfluxDB安裝與使用 Windows安裝 wget https://dl.influxdata.com/influxdb/releases/influxdb-1.4.2_windows_amd64.zip

Flink實戰（七十二）：監控（四）自定義metrics相關指標（二）

技術標籤：Flink入門宣告：本系列部落格是根據SGG的視訊整理而成，非常適合大家入門學習。

Prometheus監控系統（4）pushgateway及自定義指令碼

一、pushgateway的作用傳統監控軟體如Zabbix通常都建議使用push的方式來由客戶端推送資料給服務端，這樣可以減輕服務端壓力。但是這樣也有個弊端就是配置更為複雜，需要在每個agent上都配置server的地址才可以感知

prometheus+granfana監控部署（二進位制）

prometheus搭建 prometheus官網下載地址：Download | Prometheus #下載截止2021/9/9最新版本

《深入理解Java虛擬機器》（四）虛擬機器效能監控與故障處理工具

虛擬機器效能監控與故障處理工具詳解 4.1　概述本文參考的是周志明的《深入理解Java虛擬機器》第四章，為了整理思路，簡單記錄一下，方便後期查閱。

OpenGL學習（四）-- 正面&背面剔除和深度測試

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

iOS網路（四）socket簡單應用

一、Socket概覽 Socket就是為網路服務提供的一種機制通訊的兩端都是socket 網路通訊其實就是socket間的通訊

Flink 系列（四）—— Flink Data Transformation

一、Transformations 分類 Flink 的 Transformations 操作主要用於將一個和多個 DataStream 按需轉換成新的 DataStream。它主要分為以下三類：

《深入理解Java虛擬機器器》（四）：垃圾收集演演算法以及記憶體分配策略

============== 讀書筆記系列 ============== 接下來我們就要聊到最常見的問題了，垃圾收集演演算法，以及記憶體分配策略。

帶你入坑大資料（四）--- 資源排程框架Yarn

前言在MapReduce的時候也許很多人會有這種疑問：寫了MR後，map task和reduce task是如何在多節點上並行執行的，而且又是怎麼決定哪個任務執行再哪個節點上的？其實這些問題都是和這個Yarn有關。因為Yarn這個框架其實

Spring Cloud Alibaba（四）實現Dubbo服務消費

本專案演示如何使用 Spring Cloud Alibaba 完成 Dubbo 的RPC呼叫。 Spring Cloud與Dubbo Spring Cloud是一套完整的微服務架構方案

[系列] - go-gin-api 路由中介軟體 - 捕獲異常（四）

概述首先同步下專案概況：上篇文章分享了，路由中介軟體 - 日誌記錄，這篇文章咱們分享：路由中介軟體 - 捕獲異常。當系統發生異常時，提示 “系統異常，請聯絡管理員！”，同時併傳送 panic 告警郵件。

Kubernetes監控實踐（1）：K8s的工作原理與監控實踐

一、Kubernetes介紹 Kubernetes（K8s）是一個開源平臺，能夠有效簡化應用管理、應用部署和應用擴充套件環節的手動操作流程，讓使用者更加靈活地部署管理雲端應用。

Prometheus+Grafana+Altermanager監控告警（四）

rule監控規則配置

語法檢查規則

nodes.rules:

pods.rules:

相關推薦