常用prometheus告警規則模板（三）.md

阿新 • • 發佈：2019-01-23

應用類相關

1.監控應用是否可用

規則模板 :

up=${value}

規則描述:

監測應用是否可用

引數說明:

value : 0表示宕機  1 表示可用

具體應用

groups:
- name: example   #報警規則組的名字
  rules:
  - alert: InstanceDown     #檢測job的狀態，持續1分鐘metrices不能訪問會發給altermanager進行報警
    expr: up == 0
    for: 1m    #持續時間 ， 表示持續一分鐘獲取不到資訊，則觸發報警
    labels:
      serverity: page   # 自定義標籤
    annotations:
      summary: "Instance {{ $labels.instance }} down"     # 自定義摘要 
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than                1 minutes."   # 自定義具體描述

本文理出的規則模板主要用於告警規則中的 “expr” 表示式使用。

labels引數說明

env : 資料來源（通常用於區分環境）
instance : 例項名稱
job : 應用名

2.介面請求異常（job，method，uri）

規則模板 :

http_server_requests_seconds_count{exception!="None",job="${app}",method="${method}",uri="${uri}"}  > ${value}

規則描述 :

請求介面的異常資訊不為空，使用的時候需要動態傳入 app , method ,uri , value 這四個引數，然後設定規則。

引數詳解：

tex app : 應用名 method : POST 或 GET uri : 介面地址 value ：檢測指標 ,取值為 int整數

labels引數說明

env : 資料來源（通常用於區分環境）
exception : 異常資訊
instance ： 例項名
job : 應用名
method ： POST 或GET
status ：http請求狀態 200為成功
uri : 介面地址

3.介面請求異常（job，method，uri），正則表示式(job,uri)

規則模板:

http_server_requests_seconds_count{exception!="None",job=~"${app}",method="${method}",uri=~"${uri}"}  > ${value}

規則描述 :

請求介面的異常資訊不為空，使用的時候需要動態傳入 app , method ,uri , value 這四個引數，這四個引數中Job和uri可以為正則表示式，然後設定規則。

引數解釋:

app : 應用名 ， 可使用正則表示式，例： .*MSG.* 
method : POST 或 GET ，需大寫
uri : 介面地址 , 可使用正則表示式
value ： 檢測指標 ,取值為 int整數

labels引數說明

env : 資料來源（通常用於區分環境）
exception : 異常資訊
instance ： 例項名
job : 應用名
method ： POST 或GET
status ：http請求狀態 200為成功
uri : 介面地址

4.應用CPU佔比

規則模板:

process_cpu_usage{job="${app}"} * 100 > ${value}

規則描述 :

監測應用使用的百分比，此處僅需傳入 app 名稱，就可以監測某個應用了

引數解釋 :

app : 應用名 
value ： 檢測指標, 百分比

labels引數說明

env : 資料來源（通常用於區分環境）
instance : 例項名稱
job : 應用名

5.Hystrix介面呼叫熔斷次數監控

規則模板:

increase(hystrix_errors_total{job="${app}"}[${timeRange}]) > ${value}

規則描述 :

監測在指定的時間範圍內，應用呼叫其他介面被Hystrix熔斷的次數，

引數解釋:

app : 應用名
timeRange : 指定時間範圍內的熔斷次數，取值單位可以為  s (秒) , m(分鐘) , h(小時) ,d(天)
value : 熔斷次數，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
group : 我們通過fegin呼叫其他應用的應用名
instance : 例項名稱
job : 應用名
key : 具體的類名以及呼叫的方法 例： AcsClient#checkUserLogin(String)

6.Hystrix介面呼叫失敗次數監控

規則模板:

increase(hystrix_fallback_total{job="${app}"}[${timeRange}]) > ${value}

規則描述 :

監測在指定的時間範圍內，應用呼叫其他介面failback的次數

引數解釋:

app : 應用名
timeRange : 指定時間範圍內的熔斷次數，取值單位可以為  s (秒) , m(分鐘) , h(小時) ,d(天)
value : failback次數，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
group : 我們通過fegin呼叫其他應用的應用名
instance : 例項名稱
job : 應用名
key : 具體的類名以及呼叫的方法 例： AcsClient#checkUserLogin(String)

7.JVM堆記憶體使用率監控

規則模板

sum(jvm_memory_used_bytes{job="${app}", instance="${instance}", area="heap"})*100/sum(jvm_memory_max_bytes{job="${app}",instance="${instance}", area="heap"}) >${value}

規則描述

監測JVM的堆記憶體的使用率，前提是一定要指定應用名和例項名，否則prometheus不知道監控的那個JVM，這裡是以JVM為單位的

引數解釋

app : 應用名
instance : 例項名，預設為 IP:PORT
value : 監控指標，int整數，百分比

8.JVM非堆記憶體使用率監控

規則模板

sum(jvm_memory_used_bytes{job="${app}", instance="${instance}", area="nonheap"})*100/sum(jvm_memory_max_bytes{job="${app}",instance="${instance}", area="nonheap"})  > ${value}

規則描述

監測JVM的非堆記憶體的使用率（也就是通常意義上的棧記憶體，JIT編譯程式碼快取，永久代（jdk1.8為元空間）），前提是一定要指定應用名和例項名，否則prometheus不知道監控的那個JVM，這裡是以JVM為單位的

引數解釋

app : 應用名
instance : 例項名，預設為 IP:PORT
value : 監控指標，int整數，百分比

9.介面某個時間段內平均響應時間監控

規則模板

increase(http_server_requests_seconds_sum{job="${app}",exception="None", uri="${uri}"}[${timeRange}])/
increase(http_server_requests_seconds_count{job="${app}",exception="None", uri="${uri}"}[${timeRange}]) >${value}

規則描述

監控某個介面在指定時間範圍內的相應時間

引數解釋

app : 應用名
instance : 例項名，預設為 IP:PORT
uri : 介面地址
timeRange : 時間範圍
value :監控指標，long型別，毫秒級別。

labels引數說明

env : 資料來源（通常用於區分環境）
exception : 異常資訊
instance ： 例項名
job : 應用名
method ： POST 或GET
status ：http請求狀態 200為成功
uri : 介面地址

10.介面某個時間段內平均響應時間監控（正則表示式）

規則模板

increase(http_server_requests_seconds_sum{job=~"${app}",exception="None", uri=~"${uri}"}[${timeRange}])/increase(http_server_requests_seconds_count{job="${app}",exception="None", uri=~"${uri}"}[${timeRange}]) >${value}

規則描述

監控某個介面在指定時間範圍內的響應時間，比如在某些場景下，有些介面的請求時間過於慢了，這樣我們可以及時收到通知，以便後續優化。

引數解釋

app : 應用名, 正則表示式匹配
uri : 介面地址 , 正則表示式匹配
timeRange : 時間範圍
value :監控指標，long型別，毫秒級別。

labels引數說明

env : 資料來源（通常用於區分環境）
exception : 異常資訊
instance ： 例項名
job : 應用名
method ： POST 或GET
status ：http請求狀態 200為成功
uri : 介面地址

伺服器相關

11.全域性CPU使用率監測

規則模板

100 - ((avg by (instance,job,env)(irate(node_cpu_seconds_total{mode="idle"}[30s]))) *100) > ${value}

規則描述

監測CPU的平均使用率

引數解釋

value :監控指標，百分比，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

12.監測指定伺服器的CPU使用率

規則模板

100 - ((avg by (instance,job,env)(irate(node_cpu_seconds_total{mode="idle",job="${app}"}[30s]))) *100) > ${value}

規則描述

監測某個應用的CPU的平均使用率

引數解釋

app : 伺服器IP 
value :監控指標，百分比，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

13.記憶體使用率

規則模板

((node_memory_MemTotal_bytes -(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes) )/node_memory_MemTotal_bytes ) * 100 > ${value}

規則描述

監測記憶體使用率

引數解釋

value :監控指標，百分比，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

14.磁碟使用率

規則模板

(node_filesystem_avail_bytes{fstype !~ "nfs|rpc_pipefs|rootfs|tmpfs",device!~"/etc/auto.misc|/dev/mapper/centos-home",mountpoint !~ "/boot|/net|/selinux"} /node_filesystem_size_bytes{fstype !~ "nfs|rpc_pipefs|rootfs|tmpfs",device!~"/etc/auto.misc|/dev/mapper/centos-home",mountpoint !~ "/boot|/net|/selinux"} ) * 100 > ${value}

規則描述

監測磁碟使用的比率，可以自定義當使用率大於多少的時候進行報警

引數解釋

value :監控指標，百分比，int整數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名
device : 系統路徑
fstype : 檔案系統型別
mountpoint : /

15.網絡卡流出速率

規則模板

(irate(node_network_transmit_bytes_total{device!~"lo"}[1m]) / 1000) > ${value}

規則描述

監控網絡卡的流出速率

引數解釋

value :監控指標,單位為 kb

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名
device : 網絡卡名稱 ，例： eth0 , eth1

16.系統負載率1分鐘

規則模板

node_load1 > ${value}

規則描述

監測系統一分鐘內的負載率。

引數解釋

value :監控指標，dubble小數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

17.系統負載率5分鐘

規則模板

node_load5 > ${value}

規則描述

監測系統5分鐘內的負載率。

引數解釋

value :監控指標，dubble小數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

18.系統負載率15分鐘

規則模板

node_load15 > ${value}

規則描述

監測系統15分鐘內的負載率。

引數解釋

value :監控指標，dubble小數

labels引數說明

env : 資料來源（通常用於區分環境）
instance ： 例項名
job : 應用名

sharedCode原始碼交流群，歡迎喜歡閱讀原始碼的朋友加群，新增下面的微信，備註”加群“ 。

常用prometheus告警規則模板（三）.md

應用類相關 1.監控應用是否可用規則模板 : up=${value} 規則描述: 監測應用是否可用引數說明: value : 0表示宕機 1 表示可用具體應用 groups: - name: example #報警規則組的名字 rule

UI“三重天”之selenium--常用API和問題處理（三）

Selenium常用API：前面兩篇示例程式碼中用到了一些selenium的API方法，例如定位元素的八種方法、訪問url、等待、操作瀏覽器、獲取title、點選、清理等等。有關於selenium的常用API在園子中有寫的非常詳細的文章。先貼大佬文章地址：https://www.cnblogs.com

machine learning Knn演算法最鄰近規則取樣（三）自己實現演算法

import csv import random import math import operator #匯入資料集,split將資料分為兩部分，訓練集和測試集 def loadDataset(filename,split,trainingSet=[],testSet=[]):

Git 常用命令速查表（三）

本文將對Git 命令，做一下全面而系統的簡短總結，整理成簡潔、明瞭的圖表結構，方便查詢一、 Git 常用命令速查git branch 檢視本地所有分支git status 檢視當前狀態 git commit 提交 git branch -a 檢視所有的分支git branch

一般專案常用效能調優方法（三）

靜態檔案優化靜態檔案優化主要是指對檔案大小的優化。檔案大小往往被很多開發人員忽略，但對於頻寬有限（公網專案）或者硬體裝置（主要是交換機）老舊的環境，檔案大小往往是效能的最大瓶頸。試想一個index.ac

常用的刷新技術（三）——PullToRefreshlibrary

PullToRefreshlibrary 下拉重新整理庫一、簡介 PullToRefreshlibrary 為我們封裝好了各種自定義View,可以直接在佈局檔案中引用，並且都帶有下拉重新整理和上拉載入的功能，給我們帶來了很多方便，不像SwipeRefres

專案驗收文件模板（三）

這篇要介紹測試相關文件的書寫模板，主要包括測試計劃、測試用例、測試報告。測試用例是根據具體專案的功能編寫出來的，我們這裡不做討論，需文件書寫者根據實際情況編寫。測試計劃 1引言 1.1目標 1.2專案簡介 1.3專案背景 1.4測試範圍 1.

prometheus告警技術初探（一）

告警規則 global: scrape_interval: 15s evaluation_interval: 15s #每過15秒執行一次報警規則，也就是說15秒執行一次報警 alerting: alertmanagers: - static_c

Android常用8種設計模式（三）

常用8種設計模式最後三個:介面卡模式、合成模式、訪問者模式 -----文章部落格園整理而來，尊重原創對於android開發者來說起，介面卡模式簡直太熟悉不過，有很多應用可以說是天天在直接或者間接的用到介面卡模式，比如ListView。 ListView用於顯示列表資

HBase入門詳解（三）.md

環境：centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase的MapReduce操作注意事項： * Map繼承TableMapper * Reduce繼承TableReducer * 最後Reduce輸出的value的型別是Mut

YII用戶註冊和用戶登錄（三）之模型中規則制定和分析

模型 als del 郵箱收信 com unique mark div 3 模型中規則制定和分析 YII模型主要分為兩類，一個數據模型，處理和數據庫相關的增刪改查。繼承CActiveRecord。還有一個是表單模型，繼承CFormModel。不與數據庫進行交互。操作

Python基礎之常用模塊（三）

section signal server .section 通過 sub 實例 wait 配置文件 1.configparser模塊該模塊是用來對文件進行讀寫操作，適用於格式與Windows ini 文件類似的文件，可以包含一個或多個節（section），每個節可以有多

java設計模式（三）模板模式

pro str pan style coff pub 調用類定義 ted 　　抽象類中公開定義了執行它的方法的方式，子類可以按需求重寫方法實現，但調用將以抽象類中定義的方式進行，典型應用如銀行辦理業務流程、沖泡飲料流程。下面給出簡單例子，用沸水沖泡飲料，分為四步：將水煮沸

Redis學習筆記（三）常用命令整理

mes ember nbsp end 插入學習筆記頻道 hash value Redis 常用命令 1.DEL key 刪除key2.EXISTS key 檢查key是否存在3.KEYS * 查看所有的key4.EXPIRE key seconds 設置key的過期時

Django 學習筆記（三）模板導入

文件文件中訪問 from lang sts class rom 網頁本章內容是將一個html網頁放進模板中，並運行服務器將其展現出來。平臺：windows平臺下Liunx子系統目前的目錄： hello ├── manage.py ├── hello │ ├─

Spring Boot實戰筆記（三）-- Spring常用配置（Bean的初始化和銷毀、Profile）

div nbsp troy string 實例化 public ive work 初始一、Bean的初始化和銷毀　　在我們的實際開發的時候，經常會遇到Bean在使用之前或之後做些必要的操作，Spring對Bean的生命周期操作提供了支持。在使用Java配置和註解配置下提

Java中String、StringBuilder、StringBuffer常用源碼分析及比較（三）：String、StringBuilder、StringBuffer比較

val str 成員變量相同 += let .get end art 看這篇隨筆之前請務必先看前面兩章： Java中String、StringBuilder、StringBuffer常用源碼分析及比較（一）：String源碼分析 Java中String、StringBui

常用系統的偽靜態規則列表（rewrite）

chan nbsp ofa keyword pan thread right board dvp 以前在雲虛擬機上，是在iis上配置偽靜態。這次買的一個香港的空間，商家說把偽靜態規則直接放在web下即可。註意，所有規則放在一起可能會有沖突，只放置你需要的規則即可。 #sh

Java常用類（三）之StringBuffer與StringBuidler

lane 這一 eight cit 優先 simple bmp imp uid 前言　　前面一篇給大家介紹了String類，這個我們經常會用到的一個類，那這一篇給大家分享的是StringBuffer與StringBuidler。等下我也會比較他們三個之間的區別一、S

建立標準編碼規則（三）-CodeFixProvider 給代碼分析器增加修復建議

.cn access 容易編寫 color tco 效果 -s 我們給代碼分析器增加修復建議既然代碼分析器，向代碼編寫者提出了錯誤或警告，那麽有沒有可能向代碼編寫者提交有效的改進建議？相對於 DiagnosticAnalyzer,代碼修復繼承與 CodeFixPro

常用prometheus告警規則模板（三）.md

應用類相關

伺服器相關

相關推薦