prometheus告警技術初探（一）

阿新 • • 發佈：2019-01-29

告警規則

global:
  scrape_interval:     15s
  evaluation_interval: 15s   #每過15秒執行一次報警規則，也就是說15秒執行一次報警
alerting:
  alertmanagers:
  - static_configs:
    - targets: ["localhost:9093"]   # 設定報警資訊推送地址 ， 一般而言設定的是alertManager的地址
rule_files:
  - "test_rules.yml"  # 設定報警規則
scrape_configs:
  - job_name: 'node'   #自己定義的監控的job_name
    static_configs:
      - targets: ['localhost:9100']
  - job_name: 'CDG-MS'
    honor_labels: true
    metrics_path: '/prometheus'
    static_configs:
      - targets: ['localhost:8089']
    relabel_configs:
      - target_label: env
        replacement: dev
  - job_name: 'eureka'
    file_sd_configs:
      - files:
          - "/app/enmonster/basic/prometheus/prometheus-2.2.1.linux-amd64/eureka.json"
    relabel_configs:
      - source_labels: [__job_name__]
        regex: (.*)
        target_label: job
        replacement: ${1}
      - target_label: env
        replacement: dev

由上面可以看到，我們可以設定報警規則的檔案，

groups:
- name: example   #報警規則組的名字
  rules:
  - alert: InstanceDown     #檢測job的狀態，持續1分鐘metrices不能訪問會發給altermanager進行報警
    expr: up == 0
    for: 1m    #持續時間 ， 表示持續一分鐘獲取不到資訊，則觸發報警
    labels:
      serverity: page   # 自定義標籤
    annotations:
      summary: "Instance {{ $labels.instance }} down"     # 自定義摘要 
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."   # 自定義具體描述

上面是一個非常通用的一個報警規則，檢測應用是否DOWN掉

在啟動的時候一定要用這種方式啟動，不然是不可以重新載入配置

./prometheus --config.file=prometheus.yml --web.enable-lifecycle

自定義報警通知

修改prometheus.yml配置檔案

alerting:
  alertmanagers:
  - static_configs:
    - targets: ["localhost:17201"]   # 設定報警資訊推送地址

當有報警資訊需要通知的時候，會通過上面的配置，推送到localhost:17201 這個服務上去，推送方式如下：

介面地址：/api/v1/alerts

程式樣例：

@RequestMapping(value = "/api/v1/alerts")
public String alert(@RequestBody String body){
    log.info("/api/v1/alerts  = {}",body);
    return "success";
}

入參結構：

[{
        "labels": {
            "alertname": "InstanceDown",
            "env": "dev",
            "instance": "10.208.204.46:19999",
            "job": "RMS-MS",
            "serverity": "page"

        },
        "annotations": {
            "description": "10.208.204.46:19999 of job RMS-MS has been down for more than 5 minutes.",
            "summary": "Instance 10.208.204.46:19999 down"

        },
        "startsAt": "2018-06-19T17:07:54.140071559+08:00",
        "endsAt": "0001-01-01T00:00:00Z",
        "generatorURL": "http://localhost.localdomain:9090/graph?g0.expr=up+==+0&g0.tab=1"

    },
    {
        "labels": {
            "alertname": "InstanceDown",
            "env": "dev",
            "instance": "10.208.204.46:19999",
            "job": "RMS-MS",
            "serverity": "page"

        },
        "annotations": {
            "description": "10.208.204.46:19999 of job RMS-MS has been down for more than 5 minutes.",
            "summary": "Instance 10.208.204.46:19999 down"

        },
        "startsAt": "2018-06-19T17:07:54.140071559+08:00",
        "endsAt": "0001-01-01T00:00:00Z",
        "generatorURL": "http://localhost.localdomain:9090/graph?g0.expr=up+==+0&g0.tab=1"

    },
    {
        "labels": {
            "alertname": "InstanceDown",
            "env": "dev",
            "instance": "192.168.164.1:18093",
            "job": "RMS-MS",
            "serverity": "page"

        },
        "annotations": {
            "description": "192.168.164.1:18093 of job RMS-MS has been down for more than 5 minutes.",
            "summary": "Instance 192.168.164.1:18093 down"

        },
        "startsAt": "2018-06-19T17:07:54.140071559+08:00",
        "endsAt": "0001-01-01T00:00:00Z",
        "generatorURL": "http://localhost.localdomain:9090/graph?g0.expr=up+==+0&g0.tab=1"

    }

]

假如說有RMS-MS三臺機器都宕機了的話，那麼prometheus會發送如上資料至localhost:17201/api/v1/alerts這個介面，

如此我們就可以根據以上資料做報警通知了

AlertManager

使用prometheus自帶的報警元件，當報警被觸發時，prometheus會將報警資料推送給AlertManager , AlertManager 接收到報警資訊之後，會根據他這邊的規則，然後推送報警通知。

global:
  resolve_timeout: 5m
route:
  group_by: ['job']
  group_wait: 30s
  #同一組間隔
  group_interval: 5m  # 同一組的的告警訊息間隔，在5m分鐘內收到的同一個組的訊息，會彙總統一發送
  repeat_interval: 1s # 相同的告警訊息的重複傳送的間隔時間
  receiver: 'webhook' # 接受者型別
receivers:
- name: 'webhook'
  webhook_configs:
  - url: 'http://10.208.204.46:17210/test/alert2'   # 接收地址

資料結構如下：

{
    "receiver": "webhook",
    "status": "firing",
    "alerts": [{
            "status": "firing",
            "labels": {},
            "annotations": {
                "description": "10.208.204.46:19999 of job RMS-MS has been down for more than 5 minutes.",
                "summary": "Instance 10.208.204.46:19999 down"
            },
            "startsAt": "2018-06-19T17:25:54.143824172+08:00",
            "endsAt": "0001-01-01T00:00:00Z",
            " generatorURL": "http://localhost.localdomain:9090/graph?g0.expr=up+==+0&g0.tab=1"
        },
        {
            "status": "firing",
            "labels": {
                "alertname": "InstanceDown",
                "env": "dev",
                "instance": "192.168.164.1:18093",
                "job": "RMS-MS",
                "serverity": "page"
            },
            "annotations": {
                "description": "192.168.164.1 :18093 of job RMS-MS has been down for more than 5 minutes.",
                "summary": "Instance 192.168.164.1:18093 down"
            },
            "startsAt": "2018-06-19T17:25:54.143824172+08:00",
            "endsAt": "0001-01-01T00:00:00Z",
            "generatorURL": "http://localhost.localdomain:9090/graph?g0.expr=up+==+0& g0.tab=1"
        }
    ],
    "groupLabels": {
        "job": "RMS-MS"
    },
    "commonLabels": {
        "alertname": "InstanceDown",
        "env": "dev",
        "job": "RMS-MS",
        "serverity": "page"
    },
    "commonAnnotations": {},
    "externalURL": "http://localhost.localdomain:9093",
    "version": "4",
    "groupKey": "{}:{job=\"RMS-MS\"}"
}

假如一個叢集三臺機器都DOWN的話，那麼AlertManager會將三臺機器的資訊做彙總，然後傳送給webhook介面

比較

功能點	AlertManager	自定義報警
分組	會將同一個分組的報警資訊打包做彙總	需要自研
抑制	抑制是指當警報發出後，停止重複傳送由此警報引發其他錯誤的警報的機制。	需要自研
沉默	簡單的特定時間靜音提醒的機制	需要自研
缺點	不是java開發的，要深入瞭解困難	自研成本高，初期較簡陋
優點	技術成熟	-

推薦使用AlertManager做報警通知的第一道關口，後續使用wehbook的方式推送至我方程式。

sharedCode原始碼交流群，歡迎喜歡閱讀原始碼的朋友加群，新增下面的微信，備註”加群“ 。

prometheus告警技術初探（一）

告警規則 global: scrape_interval: 15s evaluation_interval: 15s #每過15秒執行一次報警規則，也就是說15秒執行一次報警 alerting: alertmanagers: - static_c

Java之集合初探（一）

lin 數據改變排序。方法規則找不到集合回收 for循環一、集合概述、區別集合是一種容器，數組也是一種容器在Java編程中，裝各種各樣的對象（引用類型）的叫做容器。為什麽出現集合類？面向對象語言對事物的體現都是以對象的形式，所以為了方便對多個對象的操作

Python Web框架之Django初探（一）

python django easy_install pip Python Web框架之Django初探 Django是一個開放源代碼的Web應用框架，由Python寫成。采用了MVC的框架模式，即模型M，視圖V和控制器C。它最初是被開發來用於管理勞倫斯出版集團旗下的一些以新聞內容為主的網站

13.Django之數據庫models&orm初探（一）

try api 示例 mar 叠代交互 reverse 一行 gre 一、使用django orm的準備操作。django 默認支持sqlite，mysql, oracle,postgresql數據庫。在默認情況下django的項目中會默認使用sqlite數據庫，在打開s

Web前端滲透測試技術小結（一）

一個 allow 註入 nec sub .get com 重要 utf-8 首先端正一下態度不可幹違法的事 1、SQL註入測試對於存在SQL註入的網頁，使用SQL語句進行關聯查詢（仿照C/S模式）eg http://www.foo.com/user.php?

Spark RDD初探（一）

serializa 只有一個 broadcast each函數 flat -s cover med 溢出本文概要本文主要從以下幾點闡述RDD，了解RDD 什麽是RDD？兩種RDD創建方式向給spark傳遞函數Passing Functions to Spark 兩

java相關技術問答（一）

tcp與udp 隱藏 equal 成了引用代碼做的管理一個網上一些沒有標準答案的面試題，我自己做的解答總結，有任何異議可以提出來~^_^，不斷更新中... Springboot除了自動配置與傳統的spring還有哪些不同傳統的springweb項目需要部

SOAR平臺初探（一）

1.前言 Security Orchestration, Automation and Response（SOAR）安全編排和自動化響應,是Gartner2017年提出的新概念。Gartner預計到2019年，大概30%的大中型企業會進行SOAR平臺的建

安卓 dex 通用脫殼技術研究（一）

注：以下4篇博文中，部分圖片引用自DexHunter作者zyqqyz在slide.pptx中的圖片，版本歸原作者所有； 0x01 背景介紹安卓 APP 的保護一般分為下列幾個方面： JAVA/C程式碼混淆 dex檔案加殼 .so檔案加殼反動態除錯技術其中混淆

spring原始碼學習之路---IOC初探（一）

首先把spring原始碼匯入，怎麼匯入百度下。首先我們來說一下IOC，IOC是spring最核心的理念，包括AOP也要屈居第二，那麼IOC到底是什麼呢，四個字，控制反轉。網上有不少是這麼解釋IOC的，說IOC是將物件的建立和依賴關係交給容器，這句話我相信不少人都知道，在我個人的理解

Docker核心技術理解（一）

Docker的出現是近十年軟體工程領域最大的革命，Docker的技術完全可以重鑄整個軟體開發測試運維等軟體部署的各個方面。以前的虛擬化技術如VMware，OpenStack一般都是重量級的虛擬化，以VMware為例，首先的需要VMware這套軟體，在這基礎之上安裝具體的作業系統（比如ubantu映

iOS研發助手DoraemonKit技術實現（一）

一、前言一個比較成熟的App，經歷了多個版本的迭代之後，為了方便調式和測試，往往會積累一些工具來應付這些場景。最近我們組就開源了一款適用於iOS App線下開發、測試、驗收階段，內建在App中的工具集合。使用DoraemonKit，你無需連線電腦，就可以對於App的資訊進行快速的檢視。一鍵接入、使用方便，

開源電子書專案FBReader初探（一）

FBReader簡介和包功能淺析簡介專案官網：fbreader.org/android FBReader是一個開源電子書閱讀器，如今已經支援很多裝置。不僅有PC版，支援的作業系統有GNU/Linux,MicrosoftWindows，也支援移動終端裝置，比如NokiaInternetTable

服務機器人關鍵技術解讀（一）

幾年前就曾有人預言“機器人終將取代人類工作”，隨著AI產業化、商業化落地實現，機器人取代人類完成高頻重複的工作正加速前進中，而技術問題是目前面臨的主要難題。服務機器人實際上是多種技術的融合和實現，包括定位導航、語音互動、運動控制、後臺排程管理、多感測器融合、通訊等多領域的技術。要讓產品理想落地及商用，這些

java多執行緒-初探（一）

啥是多執行緒？跟程序又是啥關係？比方說：我去洗手，洗完手去吃飯。程序(Processor) 洗手跟吃飯是兩個程序。執行緒(Thread) 在洗手的程序裡，我同時聽歌，還唱歌。那這裡洗手是一個程序，聽歌跟唱歌是兩個執行緒。在吃飯的程序裡，我同時聽歌，還

ExtJs初探（一）- 下載及配置入專案（eclipse+Springboot+maven）

剛剛開始接觸ExtJs的小白，首先先摸一下“敵人” 的底，然後是下載，最後把其配置入你的專案中，本文使用的是ext-6.6.0-trial，下載地址：https://www.sencha.com/products/extjs/evaluate/ 一、什麼是ExtJs ExtJs是用Jav

Keras初探（一）

訪問本站觀看效果更佳嘗試寫一下Keras的一些東西，算是必要的時候能備忘一下吧！希望大家多提提意見。一、安裝Keras Keras並不能直接用於構建模型，它需要後端支援。 Keras 可以基於兩個Backend，一個是 Theano，一個是 Tensorfl

（轉）Gradle初探（一）：建立一個Gradle專案

http://www.jianshu.com/p/c0fc6a91d3e7 前兩天聽BOSS提到了Gradle，說論壇里人說"比Maven好"云云，故抽空試玩了下。 1. 環境準備 1.1. 先上Gradle官網下載最新版的程式，地址：https://gradle.org/gradle-

網易自動化測試工具Airtest初探（一）

Airtest是一款自動化測試工具，主要是基於影象和poco控制元件識別。該工具是由網易遊戲團隊自主研發的工具。主要有以下優點： 1、上手簡單、低門檻，僅需要了解一點點的python語法，便可以實現指令碼編寫和錄製。 2、執行日誌齊全，還可以一鍵生成報告。 3、最新版本已經支援

京東技術架構（一）構建億級前端讀服務

作者：張開濤從入職京東到現在，做讀服務已經一年多的時間了，經歷了各種億級到百億級的讀服務；這段時間也進行了一些新的讀服務架構嘗試，從架構到程式碼的編寫，各個環節都進行了反覆嘗試，壓測並進行調優，希望得到一個自己滿意的讀服務架構。一些設計原則無狀態資料閉環快取銀彈併發化降級開關

prometheus告警技術初探（一）

告警規則

自定義報警通知

AlertManager

比較

sharedCode原始碼交流群，歡迎喜歡閱讀原始碼的朋友加群，新增下面的微信， 備註”加群“ 。

相關推薦

sharedCode原始碼交流群，歡迎喜歡閱讀原始碼的朋友加群，新增下面的微信，備註”加群“ 。