Prometheus-Alertmanager告警對接到企業微信

阿新 • • 發佈：2020-09-21

之前寫過將Prometheus的監控告警資訊通過Alertmanager推送到釘釘群。

最近轉移了陣地，需要將Prometheus監控告警資訊推送到企業微信群，經過兩天的摸索，以及查了網上的一些資料，總結了此文，避免後面的同學走彎路。

Alertmanager將告警資訊推送到微信群，主要涉及到如下幾方面的配置：

企業微信後臺的配置，包括新建告警部門和應用；
Alertmanager的主配置檔案配置和告警模板配置；
Prometheus主配置檔案的配置以及告警規則的配置；

下面就這三點分別進行介紹

1、企業微信後臺配置

這裡就不得不囉嗦幾句，[互聯]網大了，什麼鳥都有，天下文章一大抄，管它對於不對，先轉到自己部落格再說。真正能夠自己驗證，能夠理解其告警策略和原理的能有幾人？

1.1 企業ID獲取

首先訪問企業微信官網：https://work.weixin.qq.com/

註冊一個企業，當前是誰都可以註冊，沒有任何限制，也不需要企業認證，註冊即可。

註冊完成之後，登入後臺管理，在【我的企業】這裡，先拿到後面用到的第一個配置：企業ID

1.2 部門ID獲取

然後在通訊錄中，新增一個子部門，用於接收告警資訊，後面把人加到該部門，這個人就能接收到告警資訊了。

獲得我們配置告警的第二個引數：部門ID 2

1.3 告警AgentId和Secret獲取

告警AgentId和Secret獲取是需要在企業微信後臺，【應用管理】中，自建應用才能夠獲得的。這裡網上介紹的非常多，都只是說了這一步驟，而忽略了其他幾個重要的步驟。

最後點選建立應用，可以看到我們剛才建立好的應用Prometheus。

點選這個應用，可以看到我們想要的AgentId和Secret

以上步驟完成後，我們就得到了配置Alertmanager的所有資訊，包括：企業ID，AgentId，Secret和接收告警的部門id

下面我們來配置Alertmanager服務

2、Alertmanager服務配置

2.1 主配置檔案

# 主配置檔案資訊如下：
cat /opt/alertmanager/alertmanager.yml
global:
  resolve_timeout: 1m   # 每1分鐘檢測一次是否恢復
  wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
  wechat_api_corp_id: 'bbbbbbbbbbbbbbbb'      # 企業微信中企業ID
  wechat_api_secret: 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'      # 企業微信中，應用的Secret

templates:
  - '/opt/alertmanager/template/*.tmpl'

route:
  receiver: 'wechat'
  group_by: ['env','instance','type','group','job','alertname']
  group_wait: 10s       # 初次傳送告警延時
  group_interval: 10s   # 距離第一次傳送告警，等待多久再次傳送告警
  repeat_interval: 5m   # 告警重發時間

receivers:
- name: 'wechat'
  wechat_configs: 
  - send_resolved: true
    message: '{{ template "wechat.default.message" . }}'
    to_party: '2'         # 企業微信中建立的接收告警的部門【告警機器人】的部門ID
    agent_id: '1000002'     # 企業微信中建立的應用的ID
    api_secret: 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'      # 企業微信中，應用的Secret

2.2 告警模板

# cat /opt/alertmanager/template/wechat.tmpl
{{ define "wechat.default.message" }}
{{- if gt (len .Alerts.Firing) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 }}
========= 監控報警 =========
告警狀態：{{   .Status }}
告警級別：{{ .Labels.severity }}
告警型別：{{ $alert.Labels.alertname }}
故障主機: {{ $alert.Labels.instance }}
告警主題: {{ $alert.Annotations.summary }}
告警詳情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
觸發閥值：{{ .Annotations.value }}
故障時間: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
========= = end =  =========
{{- end }}
{{- end }}
{{- end }}
{{- if gt (len .Alerts.Resolved) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 }}
========= 異常恢復 =========
告警型別：{{ .Labels.alertname }}
告警狀態：{{   .Status }}
告警主題: {{ $alert.Annotations.summary }}
告警詳情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
故障時間: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
恢復時間: {{ ($alert.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
{{- if gt (len $alert.Labels.instance) 0 }}
例項資訊: {{ $alert.Labels.instance }}
{{- end }}
========= = end =  =========
{{- end }}
{{- end }}
{{- end }}
{{- end }}

2.3 Prometheus整合

下面配置prometheus告警規則
主配置檔案：prometheus.yml中加入：

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  - "rules/node_status.yml"

然後配置告警規則檔案：node_status.yml

# cat rules/node_status.yml

[root@cn-prom prometheus-server]# cat rules/node_status.yml 
groups:
- name: 例項存活告警規則
  rules:
  - alert: 例項存活告警
    expr: up{job="prometheus"} == 0 or up{job="Linux-host"} == 0
    for: 1m
    labels:
      user: prometheus
      severity: Disaster
    annotations:
      summary: "Instance {{ $labels.instance }} is down"
      description: "Instance {{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."
      value: "{{ $value }}"

- name: 記憶體告警規則
  rules:
  - alert: "記憶體使用率告警"
    expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 75
    for: 1m
    labels:
      user: prometheus
      severity: warning
    annotations:
      summary: "伺服器: {{$labels.alertname}} 記憶體報警"
      description: "{{ $labels.alertname }} 記憶體資源利用率大於75%！(當前值: {{ $value }}%)"
      value: "{{ $value }}"

- name: CPU報警規則
  rules:
  - alert: CPU使用率告警
    expr: 100 - (avg by (instance)(irate(node_cpu_seconds_total{mode="idle"}[1m]) )) * 100 > 70
    for: 1m
    labels:
      user: prometheus
      severity: warning
    annotations:
      summary: "伺服器: {{$labels.alertname}} CPU報警"
      description: "伺服器: CPU使用超過70%！(當前值: {{ $value }}%)"
      value: "{{ $value }}"

- name: 磁碟報警規則
  rules:
  - alert: 磁碟使用率告警
    expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 80
    for: 1m
    labels:
      user: prometheus
      severity: warning
    annotations:
      summary: "伺服器: {{$labels.alertname}} 磁碟報警"
      description: "伺服器:{{$labels.alertname}},磁碟裝置: 使用超過80%！(掛載點: {{ $labels.mountpoint }} 當前值: {{ $value }}%)"
      value: "{{ $value }}"

至此，企業Prometheus對接企業微信告警完畢，出現故障你就能看到如下告警資訊和恢復資訊了

========= 監控報警 =========
告警狀態：firing
告警級別：Disaster
告警型別：例項存活告警
故障主機: 10.137.10.211:9100
告警主題: Instance 10.137.10.211:9100 is down
告警詳情: Instance 10.137.10.211:9100 of job Linux-host has been down for more than 1 minutes.;
觸發閥值：0
故障時間: 2020-09-21 10:21:08
========= = end =  =========

========= 異常恢復 =========
告警型別：例項存活告警
告警狀態：resolved
告警主題: Instance 10.137.10.211:9100 is down
告警詳情: Instance 10.137.10.211:9100 of job Linux-host has been down for more than 1 minutes.;
故障時間: 2020-09-21 10:21:08
恢復時間: 2020-09-21 10:26:23
例項資訊: 10.137.10.211:9100
========= = end =  =========

以上，請測試驗證，如有描述不清楚的地方，歡迎留言交流。

Prometheus-Alertmanager告警對接到企業微信

之前寫過將Prometheus的監控告警資訊通過Alertmanager推送到釘釘群。最近轉移了陣地，需要將Prometheus監控告警資訊推送到企業微信群，經過兩天的摸索，以及查了網上的一些資料，總結了此文，避免後面的同學走彎路。 Alertmanager將告警資訊推送到微信群，主要涉及到如下幾方面的配置

微信企業號升級企業微信後zabbix告警發不出去

zabbix 企業微信升級微信企業號升級企業微信後便沒有zabbix告警發出，單獨運行腳本報錯：進入接口調試頁面http://qydev.weixin.qq.com/debug，輸入CorpID和Secret，得到access_token：之前的格式是：於是修改告警腳本，之前獲取access_token

Zabbix使用企業微信進行告警

zabbix 企業微信告警一、註冊企業郵箱1.1、企業微信告警優勢：讓我們實時接收到信息，加快問題的處理，比傳統郵件更便捷；如果沒有企業微信，那麽我們首先到企業微信官網: https://work.weixin.qq.com進行註冊。二、企業微信配置2.1、在通訊錄中創建部門創建部門，

prometheus配置企業微信報警

1. 告警概述 prometheus的告警管理分為兩部分。通過在prometheus服務端設定告警規則， Prometheus伺服器端產生告警向Alertmanager傳送告警。然後，Alertmanager管理這些告警，包括靜默，抑制，聚合以及通過電子郵件，PagerDuty和HipCh

zabbix 企業微信告警

環境 CentOS7 Yum 安裝的 zabbix4.2.5 企業微信資訊: 企業 ID: aabbccdd001122334

python利用企業微信api來進行發送自定義報警的類實現

python 微信報警python利用企業微信api來進行發送自定義報警的類實現企業微信註冊打開http://work.weixin.qq.com/企業微信主頁；點擊企業註冊；填寫相關信息，營業執照和註冊號可以不用填，直接下一步，按照提示操作即可；註冊完成後，登陸，就顯示如下界面：點擊我的企業標簽：看到如上界

Java企業微信開發_Exception_01_"errcode":60011,"errmsg":"no privilege to access/modify contact/party/agent "

有用 rtm access cep 企業 json agent tac 增加微信企業號增加成員時，返回錯誤信息： jsonObject:{"errcode":60011,"errmsg":"no privilege to access/modify contact/

Java企業微信開發_04_自定義菜單

組裝 sys 測試搜索我們測試類 ray 翻譯請求一、本節要點 1.菜單相關實體類的封裝參考官方文檔中的請求包的內容，對菜單相關實體類進行封裝。這裏需要格外註意的是，企業微信中請求包的數據是Json字符串格式的，而不是xml格式。關於json序列化的問題

Java企業微信開發_07_總結一下企業微信的配置

alt 微信 idt cnblogs 信息 java 域名 ram com 一.企業微信後臺 1.回調url 2.可信域名 3.菜單跳轉按鈕中的鏈接 4.PC端網頁授權二、代碼內 1.企業微信的配置信息：WeiXinParamesUtil

Java企業微信開發_09_身份驗證之移動端網頁授權(有完整項目源碼)

.com post請求 ati errcode http nbsp code repl button 註：源碼已上傳github： https://github.com/shirayner/WeiXin_QiYe_Demo 一、本節要點 1.1 授權回調域（可信

python調用企業微信API

python api wechat #!/usr/bin/env python # -*- coding:utf-8 -*- # 2017-07-25 編寫 import json import sys import urllib, urllib2 """ CorpID 企業ID Secret

Zabbix 3.4.3之企業微信報警

zabbix一、企業微信註冊微信的報警方式可以讓我們隨時隨地接收到信息，加快問題的處理，比傳統郵件更加方便，首先我們先打開企業微信的地址 https://work.weixin.qq.com 1、填寫申請信息2、下一步根據註冊流程步驟進行後面的操作，直到註冊成功。二、企業微信配置1、創建部門

Java企業微信開發_10_未驗證域名歸屬，JS-SDK功能受限

校驗 style 現象 -s 解決方案 img ges pps span 1.現象：在企業微信後臺填寫可信域名後，提示：未驗證域名歸屬，JS-SDK功能受限，如下圖：點擊“申請域名校驗”後，註意：域名根目錄當時一直

Zabbix創建企業微信

zabbix創建企業微信（八）Zabbix創建企業微信背景：1、zabbix-3.4.4服務器搭建完成2、主機監控已經部署（能觸發警告報警即可）思路：1、創建免費的企業微信2、根據自己報警內容可建多個企業應用3、創建報警腳本、配置、測試4、本內容僅供參考，以便以後學習使用。一、創建企業應用1、企業微信註冊註冊

python實現調用企業微信報警

cgi title import bsp sage python實現 argv ken read 代碼部分 vim wechat.py #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:Hou Xingbin i

Java企業微信開發_13_異常：com.qq.weixin.mp.aes.AesException: 解密後得到的buffer非法

bst 圖片 crypt javax nature current aps protoc spa 一、異常信息方法：POST@ echostr是否存在：false java.lang.IllegalArgumentException: 20 > -36

一秒教會你破解企業微信虛擬定位位置修改讓你在哪都可以打卡上下班

公眾進行報銷我想 http 時代 post 價值今天一秒教會你破解企業微信虛擬定位位置修改讓你在哪都可以打卡上下班一秒教會你破解企業微信虛擬定位位置修改讓你在哪都可以打卡上下班一秒教會你破解企業微信虛擬定位位置修改讓你在哪都可以打卡上下班

Nagios通過企業微信報警

party mod desc ext 通過 cat -c fin hostname 主要分兩部分進行：註冊企業微信，自建應用，獲取與發送消息相關的信息；編寫調用微信API腳本（bash），配置Nagios微信報警；一、企業微信　　1、註冊企業微信：https:/

Spring Boot企業微信點餐系統-第一章-課程介紹

win maven 開發環境 ast 介紹前端 pri 系統詳細說明一、項目簡介——技術要點前端和後端：後端主要技術：微信接口技術微信支付微信掃碼登錄微信模板消息推送開發環境但實際上我用的環境和這上面還是有點不一樣，我服務器用的是win，到

微信/企業微信的分享功能

area 註意 OS sha 自己的 gpo markdown down 點擊前言：最近有在做一個企業微信的分享功能，整體而言是沒什麽太大的難度，但是onMenuShareAppMessage， shareAppMessage這些原生的api，只有你自己觸發了微信頁面右

Prometheus-Alertmanager告警對接到企業微信

1、企業微信後臺配置

1.1 企業ID獲取

1.2 部門ID獲取

1.3 告警AgentId和Secret獲取

2、Alertmanager服務配置

2.1 主配置檔案

2.2 告警模板

2.3 Prometheus整合

相關推薦