開發自己的分布式監控Prometheus Exporter時遇到的坑
這裏說下我在開發自己的Prometheus Exporter時遇到的幾個坑,所謂的坑,其實是在開發過程中需要註意到的幾個關鍵點,如果忽略,那麽可能會產生錯誤和非預期的結果。
如果對Prometheus不了解的,可以自行谷歌或百度一下,或者可以看下我之前的一篇文章。Prometheus是基於Pull的工作模式,需要定期的從Agent端收集數據,並入庫,這裏的Agent被稱為Exporter。官網和社區裏目前很多成熟的expoter可以選擇,比如監控linux機器的node_exporter、監控mysql的mysqld_exporter等等。這裏的大多數都是用Go語言寫的,其實理解了Exporter和Prometheus的工作原理之後就知道,exporter其實就是將收集的數據轉化為文本格式,並對外暴露接口,提供 http 請求,所以很容自己實現一個,不必拘泥於用那種語言,你可以用Java、PHP或者Python等任何你擅長的。我這裏用Python Flask框架寫了一個監控vSphere Datastore的Exporter,開發過程中需要註意一下幾點:
Exporter的整體文本數據格式:
Exporter的返回的是文本內容,其中以行為單位,空行將被忽略, 文本內容最後一行為空行;
文本內容以“# HELP”開頭的行為註釋,表示幫助信息,以“# TYPE”開頭的行表示此Metric的類型;
exporter有四種數據類型,分別為:counter/gauge/histogram/summary。
Exporter每一行文本的格式
在每一行文本的最後不能有空格,否則會不識別
在每一Metric行代表一個Key、Value對,Value的值是float類型,如果有兩個Value值,最後
一個會被認為是時間戳進行保存,比如:
http_requests_total{method="post",code="200"} 1027 1395066363000
Metrics的Label的value值必須要用雙引號“”引起來
Exporter的Content-Type必須是text類型:
這裏我flask返回頁面的Content-Type設置為:text/plain
4. Prometheus有自己的python的client:
項目地址如下:
https://github.com/prometheus/client_python
如果不想重復造輪子,可以選擇用官網提供的lient端。
5. Exporter接口的響應時間
默認Prometheus是每隔15秒抓取一次數據,每次的timeout超時時間是10s,這個也可以在配置文件裏自定義。要註意Exporter的接口響應時間一定要比server配置裏的小。
本文出自 “xujpxm” 博客,請務必保留此出處http://xujpxm.blog.51cto.com/8614409/1969879
開發自己的分布式監控Prometheus Exporter時遇到的坑