每天進步一點點——Ganglia的Python擴展模塊開發
阿新 • • 發佈:2017-08-01
mar 命令 啟動 time_t 重新 source https code eight
1. 概述 Ganglia 項目是由加州大學發起的,如今已經成為一個應用非常廣泛集群監控軟件。能夠監視和顯示集群中的節點的各種狀態信息,比方如:cpu 、mem、硬盤利用率, I/O負載、網絡流量情況等。同一時候能夠將歷史數據以曲線方式通過php頁面呈現。
全部這些數據收集會多次影響節點性能。
Ganglia的工作原理例如以下圖 很多其它關於Ganglia工作原理請參考http://flyerlee.diandian.com/post/2013-06-03/40051002657,本文重點是講述怎樣使用Ganglia提供的Python接口開發自己想要的metric。
2. Ganglia的Metrics 何為metric。在字典中其翻譯為標準,度量之意。在ganglia的Web界面中我們看得最多的是例如以下這些圖:
這些圖還不能算是真正的metric,其僅僅是各個種類的metric的匯總後通過rrdtool畫出來的圖,便於整體觀察。以下這些才是本文要講述的metric(CPU的metrics): 每個小圖表代表著cpu相關信息的一個數據類型。這些數據都是通過相應的部署在各個集群節點的程序模塊搜集,而這個搜集模塊的開發就是本文要重點解說的。
3. 自己定義metrics開發
向ganglia增加自己定義metric有兩種方法,一種是通過命令行的方式執行gmetric,還有一種是通過ganglia提供的面向c和python的擴展模塊。增加自己定義的模塊支持。
在/etc/ganglia/conf.d/中創建random_number.conf文件,並加入例如以下代碼
配置好文件後重新啟動服務
4. 效果 在瀏覽器中輸入127.0.0.1/ganglia就可以看到監控效果。假設不出問題,則在Metric下拉框中會有例如以下兩個選項: 選擇當中一項則在當前頁面的最下端顯演示樣例如以下信息: 5. 總結 本文僅僅是講述了最為簡單的Ganglia metric開發,假設想深入了解能夠參考Ganglia的官方文檔,或者去https://github.com/ganglia上直接查看源代碼,當中gmond_python_modules項目裏提供了大量常見項目的metrics演示樣例。 Ganglia為集群提供了高可視化的監控,不僅能讓運維人員高速的清楚集群當前的狀態,並且還能讓開發者清楚系統的相關執行狀態,從而針對性的做出更好的優化。
轉載請說明出處:http://blog.csdn.net/cywosp/article/details/39701245
1. 概述 Ganglia 項目是由加州大學發起的,如今已經成為一個應用非常廣泛集群監控軟件。能夠監視和顯示集群中的節點的各種狀態信息,比方如:cpu 、mem、硬盤利用率, I/O負載、網絡流量情況等。同一時候能夠將歷史數據以曲線方式通過php頁面呈現。
同一時候具有非常好的擴展性。同意用戶增加自己所要監控的狀態信息。依據可視化的相關數據,非常easy知道集群的健康狀態。而且也能夠分析出集群的可優化的地方。
全部這些數據收集會多次影響節點性能。
網絡中的“ 抖動( Jitter ) ” 發生在大量小消息同一時候出現,通過ntp服務將節點的時鐘保持一致,就能夠避免這個問題。
Ganglia的工作原理例如以下圖 很多其它關於Ganglia工作原理請參考http://flyerlee.diandian.com/post/2013-06-03/40051002657,本文重點是講述怎樣使用Ganglia提供的Python接口開發自己想要的metric。
2. Ganglia的Metrics 何為metric。在字典中其翻譯為標準,度量之意。在ganglia的Web界面中我們看得最多的是例如以下這些圖:
這些圖還不能算是真正的metric,其僅僅是各個種類的metric的匯總後通過rrdtool畫出來的圖,便於整體觀察。以下這些才是本文要講述的metric(CPU的metrics): 每個小圖表代表著cpu相關信息的一個數據類型。這些數據都是通過相應的部署在各個集群節點的程序模塊搜集,而這個搜集模塊的開發就是本文要重點解說的。
3. 自己定義metrics開發
以下使用Python開發一個簡單的metric實例:
在/usr/lib64/ganglia/python_modules/中創建random_number.py並加入例如以下代碼在上面的代碼中Ganglia執行的時候會調用metric_init和metric_cleanup兩個函數,從這兩個函數的名字我們就能得知前一個是做初始化工作,後面一個是做結束資源清理工作的。在Ganglia載入相關模塊來執行時,僅僅會調用這兩個函數。這裏的main函數入口僅僅是為了做調試而寫在這裏的。#!/usr/bin/env python # -*- coding: utf-8 -*- import random import time descriptors = list() def random_number_1(name): return int(random.uniform(5, 100)) + 10 def random_number_2(name): return int(random.randrange(50, 500)) def metric_init(params): global descriptors random.seed() print params d1 = { 'name': 'random_number_1', 'call_back': random_number_1, 'time_max': 90, 'value_type': 'uint', 'units': 'C', 'slope': 'both', 'format': '%u', 'description': 'Random a number', 'groups': 'example random' } d2 = { 'name': 'random_number_2', 'call_back': random_number_2, 'time_max': 90, 'value_type': 'uint', 'units': 'C', 'slope': 'both', 'format': '%u', 'description': 'Random a number', 'groups': 'example random' } descriptors = [d1, d2] return descriptors def metric_cleanup(): pass #This code is for debugging and unit testing if __name__ == '__main__': metric_init({}) while True: for d in descriptors: v = d['call_back'](d['name']) print ('value for %s is '+d['format']) % (d['name'], v) time.sleep(5)
在/etc/ganglia/conf.d/中創建random_number.conf文件,並加入例如以下代碼
modules { module { #這裏的name值一定要與/usr/lib64/ganglia/python_modules/random_number.py的文件名稱保持一致,否則將無法正確執行 name = "random_number" language = "python" } }
collection_group { collect_every = 2 time_threshold = 90
metric { #這裏的name值要與random_number.py中的d1裏的name保持一致 name = "random_number_1" title = "random number 1" value_threshold = 0 }
metric { #這裏的name值要與random_number.py中的d2裏的name保持一致 name = "random_number_2" title = "random number 2" value_threshold = 0 } }
配置好文件後重新啟動服務
service gmond restart service gmetad restart service httpd restart
4. 效果 在瀏覽器中輸入127.0.0.1/ganglia就可以看到監控效果。假設不出問題,則在Metric下拉框中會有例如以下兩個選項: 選擇當中一項則在當前頁面的最下端顯演示樣例如以下信息: 5. 總結 本文僅僅是講述了最為簡單的Ganglia metric開發,假設想深入了解能夠參考Ganglia的官方文檔,或者去https://github.com/ganglia上直接查看源代碼,當中gmond_python_modules項目裏提供了大量常見項目的metrics演示樣例。 Ganglia為集群提供了高可視化的監控,不僅能讓運維人員高速的清楚集群當前的狀態,並且還能讓開發者清楚系統的相關執行狀態,從而針對性的做出更好的優化。
每天進步一點點——Ganglia的Python擴展模塊開發