Ganglia監控HDFS和HBase指標說明

阿新 • • 發佈：2019-01-16

HDFS相關

datanode相關

引數	解釋
dfs.datanode.blockChecksumOp_avg_time	塊校驗平均時間
dfs.datanode.blockChecksumOp_num_ops	塊檢驗次數
dfs.datanode.blockReports_avg_time	塊報告平均時間
dfs.datanode.blockReports_num_ops	塊報告次數
dfs.datanode.block_verification_failures	塊驗證失敗次數
dfs.datanode.blocks_read	從硬碟讀塊總次數
dfs.datanode.blocks_removed	刪除塊數目
dfs.datanode.blocks_replicated	塊複製總次數
dfs.datanode.blocks_verified	塊驗證總次數
dfs.datanode.blocks_written	向硬碟寫塊總次數
dfs.datanode.bytes_read	讀出總位元組包含crc驗證檔案位元組數
dfs.datanode.bytes_written	寫入總位元組數（在寫入每個packet時計數）
dfs.datanode.copyBlockOp_avg_time	複製塊平均時間
dfs.datanode.copyBlockOp_num_ops	複製塊次數
dfs.datanode.heartBeats_avg_time	向namenode彙報平均時間
dfs.datanode.heartBeats_num_ops	向namenode彙報總次數
dfs.datanode.readBlockOp_avg_time	讀塊平均時間（單位ms）
dfs.datanode.readBlockOp_num_ops	讀塊總次數
dfs.datanode.reads_from_local_client	從本地讀入塊次數
dfs.datanode.reads_from_remote_client	從遠端讀入塊次數
dfs.datanode.replaceBlockOp_avg_time	替換塊平均時間（負載均衡策略）
dfs.datanode.replaceBlockOp_num_ops	替換塊次數（負載均衡策略）
dfs.datanode.volumeFailures	notfound
dfs.datanode.writeBlockOp_avg_time	寫塊平均時間
dfs.datanode.writeBlockOp_num_ops	寫塊總次數一般和dfs.datanode.blocks_written
dfs.datanode.writes_from_local_client	寫本地次數
dfs.datanode.writes_from_remote_client	寫遠端次數

JVM相關

引數	解釋
jvm.metrics.gcCount	gc總次數
jvm.metrics.gcTimeMillis	gc總耗時(ms)
jvm.metrics.logErro	jvm Error次數
jvm.metrics.logFatal	jvm出現fatal次數
jvm.metrics.logInfo	jvm 出現Info的次數
jvm.metrics.logWarn	jvm出現warn的次數
jvm.metrics.maxMemoryM	jvm試圖使用最大記憶體（M），如果沒有限制返回Long.MAX_VALUE
jvm.metrics.memHeapCommittedM	jvm提交堆記憶體大小
jvm.metrics.memHeapUsedM	jvm使用堆記憶體大小
jvm.metrics.memNonHeapCommittedM	jvm非堆記憶體已提交大小
jvm.metrics.memNonHeapUsedM	jvm非堆記憶體已使用大小
jvm.metrics.threadsBlocked	正在阻塞等待監視器鎖的執行緒數目
jvm.metrics.threadsNew	尚未啟動的執行緒數目
jvm.metrics.threadsRunnable	正在執行狀態的執行緒數目
jvm.metrics.threadsTerminated	已退出執行緒數目
jvm.metrics.threadsTimedWaiting	等待另一個執行緒執行取決於指定等待時間的操作的執行緒數目
jvm.metrics.threadsWaiting	無限期地等待另一個執行緒來執行某一特定操作的執行緒數目

RPC相關

引數	解釋
rpc.metrics.NumOpenConnections	number of open connections rpc連線開啟的數目
rpc.metrics.ReceivedBytes	number of bytes received rpc收到的位元組數
rpc.metrics.RpcProcessingTime_avg_time	Average time for RPC Operations in last interval rpc在最近的互動中平均操作時間
rpc.metrics.RpcProcessingTime_num_ops	rpc在最近的互動中連線數目
rpc.metrics.RpcQueueTime_avg_time	rpc在互動中平均等待時間
rpc.metrics.RpcQueueTime_num_ops	rpc queue中完成的rpc運算元目
rpc.metrics.SentBytes	number of bytes sent rpc傳送的資料位元組
rpc.metrics.callQueueLen	length of the rpc queue rpc 佇列長度
rpc.metrics.rpcAuthenticationFailures	number of failed authentications rpc 驗證失敗次數
rpc.metrics.rpcAuthenticationSuccesses	number of successful authentications 驗證成功數
rpc.metrics.rpcAuthorizationFailures	number of failed authorizations 授權失敗次數
rpc.metrics.rpcAuthorizationSuccesses	number of successful authorizations 成功次數

MapReduce相關

引數	解釋
mapred.shuffleInput.shuffle_failed_fetches	從map輸出中取資料過程中獲取失敗次數
mapred.shuffleInput.shuffle_fetchers_busy_percent	在獲取map輸出過程中並行獲取執行緒忙碌佔總並行獲取執行緒百分比
mapred.shuffleInput.shuffle_input_bytes	shuffle過程中讀入資料位元組
mapred.shuffleInput.shuffle_success_fetches	從map輸出中取資料過程中獲取成功次數
mapred.shuffleOutput.shuffle_failed_outputs	向reduce傳送map輸出失敗次數
mapred.shuffleOutput.shuffle_handler_busy_percent	向reduce傳送map輸出中server執行緒忙碌佔總工作執行緒(在tasktracker.http.threads中配置)百分比。
mapred.shuffleOutput.shuffle_output_bytes	shuffle過程中輸出資料位元組
mapred.shuffleOutput.shuffle_success_outputs	向reduce成功
mapred.tasktracker.mapTaskSlots	設定map槽數
mapred.tasktracker.maps_running	正在執行的map數
mapred.tasktracker.reduceTaskSlots	設定reduce槽數
mapred.tasktracker.reduces_running	正在執行的reduce數
mapred.tasktracker.tasks_completed	完成任務數
mapred.tasktracker.tasks_failed_ping	因tasktracker與task互動失敗導致的失敗的task數目
mapred.tasktracker.tasks_failed_timeout	因task未在mapred.task.timeout配置的(預設10分鐘)時間內彙報進度而超時kill的task數目

rpc detailed 相關

引數	解釋
rpc.detailed-metrics.canCommit_avg_time	rpc詢問是否提交任務平均時間
rpc.detailed-metrics.canCommit_num_ops	rpc詢問是否提交任務次數
rpc.detailed-metrics.commitPending_avg_time	rpc報告任務提交完成，但是該提交仍然處於pending狀態的平均時間
rpc.detailed-metrics.commitPending_num_ops	rpc報告任務提交完成，但是該提交仍然處於pending狀態的次數
rpc.detailed-metrics.done_avg_time	rpc報告任務成功完成的平均時間
rpc.detailed-metrics.done_num_ops	rpc報告任務成功完成的次數
rpc.detailed-metrics.fatalError_avg_time	rpc報告任務出現fatalerror的平均時間
rpc.detailed-metrics.fatalError_num_ops	rpc報告任務出現fatalerror的次數
rpc.detailed-metrics.getBlockInfo_avg_time	從指定datanode獲取block的平均時間
rpc.detailed-metrics.getBlockInfo_num_ops	從指定datanode獲取block的次數
rpc.detailed-metrics.getMapCompletionEvents_avg_time	reduce獲取已經完成的map輸出地址事件的平均時間
rpc.detailed-metrics.getMapCompletionEvents_num_ops	reduce獲取已經完成的map輸出地址事件的次數
rpc.detailed-metrics.getProtocolVersion_avg_time	獲取rpc協議版本資訊的平均時間
rpc.detailed-metrics.getProtocolVersion_num_ops	獲取rpc協議版本資訊的次數
rpc.detailed-metrics.getTask_avg_time	當子程序啟動後，獲取jvmtask的平均時間
rpc.detailed-metrics.getTask_num_ops	當子程序啟動後，獲取jvmtask的次數
rpc.detailed-metrics.ping_avg_time	子程序週期性的檢測父程序是否還存活的平均時間
rpc.detailed-metrics.ping_num_ops	子程序週期性的檢測父程序是否還存活的次數
rpc.detailed-metrics.recoverBlock_avg_time	為指定的block開始恢復標記生成的平均時間
rpc.detailed-metrics.recoverBlock_num_ops	為指定的block開始恢復標記生成的次數
rpc.detailed-metrics.reportDiagnosticInfo_avg_time	向父程序報告任務錯誤訊息的平均時間，該操作應儘可能少，這些訊息會在jobtracker中儲存
rpc.detailed-metrics.reportDiagnosticInfo_num_ops	向父程序報告任務錯誤訊息的次數
rpc.detailed-metrics.startBlockRecovery_avg_time	開始恢復block的平均時間
rpc.detailed-metrics.startBlockRecovery_num_ops	開始恢復block的次數
rpc.detailed-metrics.statusUpdate_avg_time	彙報子程序進度給父程序的平均時間
rpc.detailed-metrics.statusUpdate_num_ops	彙報子程序進度給父程序的次數
rpc.detailed-metrics.updateBlock_avg_time	更新block到新的標記及長度的平均操作時間
rpc.detailed-metrics.updateBlock_num_ops	更新block到新的標記及長度的次數

HBase相關

引數	解釋
hbase.regionserver.blockCacheCount	記憶體中快取塊(block cache)數。快取中StoreFiles(HFiles)的塊（block）數量。
hbase.regionserver.blockCacheEvictedCount	因超出堆大小限制，從快取中釋放的塊數量。
hbase.regionserver.blockCacheFree	可用的快取塊容量。
hbase.regionserver.blockCacheHitCachingRatio	快取塊的快取命中率（0-100）。讀取的快取命中率被配置為檢視快取（如cacheblocks=true）。
hbase.regionserver.blockCacheHitCount	StoreFiles(HFiles)從快取中讀取的塊數量。
hbase.regionserver.blockCacheHitRatio	快取塊的命中率(0-100).包括所有讀請求，儘管cacheBlocks=false的讀出會被計為cache丟失。
hbase.regionserver.blockCacheMissCount	被StoreFiles (HFiles)請求但是未從快取中讀出的塊數量。
hbase.regionserver.blockCacheSize	記憶體中塊快取的容量，特指被blockcache佔用的記憶體容量。
hbase.regionserver.compactionQueueSize	Compaction佇列大小，用於compaction的RegionServer中的Store個數。
hbase.regionserver.flushQueueSize	MemStore中等待flush操作的排隊region數量。
hbase.regionserver.fsReadLatency_avg_time	檔案系統延遲（ms）。從HDFS讀操作的平均時間。
hbase.regionserver.memstoreSizeMB	當前RegionServer中所有Memstore的總容量(MB)。
hbase.regionserver.requests	總的讀和寫請求次數。請求相當於RegionServer的RPC呼叫，因此一個Get相當於一次請求，但是哪怕Scan的caching值設定為 1000，對SCAN每個“下一次”呼叫僅相當於一次請求，（例如，非每行）。對於大資料塊的請求，每個 HFile對應一次請求。
hbase.regionserver.storefileIndexSizeMB	RegionServer中 StoreFile檔案索引大小的總和(MB)。

Ganglia監控HDFS和HBase指標說明

HDFS相關 datanode相關引數解釋 dfs.datanode.blockChecksumOp_avg_time 塊校驗平均時間 dfs.datanode.blockChecksumOp_num_ops

使用ganglia 實現監控 hadoop 和 hbase（詳細過程總結）

一，環境準備 hadoop 2.8.2 分散式環境（三個節點安裝請參考 hadoop分散式環境安裝） hbase 1.2.6 分散式環境（三個節點，安裝參考hbase分散式環境安裝）主節點採用 ubuntu 16.04 桌面版，從

Hadoop中hdfs和Hbase Xceivers設定

近一段在研究Impala文件，在講述Parquest table分割槽效能調優方面提到了Xceivers設定。因此將該引數英文資料整理翻譯如下：介紹 dfs.datanode.max.xcievers 引數對客戶端有直接影響，他主要定義server端的執行緒數量，或

HDFS和Hbase安裝指南，hbase1.2.4

HDFS和Hbase安裝指南硬體和作業系統建議 CPU Intel - Nehalem (2008釋出) 或以後釋出的CPU AMD - Bulldozer (2011釋出)或以後釋出的CPU CPU核心數

HDFS和HBASE動態增加和減少節點

一.HDFS動態增加節點： sbin/hadoop-daemon.sh start datanode sbin/hadoop-daemon.sh start tasktracker DEPRECATED: Use of this script to execute ma

ubutun16.04下安裝Ganglia監控hadoop與hbase

1.採用的是apt-get方式進行安裝:（測試叢集2臺機器）bigdata-cnki節點（主節點）進行下面命令安裝：（ganglia-monitor +gmetad +ganglia-webfrontend+apache2）sudo apt-get install gangl

利用Sqoop將MySQL海量測試資料匯入HDFS和HBase

宣告：作者原創，轉載註明出處。一、安裝Sqoop 1、下載sqoop,解壓、資料夾重新命名 wget http://mirror.bit.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin_

基於kerberos的hdfs和hbase登入

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfigurati

Storm 系列（八）—— Storm 整合 HDFS 和 HBase

一、Storm整合HDFS 1.1 專案結構本用例原始碼下載地址：storm-hdfs-integration 1.2 專案主要依賴專案主要依賴如下，有兩個地方需要注意：這裡由於我伺服器上安裝的是 CDH 版本的 Hadoop，在匯入依賴時引入的也是 CDH 版本的依賴，需要使用 <

HDFS的快照原理和Hbase基於快照的表修復

才會 vertical 根據註意 efault 失敗機制 soft hot 前一篇文章《HDFS和Hbase誤刪數據恢復》主要講了hdfs的回收站機制和Hbase的刪除策略。根據hbase的刪除策略進行hbase的數據表恢復。本文主要介紹了hdfs的快照原理和根據快照進

hbase安裝（使用已經安裝的HDFS和zookeeper）

先啟動zookeeper再啟動hbase 1.在Apache官網上下載HBASE的安裝包 http://hbase.apache.org 我安裝的是Hadoop2.4.1，所以下載了hbase-0.98.11-hadoop2-bin.tar.gz 2. 通過wins

hbase ganglia監控配置

2015年06月09日 12:35:38 篤志近思閱讀數：3132 hbase ganglia 監控 hbase 配置 hadoop-metrics2-hbase.properties *.sink.ganglia.class=org

叢集間動態擴充套件和刪除hdfs的datanode和hbase的regionserver

如果你既要增加節點，又要刪除節點呢，我推薦的順序是：新增datanode，新增regionserver，停掉regionserver ，停掉datanode。如果你單獨的增加或者移出呢，順序就是上面拆開的就行啦。如果你新增機器呢，新增datanode，新增regionser

flume 對日誌監控，和日誌資料正則清洗最後實時集中到hbase中的示例

今天學習了flume的簡單用法，順便思考了一下，對標準日誌格式的資料實時清洗和集中儲存今天介紹一下運用正則表示式對資料進行實時清洗，將資料儲存到hbase中，前面簡單的不分列的儲存，就直接貼程式碼1、運用flume的HBasesink--SimpleHbaseEventSer

hadoop讀寫hdfs和操作hbase，把hbase內容按group by排序

package org.ucas.hbase; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import jav

【Hadoop】HBase、HDFS和MapReduce架構異同簡解

HBase、HDFS和MapReduce架構異同 .. HBase（公司架構模型） HDFS2.0（公司架構模型） MR2.0（公司架構模型） MR1.0（公司架構模型）

【轉載】Hadoop 2.7.3 和Hbase 1.2.4安裝教程

啟動運行 property new rop net 文本文 .tar.gz cor 轉載地址：http://blog.csdn.net/napoay/article/details/54136398 目錄(?)[+] 一、機器環境

Hive和Hbase的區別

缺點每一個 oop 設備 actions 利用計數映射編寫 1. 兩者分別是什麽？ Apache Hive是一個構建在Hadoop基礎設施之上的數據倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數據。HQL是一種類SQL語言，這種語言最終被轉化為M

zabbix監控linux和windows的tcp連接數

windows 配置文件服務器 linux 客戶端 linux：在linux上手動獲得tcp連接數的命令為：netstat -an|awk ‘/^tcp/{++S[$NF]}END{for(a in S) print a,S[a]}‘ #ESTABLISHED socket

Sqoop_具體總結使用Sqoop將HDFS/Hive/HBase與MySQL/Oracle中的數據相互導入、導出

能夠 mes south ase form html 技術 popu 沒有一、使用Sqoop將MySQL中的數據導入到HDFS/Hive/HBase 二、使用Sqoop將HDFS/Hive/HBase中的數據導出到MySQL 2.3 HBase中的數據

Ganglia監控HDFS和HBase指標說明

HDFS相關

datanode相關

JVM相關

RPC相關

MapReduce相關

rpc detailed 相關

HBase相關

相關推薦