hbase GC時間過程導致程序掛掉問題
阿新 • • 發佈:2019-02-17
2017-08-24 00:17:54,537 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 106398ms
2017-08-24 00:17:54,587 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING region server hbase01.xxx.com,60020,1503354668740:
2017-08-24 00:17:54,587 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING region server hbase01.xxx.com,60020,1503354668740:
org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected; currently processing hbase01.xxx.com,60020,1503354668740 as dead server
分析:
其他機器分配記憶體都一樣,為什麼這臺會有問題。
1.資料量差不多
2.請求量差不多
3.這臺機器上region的Locality大部分都小於0.1,問題就在這裡了。
之前做了balance,一些資料移到別的機器上了,導致region所管理的store file在別的機器上,拉資料導致使用大量記憶體不能釋放,GC時間過長。
重啟節點不能起作用,只有等Locality慢慢趨近與1的時候該問題會消失