hbase GC時間過程導致程序掛掉問題

阿新 • • 發佈：2019-02-17

2017-08-24 00:17:54,537 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 106398ms
2017-08-24 00:17:54,587 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING region server hbase01.xxx.com,60020,1503354668740:

org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected; currently processing hbase01.xxx.com,60020,1503354668740 as dead server

分析：
其他機器分配記憶體都一樣，為什麼這臺會有問題。
1.資料量差不多
2.請求量差不多
3.這臺機器上region的Locality大部分都小於0.1，問題就在這裡了。
之前做了balance，一些資料移到別的機器上了，導致region所管理的store file在別的機器上，拉資料導致使用大量記憶體不能釋放，GC時間過長。

重啟節點不能起作用，只有等Locality慢慢趨近與1的時候該問題會消失

hbase GC時間過程導致程序掛掉問題

2017-08-24 00:17:54,537 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host mach

JIRA應用的記憶體引數設定不當+容器沒有對資源進行限制導致服務掛掉的例子

背景: 應用的部署結構是這樣的:使用rancher管理的Docker叢集,有三臺物理主機,二十多個Docker容器, 提供的功能是問題跟蹤(JIRA),文件管理(Confluence),程式碼託管(svn,gitlab),持續整合(jenkins,gitlab-ci + Docker),程式碼質量管理(Son

Hadoop的磁碟大小不一導致節點掛掉

問題描述 DataNode掛載的磁碟或者DataNode節點掛載多個磁碟，如果存在一些磁碟大小不一樣，資料在落盤時就可能會出現磁碟使用率不均勻的情況，容量較小的盤容易被寫滿，而容量大的盤還剩很多空間。磁碟寫滿後，影響Hadoop叢集的正常工作。建好集群后需要將歷史記錄匯入到hbase中，而

shell 管理 uwsgi 進行重啟防止多個進行導致伺服器掛掉

django 執行 uwsgi進行自動刪除程序id並進行重啟防止多個進行導致伺服器掛掉最近使用django+uwsgi+虛擬機器（ubuntu），每次進行uwsgi重啟的時候都會增加一個程序的，導致自己的mysql無意間掛掉了，莫名其妙，結果才發現，有大量的uw

redis伺服器堆記憶體不夠用，導致redis掛掉

上週公司的生產環境部署，服務不停的掛掉，明明在測試環境是沒有問題的，可能是因為添加了許可權功能，因為許可權是快取到redis裡面的，導致記憶體不夠。下面是報錯的部分程式碼： === REDIS BUG REPORT START: Cut & paste starti

Java效能分析及問題解決(二)jvm致命錯誤導致程序直接掛掉，錯誤日誌分析及解決

前言：最近伺服器一臺機器，經常發現jvm錯誤日誌，因為程式有監控，所以程序能夠自動啟動，沒有產生什麼大的影響，利用空閒時間分析下這個問題以及給出最後的解決方案： jvm出現的致命錯誤，會在預設工

Hbase regionserver 逐個掛掉的問題分析

hbase regionserver standby ABORTING region 最近遇到一個比較詭異的問題，一個regionserver由於GC的原因，導致與zookeeper鏈接超時，最終被踢出集群。但是，接下來的現象，才是噩夢的開始！！！一個regionserver由於GC的原因，導

問題定位分享（1）HBase RegionServer頻繁掛掉

最近hbase叢集很多region server掛掉，檢視其中一個RegionServer1日誌發現，17:17:14掛的時候伺服器壓力很大，有大量的responseTooSlow，也有不少gc，但是當時記憶體還有很多剩餘，不是因為oom被kill 2018-03-13T17:17:13.3

SparkStreaming任務保持執行，定時任務監控程序，保證不掛掉

cron任務：每隔1分鐘啟動指令碼，檢查程序是否執行。crontab -e */1 * * * * /data/spark/test.sh 檢查程序，如果程序掛掉，重新啟動Spark任務： #!/bin/sh is_Engine_exist=$(ps aux | grep LbsStreamin

RK3399使用乙太網pppoe撥號導致系統服務全部掛掉。

問題現象：插入網線乙太網設定成pppoe撥號，看log系統服務全部掛掉，系統處於一直重啟狀態。解決方法： 1. 新增 frameworks/native$ git diff diff --git a/data/etc/tablet_core_hard

記一次ss程序莫名其妙掛掉排查

情況是這樣的，我這邊辦公環境是已經科學上網了，也就是在路由器裡面配置了ss，大概有20臺電腦同時在這個路由器下面，辦公上網。斷網情況是在中午發生的，就是莫名其妙的斷網了，根據經驗猜是不是ss程序掛了，路由器連不上了，就斷網了。登上伺服器一看，果然程序沒了，啟動後並沒多想。可能是人多了一個程序扛不住了？為了

Sqlserver 收縮資料庫導致OGG程序掛起

問題描述：每日定時進行sqlserver資料庫備份，每次備份完成後，ogg抽取程序掛起；問題分析：收縮資料庫，將執行如下sql命令： DBCC SHRINKDATABASE(N’bshis’, 10, TRUNCATEONLY) 經測試，資料庫經過日誌收縮，全量備份後

使用start-hbase.sh 啟動服務然後HMaster 和 HRegionServer 相繼掛掉

在Hbase 環境搭建後使用start-hbase.sh 啟動服務然後HMaster 和 HRegionServer 相繼掛掉！！檢視log日誌報錯如下： HMaster log日誌報錯：

phoenix-hbase 服務頻繁掛掉問題排查

call(Client.java:1475) at org.apache.hadoop.ipc.Client.call(Client.java:1408) at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(Pro

FTP連線長時間不操作後自動斷開/掛掉的原因和解決

資料庫、FTP等連線在長時間不使用之後會自動斷開，導致下次使用時尚未登入而直接進行操作，將會導致出錯。原因 FTP或資料庫伺服器設定了會話無操作的timeout，當無操作的時間大於這個值的時候，將會導致伺服器將連線切斷(connection reset b

tomcat執行一段時間掛掉

在catalina.bat第一行加入 set JAVA_OPTS=-Xms64m -Xmx256m -XX:PermSize=128M -XX:MaxNewSize=256m -XX:MaxPermSize=256m 修改TOMCAT_HOME/bin/catali

Linux執行緒掛掉是否影響程序

嚴格的說沒有“執行緒崩潰”，只是觸發了SIGSEGV (Segmentation Violation/Fault)。如果沒有設定對應的Signal Handler作業系統就自動終止程序（或者說預設的Signal Handler就是終止程序）；如果設定了，理論上可以恢復程

HBae找不到協處理器導致RegionServer全部掛掉

一、問題背景：跟兄弟單位公用一個大資料叢集，通過Dataspace結合Kerberos控制資料的訪問，我們生產環境中用到的OLAP工具Kylin，在升級Kylin的過程中，由於刪除了舊的協處理器，導致原來資料繼續去尋找目標協處理器，找不到引起所有RegionS

如何監視一個程序，崩潰掛掉後自動重啟

如何保證服務一直執行？如何保證即使服務掛掉了也能自動重啟？在寫服務程式時經常會碰到這樣的問題。 shell指令碼下面的shell通過一個while-do迴圈，用ps -ef|grep 檢查loader程序是否正在執行，如果沒有執行，則啟動，這樣就保證了崩潰掛掉的程序重新被及時啟動。必須注意兩點： 1

關於MySQL資料庫啟動之後使用一段時間掛掉問題

問題發生的場景由於本人在自己的雲伺服器上搭建了一套網站系統，主要用於各種實驗用。在前兩天偶想起自己的部落格好久沒有更新了，自己墮落成這樣。於是在chrome 位址列中熟練的輸入我那令人魂