1. 程式人生 > >Impala實踐之十四:一次Impala節點故障記錄(不能啟動)

Impala實踐之十四:一次Impala節點故障記錄(不能啟動)

前言

Impala叢集中有兩臺機器的Impala Daemon不能正常啟動,記錄一下整個過程和解決方式。

過程

階段一

Impala叢集的狀態開始飄紅,有兩臺節點不能正常使用。

這時候發現叢集裡面有十多個任務正在執行,任務執行時間很長,情況非常不正常。

看了一下sql的內容,有幾個sql的確比較耗資源。

階段二

此時,我先通知不要提交sql,給修復問題留點時間。

正在重啟不健康的節點,群裡面就有人繼續提交了不合理的sql,還在問“為什麼叢集這麼慢?”

此時叢集的Hive Metastore Server服務也飄紅了,重啟過後幾分鐘繼續變紅。

Impala節點還重啟失敗

階段三

此時我的心情其實是挺糟糕的,大早上鬧這一出,而且還不配合。因此再次強調了一下不要提交sql。然後叢集稍微好一點了。

兩臺機器仍然故障,但是我的許可權還不夠,不能看到linux層面的錯誤日誌。

因此決定暫時停掉兩臺Impala節點的使用,並在負載均衡上將兩臺節點排除,這樣機器雖然少了兩臺,但是叢集仍能正常使用。

階段四

現在主要的問題在於,為什麼兩臺機器Impala節點不能啟動,啟動後可以再找錯誤原因。

然後開始排查錯誤,找運維要了一些許可權,開始排查問題,發現再11點的時候cm的agent狀況不正常,然後就不健康。那個時候正是有人反覆提交幾次一些耗時任務的階段。

然後繼續看日誌,Impala服務已經不顯示什麼錯誤了。主要就在cm和系統層面上了。

猜測:

大致想了,有一種可能,就是agent的故障,很有可能是在某個時間點上cm和impala的記憶體使用過大,然後Linux系統為了維護系統自身,把Impala和cm agent幹掉了,然後因為一些我不知道的原因,agent和Impala節點之間的通訊出現了故障,導致我在介面提交了啟動指令,但是一直啟動失敗。

解決:

重啟一下agent,然後在啟動Impala就行。

總結

沒了。

2016-08-18 13:29:12 hzct