Impala實踐之十四:一次Impala節點故障記錄(不能啟動)
前言
Impala叢集中有兩臺機器的Impala Daemon不能正常啟動,記錄一下整個過程和解決方式。
過程
階段一
Impala叢集的狀態開始飄紅,有兩臺節點不能正常使用。
這時候發現叢集裡面有十多個任務正在執行,任務執行時間很長,情況非常不正常。
看了一下sql的內容,有幾個sql的確比較耗資源。
階段二
此時,我先通知不要提交sql,給修復問題留點時間。
正在重啟不健康的節點,群裡面就有人繼續提交了不合理的sql,還在問“為什麼叢集這麼慢?”
此時叢集的Hive Metastore Server
服務也飄紅了,重啟過後幾分鐘繼續變紅。
Impala節點還重啟失敗
階段三
此時我的心情其實是挺糟糕的,大早上鬧這一出,而且還不配合。因此再次強調了一下不要提交sql。然後叢集稍微好一點了。
兩臺機器仍然故障,但是我的許可權還不夠,不能看到linux層面的錯誤日誌。
因此決定暫時停掉兩臺Impala節點的使用,並在負載均衡上將兩臺節點排除,這樣機器雖然少了兩臺,但是叢集仍能正常使用。
階段四
現在主要的問題在於,為什麼兩臺機器Impala節點不能啟動,啟動後可以再找錯誤原因。
然後開始排查錯誤,找運維要了一些許可權,開始排查問題,發現再11點的時候cm的agent狀況不正常,然後就不健康。那個時候正是有人反覆提交幾次一些耗時任務的階段。
然後繼續看日誌,Impala服務已經不顯示什麼錯誤了。主要就在cm和系統層面上了。
猜測:
大致想了,有一種可能,就是agent的故障,很有可能是在某個時間點上cm和impala的記憶體使用過大,然後Linux系統為了維護系統自身,把Impala和cm agent幹掉了,然後因為一些我不知道的原因,agent和Impala節點之間的通訊出現了故障,導致我在介面提交了啟動指令,但是一直啟動失敗。
解決:
重啟一下agent,然後在啟動Impala就行。
總結
沒了。
2016-08-18 13:29:12 hzct