0023-HOSTS配置問題導致叢集異常故障分析
溫馨提示:要看高清無碼套圖,請使用手機開啟並單擊圖片放大檢視。
1.問題現象
Hadoop叢集HDFS、YARN、Hive等服務出現異常告警
重啟叢集異常告警任然存在大量告警
Cluster 1
HDFS
可用空間抑制…
NameNode 執行狀況抑制...
HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118) 日誌檔案
NameNode 連線抑制…
DataNode (ip-172-31-5-190) 日誌檔案
NameNode 連線抑制…
DataNode (ip-172-31-9-33) 日誌檔案
NameNode 連線抑制…
Hive Metastore Server (ip-172-31-6-148) 日誌檔案
Hive Metastore Canary 抑制…
Impala Daemon (ip-172-31-10-118) 日誌檔案
程序狀態抑制…
Impala Daemon (ip-172-31-5-190) 日誌檔案
程序狀態抑制…
Impala Daemon (ip-172-31-9-33) 日誌檔案
程序狀態抑制…
NameNode (ip-172-31-6-148) 日誌檔案
安全模式狀態抑制…
Server (ip-172-31-5-190) 日誌檔案
Quorum 成員資格抑制…
Zookeeper服務“Quorum 成員資格”告警
CM節點上的所有服務的角色日誌不能正常通過ClouderaManager控制檯檢視,顯示如下錯誤:
2.問題復現
叢集環境:
- CDH5.12.0
- 叢集服務(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)
1.還原現場配置,所有伺服器hosts配置檔案配置
127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal 172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal 172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal 172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal
配置中的第一行配置為多出的異常配置。
在主機上ping自己的hostname顯示
2.重啟叢集服務
CM出現如下大量告警
Cluster 1
HDFS
可用空間抑制...
NameNode 執行狀況抑制...
HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118) 日誌檔案
NameNode 連線抑制...
DataNode (ip-172-31-5-190) 日誌檔案
NameNode 連線抑制...
DataNode (ip-172-31-9-33) 日誌檔案
NameNode 連線抑制...
Hive Metastore Server (ip-172-31-6-148) 日誌檔案
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148) 日誌檔案
程序狀態抑制...
Impala Daemon (ip-172-31-10-118) 日誌檔案
程序狀態抑制...
Impala Daemon (ip-172-31-5-190) 日誌檔案
程序狀態抑制...
Impala Daemon (ip-172-31-9-33) 日誌檔案
程序狀態抑制...
NameNode (ip-172-31-6-148) 日誌檔案
安全模式狀態抑制...
Server (ip-172-31-5-190) 日誌檔案
Quorum 成員資格抑制...
ip-172-31-10-118
代理狀態抑制...
ip-172-31-5-190
代理狀態抑制...
ip-172-31-9-33
代理狀態抑制...
Zookeeper與現場告警一致,且Zookeeper服務如下狀態
在檢視CM節點的日誌出現如下異常“Connection refused”
Host列表監控狀態
3.問題原因
叢集在執行正常的情況下,所有節點的hosts檔案被修改為127.0.0.1導致
4.解決方法
修改所有節點的hosts檔案,將127.0.0.1行配置註釋
重啟叢集服務恢復正常;
醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不肯放,資料玩的花!
溫馨提示:要看高清無碼套圖,請使用手機開啟並單擊圖片放大檢視。
推薦關注Hadoop實操,第一時間,分享更多Hadoop乾貨,歡迎轉發和分享。
原創文章,歡迎轉載,轉載請註明:轉載自微信公眾號Hadoop實操