1. 程式人生 > >0023-HOSTS配置問題導致集群異常故障分析

0023-HOSTS配置問題導致集群異常故障分析

ldo lov 原因 服務器 src ram 放大 datanode yar

溫馨提示:要看高清無碼套圖,請使用手機打開並單擊圖片放大查看。

1.問題現象

Hadoop集群HDFS、YARN、Hive等服務出現異常告警

技術分享圖片

重啟集群異常告警任然存在大量告警

Cluster 1

HDFS

可用空間抑制...

NameNode 運行狀況抑制...
HDFS 金絲雀抑制...

DataNode (ip-172-31-10-118) 日誌文件

NameNode 連接抑制...

DataNode (ip-172-31-5-190) 日誌文件

NameNode 連接抑制...

DataNode (ip-172-31-9-33) 日誌文件

NameNode 連接抑制...

Hive Metastore Server (ip-172-31-6-148)  日誌文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-5-190)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-9-33)  日誌文件

進程狀態抑制...

NameNode (ip-172-31-6-148) 日誌文件

安全模式狀態抑制...

Server (ip-172-31-5-190) 日誌文件

Quorum 成員資格抑制...

技術分享圖片

Zookeeper服務“Quorum 成員資格”告警

技術分享圖片

CM節點上的所有服務的角色日誌不能正常通過ClouderaManager控制臺查看,顯示如下錯誤:

技術分享圖片

2.問題復現

集群環境:

  • CDH5.12.0
  • 集群服務(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.還原現場配置,所有服務器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置為多出的異常配置。

技術分享圖片

在主機上ping自己的hostname顯示

技術分享圖片

2.重啟集群服務

CM出現如下大量告警

Cluster 1

HDFS
可用空間抑制...
    NameNode 運行狀況抑制...
    HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118)  日誌文件
NameNode 連接抑制...
DataNode (ip-172-31-5-190)  日誌文件
NameNode 連接抑制...
DataNode (ip-172-31-9-33)  日誌文件
NameNode 連接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日誌文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-10-118)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-5-190)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-9-33)  日誌文件
進程狀態抑制...
NameNode (ip-172-31-6-148)  日誌文件
安全模式狀態抑制...
Server (ip-172-31-5-190)  日誌文件
Quorum 成員資格抑制...
    ip-172-31-10-118
代理狀態抑制...
    ip-172-31-5-190
代理狀態抑制...
    ip-172-31-9-33
代理狀態抑制...

技術分享圖片

Zookeeper與現場告警一致,且Zookeeper服務如下狀態

技術分享圖片

技術分享圖片

在查看CM節點的日誌出現如下異常“Connection refused”

技術分享圖片

Host列表監控狀態

技術分享圖片

3.問題原因

集群在運行正常的情況下,所有節點的hosts文件被修改為127.0.0.1導致

4.解決方法

修改所有節點的hosts文件,將127.0.0.1行配置註釋

技術分享圖片

重啟集群服務恢復正常;

醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不肯放,數據玩的花!

溫馨提示:要看高清無碼套圖,請使用手機打開並單擊圖片放大查看。

推薦關註Hadoop實操,第一時間,分享更多Hadoop幹貨,歡迎轉發和分享。

技術分享圖片
原創文章,歡迎轉載,轉載請註明:轉載自微信公眾號Hadoop實操

0023-HOSTS配置問題導致集群異常故障分析