0023-HOSTS配置問題導致集群異常故障分析

阿新 • • 發佈：2018-11-20

ldo lov 原因服務器 src ram 放大 datanode yar

溫馨提示：要看高清無碼套圖，請使用手機打開並單擊圖片放大查看。

1.問題現象

Hadoop集群HDFS、YARN、Hive等服務出現異常告警

技術分享圖片

重啟集群異常告警任然存在大量告警

Cluster 1

HDFS

可用空間抑制...

NameNode 運行狀況抑制...

HDFS 金絲雀抑制...

DataNode (ip-172-31-10-118) 日誌文件

NameNode 連接抑制...

DataNode (ip-172-31-5-190) 日誌文件

NameNode 連接抑制...

DataNode (ip-172-31-9-33) 日誌文件

NameNode 連接抑制...

Hive Metastore Server (ip-172-31-6-148)  日誌文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-5-190)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-9-33)  日誌文件

進程狀態抑制...

NameNode (ip-172-31-6-148) 日誌文件

安全模式狀態抑制...

Server (ip-172-31-5-190) 日誌文件

Quorum 成員資格抑制...

技術分享圖片

Zookeeper服務“Quorum 成員資格”告警

技術分享圖片

CM節點上的所有服務的角色日誌不能正常通過ClouderaManager控制臺查看，顯示如下錯誤：

技術分享圖片

2.問題復現

集群環境：

CDH5.12.0
集群服務（HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie）

1.還原現場配置，所有服務器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置為多出的異常配置。

技術分享圖片

在主機上ping自己的hostname顯示

技術分享圖片

2.重啟集群服務

CM出現如下大量告警

Cluster 1

HDFS
可用空間抑制...
    NameNode 運行狀況抑制...
    HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118)  日誌文件
NameNode 連接抑制...
DataNode (ip-172-31-5-190)  日誌文件
NameNode 連接抑制...
DataNode (ip-172-31-9-33)  日誌文件
NameNode 連接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日誌文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-10-118)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-5-190)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-9-33)  日誌文件
進程狀態抑制...
NameNode (ip-172-31-6-148)  日誌文件
安全模式狀態抑制...
Server (ip-172-31-5-190)  日誌文件
Quorum 成員資格抑制...
    ip-172-31-10-118
代理狀態抑制...
    ip-172-31-5-190
代理狀態抑制...
    ip-172-31-9-33
代理狀態抑制...

技術分享圖片

Zookeeper與現場告警一致，且Zookeeper服務如下狀態

技術分享圖片

在查看CM節點的日誌出現如下異常“Connection refused”

技術分享圖片

Host列表監控狀態

技術分享圖片

3.問題原因

集群在運行正常的情況下，所有節點的hosts文件被修改為127.0.0.1導致

4.解決方法

修改所有節點的hosts文件，將127.0.0.1行配置註釋

技術分享圖片

重啟集群服務恢復正常；

醉酒鞭名馬，少年多浮誇！嶺南浣溪沙，嘔吐酒肆下！摯友不肯放，數據玩的花！

溫馨提示：要看高清無碼套圖，請使用手機打開並單擊圖片放大查看。

推薦關註Hadoop實操，第一時間，分享更多Hadoop幹貨，歡迎轉發和分享。

原創文章，歡迎轉載，轉載請註明：轉載自微信公眾號Hadoop實操

0023-HOSTS配置問題導致集群異常故障分析

ldo lov 原因服務器 src ram 放大 datanode yar 溫馨提示：要看高清無碼套圖，請使用手機打開並單擊圖片放大查看。 1.問題現象 Hadoop集群HDFS、YARN、Hive等服務出現異常告警重啟集群異常告警任然存在大量告警 Cluster

0023-HOSTS配置問題導致叢集異常故障分析

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.問題現象 Hadoop叢集HDFS、YARN、Hive等服務出現異常告警重啟叢集異常告警任然存在大量告警 Cluster 1 HDFS 可用空間抑制… NameNode 執行

防火墻導致zookeeper集群異常，kafka起不來

AR environ art ssi 防火 conn 順序 exc 啟動問題描述：主機信息： IP hostname 10.0.0.10 host10 10.0.0.12 host12 10.0.0.13 host13 在這三臺主機上部署一套

運維小知識之nginx---nginx配置Jboss集群負載均衡

sdn -c err nginx error .com lee oot tle codyl 2016-01-26 00:53:00 瀏覽385 評論0 負載均衡轉自運維小知識之nginx---nginx配置Jboss集群負載均衡-博客-雲棲社區

Windows 配置Reids集群 Redis Cluster

下載 com all 不支持支持由於 ble ech 功能 1. 下載安裝Redis Redis官方不支持Windows，但是Microsoft Open Tech group在 GitHub上開發了一個Win64的版本,下載地址為：下載Redis 啟動服

kafka入門：簡介、使用場景、設計原理、主要配置及集群搭建（轉）

request 上傳結構數據 send gist segments ring 希望問題導讀： 1.zookeeper在kafka的作用是什麽？ 2.kafka中幾乎不允許對消息進行“隨機讀寫”的原因是什麽？ 3.kafka集群consumer和producer狀態信息

配置Etcd集群和TLS認證

k8s etcd tls 由於後續準備在內網開發和測試環境采用二進制方式部署K8S相關組件，並考慮各組件的高可用性和安全性問題,本節介紹etcd服務的集群及tls配置。一、安裝環境介紹二、Etcd二進制軟件包下載地址:https://github.com/coreos/etcd/release

window配置mongodb集群(副本集)

may style log 但是 ace inf ODB lse status 參數解釋: dbpath:數據存放目錄 logpath:日誌存放路徑 pidfilepath：進程文件,有利於關閉服務 logappend:以追加的方式記錄日誌(boolean值) replSe

Mariadb配置Galera集群

erro row 登錄權限 with state nec config eat ica 一、增加MariaDB源 cd /etc/yum.repos.d vi MariaDB.repo # MariaDB 10.1 CentOS repository list - cr

配置hadoop集群服務之一

nopasswd 下機 spark park inux sla 權限進行獲得 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p.p2 { m

配置hadoop集群服務之二

主機名 $path log dir log日誌 hadoop集群 filesyste 登陸 bad 1、配置多臺機器可以免密登陸：步驟： (Tip:正常情況下authorized_keys應該同id_rsa.pub) 1）用ssh-keygen命令生成公匙 2）接著在Ma

Spring Boot配置redis集群

rim ember bool private mon err rem exc gin 1、編寫redis.properties配置文件 spring.redis.cluster.nodes=172.16.19.128:6300,172.16.1.281:6302,172.

centos7配置Hadoop集群環境

ron clust start sys ima ssh服務 jdbc blog 圖片參考： https://blog.csdn.net/pucao_cug/article/details/71698903 設置免密登陸後，必須重啟ssh服務 systermctl res

Spring Boot項目配置RabbitMQ集群

user spa 配置 per work number host nbsp onf //具體參看了配置的源碼 org.springframework.boot.autoconfigure.amqp.RabbitProperties //RabbitMQ單機

配置 Zookeeper 集群

默認 loop 網絡 none port nod 5.7 客戶端 link 一、Zookeeper原理簡介ZooKeeper是一個開放源碼的分布式應用程序協調服務，它包含一個簡單的原語集，分布式應用程序可以基於它實現同步服務，配置維護和命名服務等。 Zookeeper設計目

Kubernetes 使用 ingress 配置 https 集群(十五)

ingress f2c contain gen cas stat 是把虛擬主機客戶端一、背景 1.1 需求我們有這樣的一個需求，就是把 Pod 集群升級為 https，目前的辦法就是要麽每個容器配置 https，然後前端通過 Service 進行調度，但是這樣配置起

dubbo源碼閱讀之集群（故障處理策略）

rst fec 是否 adb indexof 均衡 lsa getc 問題 dubbo集群概述 dubbo集群功能的切入點在ReferenceConfig.createProxy方法以及Protocol.refer方法中。在ReferenceConfig.createPr

SQL Server Alwayson搭建四：故障轉移集群配置

數據庫 SQL Server 確定仲裁模式配置故障轉移集群的時候，如果集群節點是奇數，那麽使用多數節點；如果集群節點是偶數，那麽使用多數節點和文件共享（配置一個共享文件夾，各個節點都能訪問這個共享文件夾）因為是偶數節點(sql01和sql02)，因此選擇多數節點和文件共享模式2.安裝故障轉移集群，s

ceph 集群報 mds cluster is degraded 故障排查

ceph 故障排查 mds degraded ceph 集群報 mds cluster is degraded 故障排查ceph 集群版本：ceph -vceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185)ceph -w

Redis3.2.8集群安裝配置

redis3.2.8集群安裝配置具體就不做介紹了，直接開始安裝準備環境：使用2臺centos服務器，每臺機器上部署3個實例，集群為三個主節點與三個從節點：第一臺 192.168.1.107:7000 192.168.1.107:7001 192.168.1.107:7002 第二臺 192.168.

0023-HOSTS配置問題導致集群異常故障分析

相關推薦