Hadoop 數據節點DataNode異常

阿新 • • 發佈：2018-02-10

ora ati port com common cep 數據節點數據 dha

轉載自：http://blog.csdn.net/gis_101/article/details/52679914

1、問題背景

操作系統：CentOS7 64位
Hadoop版本：Hadoop2.7.3
JDK：1.8.0_65

2、問題描述

使用start-all.sh腳本或者先後執行start-dfs.sh、start-yarn.sh腳本啟動Hadoop後，通過jps命令檢測DataNode節點進程發現有DataNode進程，數秒後DataNode進程莫名其妙“消失”了，只有Jps、NodeManager兩個進程。簡而言之就是DataNode進程異常，由於某種原因導致無法啟動或者啟動後數據節點DataNode進程自動關閉。

3、問題原因

通過查看DataNode節點日誌，報Incompatible clusterIDs異常。（註意如果沒有配置hadoop日誌路徑默認在$HADOOP_INSTALL/logs目錄下，也就是安裝目錄的logs文件夾裏，當然可以修改hadoop-env.sh文件中的HADOOP_LOG_DIR，比如加入export HADOOP_LOG_DIR=/var/log/hadoop）。DataNode節點日誌文件異常信息如下：

/**************************************************/
2016-09-26 16:38:56,122 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/tmp/hadoop-hadoop/dfs/data/
java.io.IOException:

Incompatible clusterIDs in /tmp/hadoop-hadoop/dfs/data: namenode clusterID = CID-1ac4e49a-ff06-4a34-bfa2-4e9d7248855b; datanode clusterID = CID-3ae02e74-742f-4915-92e7-0625fa8afcc5
at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:775)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadStorageDirectory(DataStorage.java:300)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadDataStorage(DataStorage.java:416)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.addStorageLocations(DataStorage.java:395)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:573)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1362)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1327)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:802)
at java.lang.Thread.run(Thread.java:745)
2016-09-26 16:38:56,124 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanode Uuid unassigned) service to s0/192.168.48.134:8020. Exiting.
java.io.IOException:

All specified directories are failed to load.
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:574)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1362)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1327)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:802)
at java.lang.Thread.run(Thread.java:745)
2016-09-26 16:38:56,124 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool (Datanode Uuid unassigned) service to s0/192.168.48.134:8020
2016-09-26 16:38:56,226 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool (Datanode Uuid unassigned)
2016-09-26 16:38:58,227 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
2016-09-26 16:38:58,228 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 0
2016-09-26 16:38:58,232 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
/**************************************************/

日誌文件分析如下：
首先日誌警告，“Failed to add storage directory [DISK]file:/tmp/hadoop-hadoop/dfs/data/
”添加存儲文件失敗，失敗路勁位於“/tmp/hadoop-hadoop/dfs/data/”。緊接著報Java IO異常“java.io.IOException”，異常信息裏顯示的是，namenode和datanode的clusterID不一致，這些異常就導致了後面提示初始化失敗、DataNode進程退出等異常、警告信息。網上很多其他博主說，這是因為多次對namenode進行format導致的。將namenode和datanode的clusterID和namespaceID修改一致即可。的確，進行了兩次format操作，但是修改過後仍然報同樣的問題，通過對比”/tmp/hadoop-hadoop/dfs/data/current/VERSION”文件發現VERSION文件裏clusterID都是一致的，其他的信息也一致。

4、解決方案

由於無法通過直接修改VERSION文件裏clusterID、namespaceID解決問題。於是嘗試重命名了一下各個數據節點DataNode“/tmp/hadoop-hadoop/dfs/data/”目錄下current文件夾，再重新啟動hadoop，發現hadoop運行起來了。各個數據節點的DataNode、NodeManager等進程信息正常，查看各個節點的日誌，一切顯示正常。然後查看了一下“/tmp/hadoop-hadoop/dfs/data/”目錄，發現自動創建了一個current目錄。

5、總結

該問題因為多次對namenode進行format，每一次format主節點NameNode產生新的clusterID、namespaceID，於是導致主節點的clusterID、namespaceID與各個子節點DataNode不一致。當format過後再啟動hadoop，hadoop嘗試創建新的current目錄，但是由於已存在current目錄，導致創建失敗，最終引起DataNode節點的DataNode進程啟動失敗，從而引起hadoop集群完全啟動失敗。因此可以通過直接刪除數據節點DataNode的current文件夾，進行解決該問題。

Hadoop 數據節點DataNode異常

Hadoop 數據節點DataNode異常

ora ati port com common cep 數據節點數據 dha 轉載自：http://blog.csdn.net/gis_101/article/details/52679914 1、問題背景操作系統：CentOS7 64位 Hadoop版本：Hadoo

hadoop單個數據節點的不同儲存路徑的儲存策略原始碼分析

產生問題於資料叢集的數節點儲存磁碟大小不同，造成使用一段時間以後容量小的磁碟空間緊張。其實，早期配置了磁碟使用儲存策略，就能解決該問題，部分網來上說這個策略無效，再hadoop2.0.1 本版有效，該版本應用於CHD4.6中。為了找到準確的程式定位點，參考了以下的Hadoop設計文件。參考 Hadoo

laravel post提交數據時顯示異常

try web IE 請求被拒絕 del 提交 TE let post提交數據時候顯示如下： The page has expired due to inactivity. Please refresh and try again 這是由於在laravel框架中有

sqlalchemy插入數據到mysql異常

cursors alc engine val oot TP nal ech tps 1. 插入中文報錯：在數據庫名稱後面添加?charset=utf8 engine = create_engine("mysql+pymysql://root:admin@loca

Hadoop數據操作系統YARN全解析

exe 結點處理滿足 apache 不同容器黑名單 registry 為了能夠對集群中的資源進行統一管理和調度，Hadoop 2.0引入了數據操作系統YARN。YARN的引入，大大提高了集群的資源利用率，並降低了集群管理成本。首先，YARN允

EntityFramework 數據校驗異常處理

ram ember ber exception nbsp mes 處理 err ESS 1 public void Insert(PageHost entity) 2 { 3 try 4 { 5 db.pagehost.Add(e

logstash 消費數據到kafka異常

查看但是垃圾回收 produce pro 問題 failed 是否 producer 報錯：[logstash.outputs.kafka ] Sending batch to Kafka failed. Will retry after a delay. {:

Hadoop數據傾斜及解決辦法

spa 調優大量 art 很慢 shu 有一種繼承 cal 數據傾斜：就是大量的相同key被partition分配到一個分區裏，map /reduce程序執行時，reduce節點大部分執行完畢，但是有一個或者幾個reduce節點運行很慢，導致整個程序的處理時間很長，這

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

SQL On Hadoop 設計的一個基本原則是：將計算任務移動到數據所在的節點而不是反過來

介紹計算性能 pan 之間處理 arr 應用程序 sum span 3.1 數據本地化 SQL On Hadoop 設計的一個基本原則是：將計算任務移動到數據所在的節點而不是反過來。這主要出於網絡優化的目的，因為數據分布在不同的節點，如果移動數據那麽將會產生大量的低效的

NumberFormatException: Invalid int類型不匹配異常——使用SQL數據庫查詢語句select * from blacknumber order by _id desc limit ?,20;出現

rom add ray 修改 java turn 技術分享 data color 異常：類型不匹配 05-06 08:12:38.151: E/AndroidRuntime(14904): java.lang.NumberFormatException: Invalid i

第五篇：數據預處理(二) - 異常值處理

ges 方向分享 site 方式得到 ros 聚類測試前言數據中如果有某個值偏離該列其他值比較離譜，那麽就有可能是一個異常的值。在數據預處理中，自然需要把這個異常值檢測出來，然後剔除掉，或者光滑掉，或者其他各種方法進行處理。需要註

使用idel和maven實現hadoop上數據的讀取和寫入

iou onf bytes 數據 fig pre cnblogs oop hello 1 public class TestRead { 2 @Test 3 public void readTest() throws Exception { 4

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

pan 查詢寫入所有 not insert語句 int 寫入文件文件系統一、概述 hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。 DML包括：INSERT插入

Snappy數據壓縮配置到Hadoop

nbsp ould 安裝官方文檔 toc ora automake java_home -o 依賴庫：yum -y install gcc+ gcc-c++ 官方文檔中提到編譯前提需要：gcc c++, autoconf, automake, libtool, Java

解決持久化數據太大，單個節點的硬盤無法存儲的問題；解決運算量太大，單個節點的內存、CPU無法處理的問題

pro 一致性哈希普通 .html 價格 str oca 計劃硬件需要學習的技術很多，要自學新知識也不是一件容易的事，選擇一個自己比較感興趣的會是一個比較好的開端，於是，打算學一學分布式系統。　　帶著問題，有目的的學習，先了解整體架構，在深入感興趣的細節，這是我的

pg數據庫數據表異常掛起

對數 details pgadmin 希望一個進行 nbsp 增刪查改選中 pg數據庫即是PostgreSQL數據庫。前幾天在一個Java項目中，出現運行Java程序後，pg數據庫的數據表異常掛起。而且是在某臺電腦上出現的，重裝數據庫也沒用，其它電腦未能復現，是個很

新增數據頁面360瀏覽器樣式異常

lin style type track meta height sans div back <meta http-equiv="X-UA-Compatible" content="IE=edge" > 新增數據頁面360瀏覽器樣式異常 <htm

節點2上crsd無法啟動，數據庫和監聽無法自動啟動，比如ocrconfig、ocrcheck以及srvct

oracle 數據庫操作系統信息手工 CRSD進程在11g中的變化在11.2中，CRSD進程不再是RAC中最關鍵的進程之一。如果對10g RAC比較熟悉，應該清楚CRSD進程的重要性，Oracle在操作系統啟動後，就是通過啟動這個進程然後啟動整個CLUSTER以及數據庫的。在11.2

pgpool中定義的數據庫節點及pgpool支持的復制模式

rim prim urn mas this 節點 conn def 定義 /* * The first DB node id appears in pgpool.conf or the first "live" DB * node otherwise. */#define