[Hadoop]那些年踩過的Hadoop坑

阿新 • • 發佈：2019-01-08

1. DataNode未啟動

1.1 問題原因

這個問題一般是由於兩次或兩次以上的格式化NameNode造成的。jps命令發現沒有datanode啟動，所以去Hadoop的日誌檔案下檢視日誌（/opt/hadoop-2.7.2/logs/hadoop-xiaosi-datanode-Qunar.log），每個人的日誌檔案都是不一樣的：

2016-06-12 20:01:31,374 WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs in /home/xiaosi/config/hadoop/tmp/dfs/data: namenode clusterID = CID-67134f3c-0dcd-4e29-a629-a823d6c04732; datanode clusterID = CID-cf2f0387-3b3b-4bd8-8b10-6f5baecccdcf
2016-06-12 20:01:31,375 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> 
 (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000. Exiting. 
java.io.IOException: All specified directories are failed to load.
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:478)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1358)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1323)
	at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:802)
	at java.lang.Thread.run(Thread.java:724)
2016-06-12 20:01:31,377 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> 
 (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000
2016-06-12 20:01:31,388 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool <registering> (Datanode Uuid unassigned)
2016-06-12 20:01:33,389 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
2016-06-12 20:01:33,391 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 0
2016-06-12 20:01:33,392 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG: 
/* 
***********************************************************
SHUTDOWN_MSG: Shutting down DataNode at Qunar/127.0.0.1
************************************************************/
2016-06-13 12:56:00,753 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG: 
/************************************************************

從日誌檔案中我們捕捉到Incompatible這個單詞，意思是“不相容的”，所以我們可以看出是datanode的clusterID出錯了，最後導致shutDown。

1.2 解決方案

檢視hadoop路徑下的配置檔案hdfs-site.xml（/opt/hadoop-2.7.2/etc/hadoop/hdfs-site.xml）：

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/home/xiaosi/config/hadoop/tmp/dfs/name</value>
   </property>
   <property>
      <name>dfs.datanode.data.dir</name>
　　　<value>file:/home/xiaosi/config/hadoop/tmp/dfs/data</value>
   </property>
</configuration>

我們可以看到datanode和namenode不再預設路徑，而是自己設定過的路徑。根據設定的路徑，進入datanode的dfs.datanode.data.dir的current目錄，修改其中的VERSION檔案：

#Wed May 25 11:19:08 CST 2016
storageID=DS-92ce5ab0-115f-45ef-b7f1-cf6540cc8bfa
#clusterID=CID-cf2f0387-3b3b-4bd8-8b10-6f5baecccdcf
clusterID=CID-67134f3c-0dcd-4e29-a629-a823d6c04732
cTime=0
datanodeUuid=261d557d-4f5b-4006-9a64-39c544b6b962
storageType=DATA_NODE
layoutVersion=-56

修改clusterID與/opt/hadoop-2.7.2/logs/hadoop-xiaosi-datanode-Qunar.log中namenode的clusterID一致。

最後重新啟動Hadoop：

[email protected]:/opt/hadoop-2.7.2/sbin$ ./start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [localhost]
localhost: namenode running as process 3689. Stop it first.
localhost: starting datanode, logging to /opt/hadoop-2.7.2/logs/hadoop-xiaosi-datanode-Qunar.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: secondarynamenode running as process 4131. Stop it first.
starting yarn daemons
resourcemanager running as process 7192. Stop it first.
localhost: nodemanager running as process 7331. Stop it first.

看最後的執行結果：

[email protected]:/opt/hadoop-2.7.2/sbin$ jps
4131 SecondaryNameNode
7192 ResourceManager
7331 NodeManager
3689 NameNode
9409 Jps
8989 DataNode
7818 RunJar

從上面可以看到我們的dataNode已經跑起來了。

2. NameNode未啟動

2.1 問題原因

2016-12-04 14:50:39,879 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.
org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /home/xiaosi/tmp/hadoop/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible.
	at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverStorageDirs(FSImage.java:327)
	at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:215)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:975)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:681)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:585)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:645)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:812)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:796)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1493)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)

2.2 解決方案

在配置完成後，執行hadoop前，要初始化HDFS系統，在bin/目錄下執行如下命令：

./bin/hdfs namenode -format

3. NodeManager未啟動

3.1 問題原因

檢視Hadoop log日誌：

2017-01-23 14:28:53,279 FATAL org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices: Failed to initialize mapreduce.shuffle
java.lang.IllegalArgumentException: The ServiceName: mapreduce.shuffle set in yarn.nodemanager.aux-services is invalid.The valid service name should only contain a-zA-Z0-9_ and can not start with numbers
        at com.google.common.base.Preconditions.checkArgument(Preconditions.java:88)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices.serviceInit(AuxServices.java:114)
        at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)
        at org.apache.hadoop.service.CompositeService.serviceInit(CompositeService.java:107)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl.serviceInit(ContainerManagerImpl.java:245)
        at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)
        at org.apache.hadoop.service.CompositeService.serviceInit(CompositeService.java:107)
        at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:261)
        at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)
        at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:495)
        at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:543)

從上面異常我們可以知道yarn.nodemanager.aux-services的配置值mapreduce.shuffle有問題。檢視原配置：

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce.shuffle</value>
</property>

3.2 解決方案

修改yarn-site.xml配置檔案，做如下修改：

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

重啟即可

4. Unhealthy Node local-dirs are bad

4.1 問題原因

在執行作業時，作業一直卡在下面語句不能執行：

17/01/23 21:43:21 INFO mapreduce.Job: Running job: job_1485165672363_0004

1/1 local-dirs are bad: /tmp/hadoop-hduser/nm-local-dir; 
1/1 log-dirs are bad: /usr/local/hadoop/logs/userlogs

4.2 解決方案

引起local-dirs are bad的最常見原因是由於節點上的磁碟使用率超出了max-disk-utilization-per-disk-percentage（預設值90.0%）。

清理不健康節點上的磁碟空間或者降低引數設定的閾值：

<property>
        <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
        <value>98.5</value>
</property>

[Hadoop]那些年踩過的Hadoop坑

1. DataNode未啟動1.1 問題原因這個問題一般是由於兩次或兩次以上的格式化NameNode造成的。jps命令發現沒有datanode啟動，所以去Hadoop的日誌檔案下檢視日誌（/opt/hadoop-2.7.2/logs/hadoop-xiaosi-datanod

那些年踩過的坑(持續更新)

app 刪除 lin .... 遇到公網系統重啟天前忽略 rsync使用之批量刪除 ??依稀記得，那個夜晚要升級apache，持續到22:00，而後項目經理要求增加系統備份，好吧，應該的，rsync用的還不熟悉，直接上手就做了，結果，源與目的寫反了，加上-delet

那些年踩過的坑之UINavigationController

一入程式設計深似海，從此踩坑是日常。開發之道，總會遇到形形色色的坑，現在記錄下來，讓以後的自己少踩一些相似的坑。使用UINavigationController踩過的坑：坑一：想要將navigationBar的顏色設定成藍色，想當然的設定navigationBar背景色為

Fragment全解析系列（一）：那些年踩過的坑

本篇主要介紹一些最常見的Fragment的坑以及官方Fragment庫的那些自身的BUG，並給出解決方案；這些BUG在你深度使用時會遇到，比如Fragment巢狀時或者單Activity＋多Fragment架構時遇到的坑。 Fragment是可以讓你的app縱享絲滑的設計，如果你的app想在

[那些年踩過的坑]pdf轉換為圖片的教程(pdf的Base64轉換為圖片的base64和自己不通過第三方來實現pdf轉圖片的Dome)

　　因為工作需要,要把PDF的64字串轉換為圖片的base64儲存到資料庫,但是看了看國內外,一方面是做這個的比較少,還有就是做這個真的很煩. 　　PDF轉圖片呢,大概的實現思路方式一般有兩種,一種就是重繪,類似於畫畫,把看到的畫到新的畫布上;第二種呢,就會識別裡面的內容複製到新的畫布上,我也不知道我比喻準

那些年踩過的坑

前言大早上寫ccf考題呢,睡得香甜的室友蹦蹦跳跳地落下床來."xx,選課沒""欸,要選課嘞,哦豁伺服器炸了". 屁顛屁顛地蹦躂到老區鍛鍊身體(上體育課),伺服器突然暢通無阻,所以人都偷偷拿起手機選課,老師也默許了. 正當我想是選水課(沒用但好過)還是技術課(有點用但很難)時,皮皮蝦

【那些年踩過的坑】win10 + python 3.6 環境下安裝 pytorch/torchvision

我的安裝環境和版本 Windows 10 Python 3.6 Anaconda 3 64-bit Pytorch CPU version torchvision 安裝步驟安裝python3.6/3.5（個人用的是3.6。3.5也可以，但我沒試

js 長整型精度問題-那些年踩過的坑

決定整理一些踩過的坑，就叫那些年踩過的坑吧，今天要說的是最近發生的JS 問題。這是由於一系列修改而引發出來的，先是運營妹子跑過來說客戶購匯訂單支付不成功，果斷檢視日誌，是“ID 重複” 導致入庫失敗，看了下id 生成規則。結果是最後四位導致的，最後四位

安裝Hadoop偽分散式踩過的坑

折騰了好幾天的問題，終於解決了。雖然這次遇到的問題沒在網路上找到答案，不過，解決問題的過程或多或少受到了網上一些答案的啟發。下面我將分享自己遇到的問題，並提供解決方法。（一）、相關資料 http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html　　#官

那些年踩過的CSS坑（永久更新）

1、img 標籤中的alt 與title的區別： alt alt屬性的實質作用是在圖片無法正確顯示時起到文字替代的作用，不過在IE6下還起到了title的作用。 title 滑鼠滑過時顯示的文字提示。對SEO優化的影響：搜尋引擎對圖片理解是通過alt屬性，所以在圖片a

那些年踩過華為手機的坑——相同的程式碼不同的效果

因本人一直用著華為榮耀6手機，所以也就充當了我的測試機,使用中我深深的體會到了華為手機的各種坑爹之處，由於我大腦記憶細胞有限故整理此篇部落格來記錄開發中遇到的適配問題…..遇到了新坑會繼續更新歡迎關注！ 1.HUAWEI Ch2-TL0 啟動apk安裝程式

那些年趟過的坑—log4j和slf4j-api衝突Maven版

slf4j-api-1.6.6.jar slf4j-log4j12-1.7.5.jar slf4j-simple-1.7.7.jar 在使用到log4j和slf4j的同時slf4j-api-1.6.6.jar依賴的兩個jar包也必須同時依賴，故加入以下依賴即可： &l

那些年面過的坑，都在這裡了～

前言　　前段時間面試(包括阿里巴巴的電話面試)，遇到過一些面試題，且面試中出現機率較高的提問/筆試，有些答的不是很好掛掉了，今天終於有時間整理出來分享給大家，希望對大家面試有所幫助，都能輕鬆拿offer。主要分三部分：html、css、js；react/vue等都歸類於js,內容來源於面試過程中遇到的

netty那些bytebuf踩過的坑

程式超過256個位元組以後用抓包工具抓包顯示訊息已經發送給服務端並且服務端也回發了ack表示已經收到了，但是在read方法裡並沒有收到訊息。幾經輾轉發現問題出現在編解碼器上，自己定義的解碼器是這樣的： ByteBuf heapBuffer = ctx.al

“數據治理那點事”系列之一：那些年我們一起踩過的坑

分享加工可視化原則流程自動化影響發揮業務這是一個系列文章，沈澱了我在數據治理領域的一些實踐和思考。共分為5篇： · 數據治理：那些年，我們一起踩過的坑主要講講數據治理工作中常見的一些誤區。 · 要打仗你手裏先得有張地圖：元數據管理這一篇講講元數據的概念

談談那些年微信支付踩過的坑

很早的時候就想寫這篇文章了，作為BAT中的一員，還真不想吐槽它，免得被人身攻擊。有人說，微信支付很簡單嘛，官網有例子，網上也有現成的例子，不過誰用誰知道，本人也是在深入瞭解之後，真心覺得微信支付裡的坑太多，BAT的開發們太敷衍了事，結果給不少的其他開發者帶來諸多麻煩。我在這裡做個稍全一點的介紹，儘

PHP之那些年我們踩過的坑

PHP之那些年我們踩過的坑 1、由於使用單引號，以“ ”為分割符，使用PHP函式explode分割字串，不能正常分割。原因：這個涉及到單引號與雙引號的區別，在單引號中反斜槓不能被解析。因此，使用explode分割時，如果使用單引號，會被當作字串，而不是換行符，所以此時，不能正常分

那些年在某廠踩過的坑

不知道包含遇到積累 shel 經驗 tar.gz 開源態度某廠人多勢眾，自己造輪子，不用開源，於是可苦了外來人，外來所有積累的經驗都沒有用了，同時在這個廠積累的經驗到外面又沒啥用。呵呵自己造的輪子，文檔極少，遇到坑了只能找客服，客服毛個態度，愛管不管，沒法子啊

Hadoop及spark叢集搭建踩過的坑

本叢集總共有三臺主機，一臺master，兩臺slave Hadoop有一個節點無法啟動在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時，執行jps命令，發現master和其中一個slave能正常工作，執行./bin/yarn node -lis

那些年你踩過的坑，都在這裡了～|面試題填坑大全

HTML 1、什麼是盒子模型？有些面試官會問你對盒子模型的理解，在我們平時看到的網頁中，內部的每一個標籤元素它都是有幾個部分構成的：內容(content)、外邊距(margin)、內邊距(padding)、邊框(border)，四個部分組成

[Hadoop]那些年踩過的Hadoop坑

1. DataNode未啟動

1.1 問題原因

1.2 解決方案

2. NameNode未啟動

2.1 問題原因

2.2 解決方案

3. NodeManager未啟動

3.1 問題原因

3.2 解決方案

4. Unhealthy Node local-dirs are bad

4.1 問題原因

4.2 解決方案

相關推薦