粵飛的hadoop常見錯誤

阿新 • • 發佈：2020-10-09

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

Answer：

程式裡面需要開啟多個檔案，進行分析，系統一般預設數量是1024，（用ulimit -a可以看到）對於正常使用是夠了，但是對於程式來講，就太少了。

修改辦法：

修改2個檔案。

/etc/security/limits.conf

vi /etc/security/limits.conf

加上：

*soft nofile 102400

*hard nofile 409600

$cd /etc/pam.d/

$sudo vi login

新增 session required /lib/security/pam_limits.so

2：Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查、/etc/hosts

要求本機ip 對應伺服器名

要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

要求包含所有伺服器（包括其自身）的public key

3：處理速度特別的慢出現map很快但是reduce很慢而且反覆出現 reduce=0%

Answer:

結合第二點，然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000

4：能夠啟動datanode，但無法訪問，也無法結束的錯誤

在重新格式化一個新的分散式檔案時，需要將你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久儲存名字空間及事務日誌的本地檔案系統路徑刪除，同時將各DataNode上的dfs.data.dir的路徑 DataNode 存放塊資料的本地檔案系統路徑的目錄也刪除。如本此配置就是在NameNode上刪除/home/hadoop/NameData，在DataNode上刪除/home/hadoop/DataNode1和/home/hadoop/DataNode2。這是因為Hadoop在格式化一個新的分散式檔案系統時，每個儲存的名字空間都對應了建立時間的那個版本（可以檢視/home/hadoop /NameData/current目錄下的VERSION檔案，上面記錄了版本資訊），在重新格式化新的分散式系統檔案時，最好先刪除NameData 目錄。必須刪除各DataNode的dfs.data.dir。這樣才可以使namedode和datanode記錄的資訊版本對應。

注意：刪除是個很危險的動作，不能確認的情況下不能刪除！！做好刪除的檔案等通通備份！！

5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了，沒有連線上。

6：java.lang.OutOfMemoryError: Java heap space

出現這種異常，明顯是jvm記憶體不夠得原因，要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

一般jvm的最大記憶體使用應該為總記憶體大小的一半，我們使用的8G記憶體，所以設定為4096m，這一值可能依舊不是最優的值。（其實對於最好設定為真實實體記憶體大小的0.8）

7：出現map%,但是呢reduce到98%左右的時候呢，就直接進failedjobs了

解決辦法：

檢查mapred.map.tasks是不是設定的太多了，設定太多的話會導致處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合適。

系統根目錄下的/tmp資料夾是不可以刪除的

否則bin/hadoop jps

會出現異常：

Exception in thread "main" java.lang.NullPointerExceptionat sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127) at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133) at sun.tools.jps.Jps.main(Jps.java:45)

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

2：Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查、/etc/hosts

要求本機ip 對應伺服器名

要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

要求包含所有伺服器（包括其自身）的public key

3：處理速度特別的慢出現map很快但是reduce很慢而且反覆出現 reduce=0%

Answer:

結合第二點，然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000

4：能夠啟動datanode，但無法訪問，也無法結束的錯誤

注意：刪除是個很危險的動作，不能確認的情況下不能刪除！！做好刪除的檔案等通通備份！！

5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了，沒有連線上。

6：java.lang.OutOfMemoryError: Java heap space

出現這種異常，明顯是jvm記憶體不夠得原因，要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

7：出現map%,但是呢reduce到98%左右的時候呢，就直接進failedjobs了

解決辦法：

檢查mapred.map.tasks是不是設定的太多了，設定太多的話會導致處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合適。

系統根目錄下的/tmp資料夾是不可以刪除的

否則bin/hadoop jps

會出現異常：

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

2：Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查、/etc/hosts

要求本機ip 對應伺服器名

要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

要求包含所有伺服器（包括其自身）的public key

3：處理速度特別的慢出現map很快但是reduce很慢而且反覆出現 reduce=0%

Answer:

結合第二點，然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000

4：能夠啟動datanode，但無法訪問，也無法結束的錯誤

注意：刪除是個很危險的動作，不能確認的情況下不能刪除！！做好刪除的檔案等通通備份！！

5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了，沒有連線上。

6：java.lang.OutOfMemoryError: Java heap space

出現這種異常，明顯是jvm記憶體不夠得原因，要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

7：出現map%,但是呢reduce到98%左右的時候呢，就直接進failedjobs了

解決辦法：

檢查mapred.map.tasks是不是設定的太多了，設定太多的話會導致處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合適。

系統根目錄下的/tmp資料夾是不可以刪除的

（jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system.

）

否則bin/hadoop jps

會出現異常：

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

calorie520 寫道

參考你的方法一，還是報一下錯誤：[email protected] hadoop-0.20.2$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output10/08/20 17:28:42 INFO input.FileInputFormat: Total input paths to process : 210/08/20 17:28:42 INFO mapred.JobClient: Running job: job_201008111433_000410/08/20 17:28:43 INFO mapred.JobClient: map 0% reduce 0%10/08/20 17:28:52 INFO mapred.JobClient: map 100% reduce 0%10/08/20 17:29:01 INFO mapred.JobClient: map 100% reduce 16%10/08/20 17:29:04 INFO mapred.JobClient: map 100% reduce 0%10/08/20 17:29:06 INFO mapred.JobClient: Task Id : attempt_201008111433_0004_r_000000_0, Status : FAILEDShuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused10/08/20 17:29:06 WARN mapred.JobClient: Error reading task outputConnection refused

請檢視下你的機器是32位的還是64位的?如果是64位的話需要做如下更改:"新增 session required / lib64/security/pam_limits.so "

粵飛的hadoop常見錯誤

粵飛的hadoop常見錯誤

第八章 Hadoop常見錯誤及解決方案

Hadoop常見錯誤及解決方案

Hadoop入門常見錯誤及解決方案

HADOOP入門（6）：使用（5）安裝（5）常見錯誤及解決方案

Mysql主從資料庫(Master/Slave)同步配置與常見錯誤

微信公眾號中的JSSDK接入及invalid signature等常見錯誤問題分析(全面解析)

python中常見錯誤及解決方法

JS常見錯誤(Error)及處理方案詳解

Flink on yarn 常見錯誤

詳解IDEA 中使用Maven建立專案常見錯誤和使用技巧(推薦)

SQLite資料庫多平臺應用及常見錯誤分析

利用python-opencv生成視訊幀數控制，和常見錯誤總結

MySQL 主從複製常見錯誤答疑

Spring Security 常見錯誤

rsync 資料備份常見錯誤

spark常見錯誤彙總

Nginx常見錯誤及處理方法

Jmeter工作原理及常見錯誤解析

jmeter常見錯誤(持續更新)

粵飛的hadoop常見錯誤

相關推薦