hadoop任務卡死

阿新 • • 發佈：2019-01-24

hadoop 執行mapreduce的時候會卡死在 mapreduce.Job:Running job: job_1477030467429_0002 位置不動

思路一：分析：mapreduce卡死不動，原可能是 resourcemanager 或者 nodemanager 配置出錯

檢查yarn-site.xml（yarn.resourcemanager.hostname：配置了resourcemanager 的位置）或者 slaves （配置了nodemanager 位置）配置檔案

可能出現的錯誤：

yarn.resourcemanager.hostname ：配置出錯；

slaves 沒有加入namenode節點；

hosts 配置出錯

思路二：執行記憶體不足的問題：

現象：Memory Total 為 0；

日誌：

2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir error, used space above threshold of 90.0%, removing from list of valid directories

2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs error, used space above threshold of 90.0%, removing from list of valid directories

2016-10-29 10:28:30,433 INFO org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Disk(s) failed: 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

2016-10-29 10:28:30,435 ERROR org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of the disks failed. 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

2016-10-29 10:28:31,204 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Starting resource-monitoring for container_1477706304072_0002_01_000001

2016-10-29 10:28:31,558 WARN org.apache.hadoop.yarn.util.ProcfsBasedProcessTree: Unexpected: procfs stat file is not in the expected format for process with pid 3202

2016-10-29 10:28:31,581 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Memory usage of ProcessTree 11809 for container-id container_1477706304072_0002_01_000001: 33.0 MB of 2 GB physical memory used; 1.6 GB of 4.2 GB virtual memory used

2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from RUNNING to KILLING

2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Cleaning up container container_1477706304072_0002_01_000001

2016-10-29 10:28:31,954 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exit code from container container_1477706304072_0002_01_000001 is : 143

2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from KILLING to CONTAINER_CLEANEDUP_AFTER_KILL

2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Deleting absolute path : /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir/usercache/kequan/appcache/application_1477706304072_0002/container_1477706304072_0002_01_000001

2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.NMAuditLogger: USER=kequan OPERATION=Container Finished - Killed TARGET=ContainerImpl RESULT=SUCCESS APPID=application_1477706304072_0002 CONTAINERID=container_1477706304072_0002_01_000001

2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from CONTAINER_CLEANEDUP_AFTER_KILL to DONE

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.application.Application: Removing container_1477706304072_0002_01_000001 from application application_1477706304072_0002

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Considering container container_1477706304072_0002_01_000001 for log-aggregation

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices: Got event CONTAINER_STOP for appId application_1477706304072_0002

2016-10-29 10:28:32,915 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Removed completed containers from NM context: [container_1477706304072_0002_01_000001]

2016-10-29 10:28:34,582 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Stopping resource-monitoring for container_1477706304072_0002_01_000001

分析： used space above thresholdof 90.0% 磁碟空間超過90% ，MR執行很佔用磁碟空間，磁碟空間不夠用的時候，nodemanager被強行殺死；

方法一：設定磁碟最高利用率為 95 ；在yarn-site.xml目錄里加入下面的配置（治標不治本，MR執行時候，磁碟使用空間還有可能超過 95%）

<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>

</property>

方法二：刪除磁盤裡面不用的空間

在命令列執行 df -h 檢視磁碟用了多少空間

[[email protected] modules]# df -h

Filesystem Size Used Avail Use% Mounted on

/dev/sda2 18G 14G 3.4G 80% /

tmpfs 1.9G 372K 1.9G 1% /dev/shm

/dev/sda1 291M 37M 240M 14% /boot

/dev/sda2 磁碟就是指系統所有記憶體；刪除系統裡面不用的檔案或者軟體即可

ERRORorg.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of thedisks failed. 1/1 local-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

方法三：如果是虛擬機器那麼久擴容；真機加磁碟

hadoop任務卡死

hadoop任務卡死

關於UCOS任務卡死的原因分析

使用async await完成：等到task線程內任務結束交給主線程處理事情 task線程內不會出現卡死現象

如何停止Netapp捲上卡死的重刪任務

如何停止Netapp卷上卡死的重刪任務

Hadoop pi例項啟動不成功卡死

xcode卡死問題，無論打開什麽程序xcode總是在轉菊花，顯示應用程序無響應

Thread.Sleep()導致界面卡死問題

Centos在開機畫面卡死

【轉載】Remote System Explorer Operation總是運行後臺服務，卡死eclipse解決辦法

eclipse中的項目鼠標右鍵卡死

【C#】多線程解決UI界面卡死的問題

VC中間件數據庫連接正常，啟動服務時卡死

c#界面卡死處理方法

解決eclipse復制粘貼js代碼卡死的問題

MyEclipse 打開到一半時卡死的解決方法

mysql數據庫表卡死解決方法

mysql中alter語句卡死的一個解決方法

通過圖像識別監控屏幕畫面卡死問題

ubuntu Debian deepin 顯卡安裝和黑屏卡死解決辦法

hadoop任務卡死

相關推薦