1. 程式人生 > >hadoop任務卡死

hadoop任務卡死

hadoop 執行mapreduce的時候會卡死在 mapreduce.Job:Running job: job_1477030467429_0002  位置不動

思路一:分析:mapreduce卡死不動,原可能是  resourcemanager 或者 nodemanager 配置出錯

檢查yarn-site.xml(yarn.resourcemanager.hostname:配置了resourcemanager 的位置) 或者 slaves (配置了nodemanager 位置)配置檔案

可能出現的錯誤:

  yarn.resourcemanager.hostname :配置出錯;

  slaves  沒有加入namenode節點;

  hosts 配置出錯

思路二:執行記憶體不足的問題 :

現象:Memory Total  為 0;

 日誌:

2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir error, used space above threshold of 90.0%, removing from list of valid directories

2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs error, used space above threshold of 90.0%, removing from list of valid directories

2016-10-29 10:28:30,433 INFO org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Disk(s) failed: 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

2016-10-29 10:28:30,435 ERROR org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of the disks failed. 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

2016-10-29 10:28:31,204 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Starting resource-monitoring for container_1477706304072_0002_01_000001

2016-10-29 10:28:31,558 WARN org.apache.hadoop.yarn.util.ProcfsBasedProcessTree: Unexpected: procfs stat file is not in the expected format for process with pid 3202

2016-10-29 10:28:31,581 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Memory usage of ProcessTree 11809 for container-id container_1477706304072_0002_01_000001: 33.0 MB of 2 GB physical memory used; 1.6 GB of 4.2 GB virtual memory used

2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from RUNNING to KILLING

2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Cleaning up container container_1477706304072_0002_01_000001

2016-10-29 10:28:31,954 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exit code from container container_1477706304072_0002_01_000001 is : 143

2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from KILLING to CONTAINER_CLEANEDUP_AFTER_KILL

2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Deleting absolute path : /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir/usercache/kequan/appcache/application_1477706304072_0002/container_1477706304072_0002_01_000001

2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.NMAuditLogger: USER=kequan       OPERATION=Container Finished - Killed   TARGET=ContainerImpl    RESULT=SUCCESS      APPID=application_1477706304072_0002    CONTAINERID=container_1477706304072_0002_01_000001

2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from CONTAINER_CLEANEDUP_AFTER_KILL to DONE

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.application.Application: Removing container_1477706304072_0002_01_000001 from application application_1477706304072_0002

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Considering container container_1477706304072_0002_01_000001 for log-aggregation

2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices: Got event CONTAINER_STOP for appId application_1477706304072_0002

2016-10-29 10:28:32,915 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Removed completed containers from NM context: [container_1477706304072_0002_01_000001]

2016-10-29 10:28:34,582 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Stopping resource-monitoring for container_1477706304072_0002_01_000001

分析: used space above thresholdof 90.0%  磁碟空間超過90% ,MR執行很佔用磁碟空間,磁碟空間不夠用的時候,nodemanager被強行殺死;

  方法一:設定磁碟最高利用率為 95 ;在yarn-site.xml目錄里加入下面的配置(治標不治本,MR執行時候,磁碟使用空間還有可能超過 95%

<property>

       <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>

        <value>95.0</value>

    </property>

方法二: 刪除磁盤裡面不用的空間

                在命令列執行  df -h 檢視磁碟用了多少空間

[[email protected] modules]# df -h

Filesystem            Size  Used Avail Use% Mounted on

/dev/sda2              18G   14G  3.4G  80% /

tmpfs                 1.9G  372K  1.9G   1% /dev/shm

/dev/sda1             291M   37M  240M  14% /boot

     /dev/sda2   磁碟 就是指 系統所有記憶體;刪除系統裡面不用的檔案或者軟體即可

 ERRORorg.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of thedisks failed. 1/1 local-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs

方法三: 如果是虛擬機器那麼久擴容;真機加磁碟

相關推薦

hadoop任務

hadoop 執行mapreduce的時候會卡死在 mapreduce.Job:Running job: job_1477030467429_0002  位置不動 思路一:分析:mapreduce卡死不動,原可能是  resourcemanager 或者 nodemanager 配置出錯 檢查yarn-si

關於UCOS任務的原因分析

現象:函式function1()執行到“USART2SendData("\r\n",2)”時,UCOS任務卡死,最高優先順序任務也不能執行。 分析:執行到USART2SendData("\r\n",2),因為UART2_SendEnable=0導致關掉中斷後沒有恢復現場(開中),任務不能切換,於是

使用async await完成: 等到task線程內任務結束 交給主線程處理事情 task線程內不會出現現象

syn log ini 正常 註意 style 結束 void oid private async void DoSomething() { await Task.Run(() => { Thread.Sleep(5000);

如何停止Netapp捲上的重刪任務

Netapp的重刪(de-duplication)功能可以為儲存節省大量的空間。但是有極少數情況下,針對某個卷啟動重刪(de-duplication)的任務後,該任務可能會卡死在某一個進度百分比。雖然不影響卷的使用,但是改卷的重刪功能相當於失效,需要手動干預。手動停止該任務後,下次開始,重刪任務還是停滯在上次

如何停止Netapp卷上的重刪任務

失效 tap def code 存儲 特權 off 大量 dup Netapp的重刪(de-duplication)功能可以為存儲節省大量的空間。但是有極少數情況下,針對某個卷啟動重刪(de-duplication)的任務後,該任務可能會卡死在某一個進度百分比。雖然不影響卷

Hadoop pi例項 啟動不成功

Hadoop pi例項啟動不成功 1 DataNode沒有成功啟動 在Hadoop的sbin目錄下執行命令: ./hadoop-daemon.sh start datanode 來啟動datanode Hadoop pi例項執行卡死:不進入mapreduce

xcode問題,無論打開什麽程序xcode總是在轉菊花,顯示應用程序無響應

是不是 library 響應 分享 技術 lib 問題 clas 使用 很可能是因為我們上次沒有正常關閉Xcode,而Xcode保留了上次錯誤的一些記錄,而這次打開Xcode依然去加載錯誤的記錄,所以必須完全刪除這些記錄Xcode才能加載正常的項目。那麽也就是說,我們是不是

Thread.Sleep()導致界面問題

color cati sleep blog col logs 資料 開發 關閉 最近開發一個界面,為了實現界面延時自動關閉,加了一句代碼Thread.Sleep(2000)。開發過程中未發現問題。後來測試發現,如果這個時候點擊界面,會導致系統崩潰。 於是找了一些資料,得到如

Centos在開機畫面

centos無法開機使用esc查看具體錯誤信息經過查詢原因是/etc/rc.local裏面加的一段執行命令的問題本文出自 “小V運維之路” 博客,請務必保留此出處http://victor2016.blog.51cto.com/6768693/1946547Centos在開機畫面卡死

【轉載】Remote System Explorer Operation總是運行後臺服務,eclipse解決辦法

free ons down 地址 log system ack star rdquo 原來是eclipse後臺進程在遠程操作,就是右下角顯示的“Remote System Explorer Operation”。折騰了半天,在Stack Overfl

eclipse中的項目鼠標右鍵

size microsoft csdn sso blog article fonts data ng- 1、錯誤描寫敘述 在eclipse中部署了Java Web項目,想在WebContent目錄下新建一個目錄,鼠標右鍵時出現eclipse卡死的想象2、錯誤原因

【C#】多線程解決UI界面的問題

archive 界面 小結 com 同步 logs 解決辦法 相對 invoke 一個經典的例子: http://www.cnblogs.com/wangchuang/p/4485797.html 問題: 都說Invoke是同步的,BeginInvoke是異步的,但為

VC中間件數據庫連接正常,啟動服務時

金笛短信常見問題及解決辦法金笛VC中間件測試數據庫連接都正常,但是啟動服務卡死,無法完成短信發送,參考以下解決辦法:1、打開C盤根目錄刪除三個日誌表2、關閉VC中間件服務並重啟第一步:打開Windows任務管理器,關掉VC中間件主程序XTTSmsService.exe *32,如圖:第二步:打開“開始”——“

c#界面處理方法

logs def 屬性 earch etl mar 處理 bsp round 方法一: 設置屬性: Control.CheckForIllegalCrossThreadCalls = false; 開啟一個新線程 Thread th = new Thre

解決eclipse復制粘貼js代碼的問題

dsp 目的 ida 包括 方法 tro javascrip strong snat 在項目的根目錄找到.project文件,如下圖: 打開刪除其中的一行: <nature>org.eclipse.wst.jsdt.core.jsNature</n

MyEclipse 打開到一半時的解決方法

技術 便是 一半 myeclipse 工作空間 plugins ins 重新 列表 如圖: 一直卡在這個地方動不了。 解決方法便是找到myeclipse的工作空間目錄下\.metadata\.plugins 找到列表下帶workbench的文件夾,並刪除。然後重新啟動My

mysql數據庫表解決方法

nbsp mysql數據庫 所有 mysq 大量 http 打開 -- 技術分享 ---恢復內容開始--- 問題引起原因: 由於在執行大量插入操作的時候意外終止程序之後, MySQl的線程並沒有被終止,導致表不能打開和操作 - 解決思路就是找到等待的線程並kill --

mysql中alter語句的一個解決方法

mysql alter 卡死我要在線上數據庫的一個表增加個字段,這個表非常小,就幾K,但執行不了,一執行就卡死,鎖掉。alter table tiv_product_detail_copy add activity_type varchar(40) NOT NULL COMMENT '活動類型 lbj

通過圖像識別監控屏幕畫面問題

odi license Coding 0.12 一個人 png rate 圖像 ctu 一、背景需求 公司視頻組最近在錄制某款遊戲的PVP視頻,視頻錄制好以後再上傳到後端存儲。但是在錄制的過程中,有可能錄制視頻程序會有視頻卡死不動的情況,即:錄制程序在運行,但是後臺渲染

ubuntu Debian deepin 顯安裝和黑屏 解決辦法

linu 分鐘 選擇 nvi grep upd 再看 ora 提升性能 硬件型號 命令查詢,終端執行: lspci |grep -i ‘VGA‘ #查看默認集成顯卡型號 lspci |grep -i nvidia #查看NVIDIA類型的顯卡型號 sudo dme