hadoop任務卡死
hadoop 執行mapreduce的時候會卡死在 mapreduce.Job:Running job: job_1477030467429_0002 位置不動
思路一:分析:mapreduce卡死不動,原可能是 resourcemanager 或者 nodemanager 配置出錯
檢查yarn-site.xml(yarn.resourcemanager.hostname:配置了resourcemanager 的位置) 或者 slaves (配置了nodemanager 位置)配置檔案
可能出現的錯誤:
yarn.resourcemanager.hostname :配置出錯;
slaves 沒有加入namenode節點;
hosts 配置出錯
思路二:執行記憶體不足的問題 :
現象:Memory Total 為 0;
日誌:
2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir error, used space above threshold of 90.0%, removing from list of valid directories 2016-10-29 10:28:30,433 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs error, used space above threshold of 90.0%, removing from list of valid directories 2016-10-29 10:28:30,433 INFO org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Disk(s) failed: 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs 2016-10-29 10:28:30,435 ERROR org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of the disks failed. 1/1 local-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad: /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs 2016-10-29 10:28:31,204 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Starting resource-monitoring for container_1477706304072_0002_01_000001 2016-10-29 10:28:31,558 WARN org.apache.hadoop.yarn.util.ProcfsBasedProcessTree: Unexpected: procfs stat file is not in the expected format for process with pid 3202 2016-10-29 10:28:31,581 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Memory usage of ProcessTree 11809 for container-id container_1477706304072_0002_01_000001: 33.0 MB of 2 GB physical memory used; 1.6 GB of 4.2 GB virtual memory used 2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from RUNNING to KILLING 2016-10-29 10:28:31,910 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Cleaning up container container_1477706304072_0002_01_000001 2016-10-29 10:28:31,954 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exit code from container container_1477706304072_0002_01_000001 is : 143 2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from KILLING to CONTAINER_CLEANEDUP_AFTER_KILL 2016-10-29 10:28:31,989 INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Deleting absolute path : /opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir/usercache/kequan/appcache/application_1477706304072_0002/container_1477706304072_0002_01_000001 2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.NMAuditLogger: USER=kequan OPERATION=Container Finished - Killed TARGET=ContainerImpl RESULT=SUCCESS APPID=application_1477706304072_0002 CONTAINERID=container_1477706304072_0002_01_000001 2016-10-29 10:28:31,991 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.container.Container: Container container_1477706304072_0002_01_000001 transitioned from CONTAINER_CLEANEDUP_AFTER_KILL to DONE 2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.application.Application: Removing container_1477706304072_0002_01_000001 from application application_1477706304072_0002 2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Considering container container_1477706304072_0002_01_000001 for log-aggregation 2016-10-29 10:28:31,992 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices: Got event CONTAINER_STOP for appId application_1477706304072_0002 2016-10-29 10:28:32,915 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Removed completed containers from NM context: [container_1477706304072_0002_01_000001] 2016-10-29 10:28:34,582 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Stopping resource-monitoring for container_1477706304072_0002_01_000001 |
分析: used space above thresholdof 90.0% 磁碟空間超過90% ,MR執行很佔用磁碟空間,磁碟空間不夠用的時候,nodemanager被強行殺死;
方法一:設定磁碟最高利用率為 95 ;在yarn-site.xml目錄里加入下面的配置(治標不治本,MR執行時候,磁碟使用空間還有可能超過 95%)
<property>
<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
<value>95.0</value>
</property>
方法二: 刪除磁盤裡面不用的空間
在命令列執行 df -h 檢視磁碟用了多少空間
[[email protected] modules]# df -h Filesystem Size Used Avail Use% Mounted on /dev/sda2 18G 14G 3.4G 80% / tmpfs 1.9G 372K 1.9G 1% /dev/shm /dev/sda1 291M 37M 240M 14% /boot |
/dev/sda2 磁碟 就是指 系統所有記憶體;刪除系統裡面不用的檔案或者軟體即可
ERRORorg.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of thedisks failed. 1/1 local-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/nm-local-dir; 1/1 log-dirs are bad:/opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/userlogs
方法三: 如果是虛擬機器那麼久擴容;真機加磁碟
相關推薦
hadoop任務卡死
hadoop 執行mapreduce的時候會卡死在 mapreduce.Job:Running job: job_1477030467429_0002 位置不動 思路一:分析:mapreduce卡死不動,原可能是 resourcemanager 或者 nodemanager 配置出錯 檢查yarn-si
關於UCOS任務卡死的原因分析
現象:函式function1()執行到“USART2SendData("\r\n",2)”時,UCOS任務卡死,最高優先順序任務也不能執行。 分析:執行到USART2SendData("\r\n",2),因為UART2_SendEnable=0導致關掉中斷後沒有恢復現場(開中),任務不能切換,於是
使用async await完成: 等到task線程內任務結束 交給主線程處理事情 task線程內不會出現卡死現象
syn log ini 正常 註意 style 結束 void oid private async void DoSomething() { await Task.Run(() => { Thread.Sleep(5000);
如何停止Netapp捲上卡死的重刪任務
Netapp的重刪(de-duplication)功能可以為儲存節省大量的空間。但是有極少數情況下,針對某個卷啟動重刪(de-duplication)的任務後,該任務可能會卡死在某一個進度百分比。雖然不影響卷的使用,但是改卷的重刪功能相當於失效,需要手動干預。手動停止該任務後,下次開始,重刪任務還是停滯在上次
如何停止Netapp卷上卡死的重刪任務
失效 tap def code 存儲 特權 off 大量 dup Netapp的重刪(de-duplication)功能可以為存儲節省大量的空間。但是有極少數情況下,針對某個卷啟動重刪(de-duplication)的任務後,該任務可能會卡死在某一個進度百分比。雖然不影響卷
Hadoop pi例項 啟動不成功 卡死
Hadoop pi例項啟動不成功 1 DataNode沒有成功啟動 在Hadoop的sbin目錄下執行命令: ./hadoop-daemon.sh start datanode 來啟動datanode Hadoop pi例項執行卡死:不進入mapreduce
xcode卡死問題,無論打開什麽程序xcode總是在轉菊花,顯示應用程序無響應
是不是 library 響應 分享 技術 lib 問題 clas 使用 很可能是因為我們上次沒有正常關閉Xcode,而Xcode保留了上次錯誤的一些記錄,而這次打開Xcode依然去加載錯誤的記錄,所以必須完全刪除這些記錄Xcode才能加載正常的項目。那麽也就是說,我們是不是
Thread.Sleep()導致界面卡死問題
color cati sleep blog col logs 資料 開發 關閉 最近開發一個界面,為了實現界面延時自動關閉,加了一句代碼Thread.Sleep(2000)。開發過程中未發現問題。後來測試發現,如果這個時候點擊界面,會導致系統崩潰。 於是找了一些資料,得到如
Centos在開機畫面卡死
centos無法開機使用esc查看具體錯誤信息經過查詢原因是/etc/rc.local裏面加的一段執行命令的問題本文出自 “小V運維之路” 博客,請務必保留此出處http://victor2016.blog.51cto.com/6768693/1946547Centos在開機畫面卡死
【轉載】Remote System Explorer Operation總是運行後臺服務,卡死eclipse解決辦法
free ons down 地址 log system ack star rdquo 原來是eclipse後臺進程在遠程操作,就是右下角顯示的“Remote System Explorer Operation”。折騰了半天,在Stack Overfl
eclipse中的項目鼠標右鍵卡死
size microsoft csdn sso blog article fonts data ng- 1、錯誤描寫敘述 在eclipse中部署了Java Web項目,想在WebContent目錄下新建一個目錄,鼠標右鍵時出現eclipse卡死的想象2、錯誤原因
【C#】多線程解決UI界面卡死的問題
archive 界面 小結 com 同步 logs 解決辦法 相對 invoke 一個經典的例子: http://www.cnblogs.com/wangchuang/p/4485797.html 問題: 都說Invoke是同步的,BeginInvoke是異步的,但為
VC中間件數據庫連接正常,啟動服務時卡死
金笛短信常見問題及解決辦法金笛VC中間件測試數據庫連接都正常,但是啟動服務卡死,無法完成短信發送,參考以下解決辦法:1、打開C盤根目錄刪除三個日誌表2、關閉VC中間件服務並重啟第一步:打開Windows任務管理器,關掉VC中間件主程序XTTSmsService.exe *32,如圖:第二步:打開“開始”——“
c#界面卡死處理方法
logs def 屬性 earch etl mar 處理 bsp round 方法一: 設置屬性: Control.CheckForIllegalCrossThreadCalls = false; 開啟一個新線程 Thread th = new Thre
解決eclipse復制粘貼js代碼卡死的問題
dsp 目的 ida 包括 方法 tro javascrip strong snat 在項目的根目錄找到.project文件,如下圖: 打開刪除其中的一行: <nature>org.eclipse.wst.jsdt.core.jsNature</n
MyEclipse 打開到一半時卡死的解決方法
技術 便是 一半 myeclipse 工作空間 plugins ins 重新 列表 如圖: 一直卡在這個地方動不了。 解決方法便是找到myeclipse的工作空間目錄下\.metadata\.plugins 找到列表下帶workbench的文件夾,並刪除。然後重新啟動My
mysql數據庫表卡死解決方法
nbsp mysql數據庫 所有 mysq 大量 http 打開 -- 技術分享 ---恢復內容開始--- 問題引起原因: 由於在執行大量插入操作的時候意外終止程序之後, MySQl的線程並沒有被終止,導致表不能打開和操作 - 解決思路就是找到等待的線程並kill --
mysql中alter語句卡死的一個解決方法
mysql alter 卡死我要在線上數據庫的一個表增加個字段,這個表非常小,就幾K,但執行不了,一執行就卡死,鎖掉。alter table tiv_product_detail_copy add activity_type varchar(40) NOT NULL COMMENT '活動類型 lbj
通過圖像識別監控屏幕畫面卡死問題
odi license Coding 0.12 一個人 png rate 圖像 ctu 一、背景需求 公司視頻組最近在錄制某款遊戲的PVP視頻,視頻錄制好以後再上傳到後端存儲。但是在錄制的過程中,有可能錄制視頻程序會有視頻卡死不動的情況,即:錄制程序在運行,但是後臺渲染
ubuntu Debian deepin 顯卡安裝和黑屏 卡死解決辦法
linu 分鐘 選擇 nvi grep upd 再看 ora 提升性能 硬件型號 命令查詢,終端執行: lspci |grep -i ‘VGA‘ #查看默認集成顯卡型號 lspci |grep -i nvidia #查看NVIDIA類型的顯卡型號 sudo dme