Map/Reduce的記憶體使用設定

阿新 • • 發佈：2019-01-08

一、背景

今天採用10臺異構的機器做測試，對500G的資料進行運算分析，業務比較簡單，叢集機器的結構如下：

A：雙核CPU×1、500G硬碟×1，記憶體2G×1（Slaver），5臺

B：四核CPU×2、500G硬碟×2，記憶體4G×2（Slaver），4臺

C：四核CPU×2、500G硬碟×2，記憶體4G×8（Master），1臺

軟體採用Hadoop 0.20.2，Linux作業系統。

二、過程

1、製造了500G的資料存放到叢集中。

2、修改配置，主要是併發的Map和Reduce數量。修改如下圖：

3、修改mapred-site.xml配置檔案中的mapred.child.java.opts引數為-Xmx2046m

4、啟動Job，半路出現了Cannot allocate memory錯誤，明顯是記憶體分配不夠。細看報錯的機器，是A類機器報此錯誤。

5、修改A類機器的mapred-site.xml配置檔案，將mapred.child.java.opts修改為-Xmx1024m，執行Job，錯誤消失。

三、分析總結

1、第一次採用這麼少的機器處理500G的資料，確實在配置優化上需要做對應的調整。

2、Map的數量和CPU的核數也有直接關係。一般來說最好不要高於CPU的核數。（CPU是4核，併發數最好設定為4）.

3、通過調整得出一個簡單的公式：Map的併發數量(需要不大於CPU核數)×mapred.child.java.opts < 該節點機器的總記憶體。

4、當然併發數大於記憶體或CPU核數也可以，但是有些風險，Task執行錯誤的風險。

5、計算的能力還是和硬體效能有關係，硬體越好，計算的效率還是很高的。當然差的機器也能使用，添磚加瓦一起幹總是好的。

6、如果叢集是異構的機器，那麼還是建議每臺機器做不同的配置引數。統一化的配置還是比較適合同構叢集。

7、一些統一的引數也可以通過MR的程式碼用conf.set(key,value);的方式來設定。

8、有些時候沒寫東西了，最近事情比較多。如果有疑問還是很歡迎大家發郵件討論：[email protected]

Hadoop Map/Reduce記憶體限制

如何設定hadoop Map/Reduce任務的記憶體限制？ Parameter Type Meaning mapred.cluster.map.memory.mb set by admin, cluster-wide Cluster definitio

hive map reduce 引數設定

現象：1.目前每日load出來的問題sql，最終的結果檔案裡面很多都只有一條資料。2.資源影響巨大，對照指令碼統計出來的sql執行時間，手動執行sql的時間是其十分之一到三分之一。3.不少sql執行時的map數量能達到1000-3000，但是reduce數量在1左右。由於每天

Map Reduce 數量設定

JobConf.setNumMapTasks(n)是有意義的，結合block size會具體影響到map任務的個數，詳見FileInputFormat.getSplits原始碼。假設沒有設定mapred.min.split.size，預設為1的情況下，針對每個檔案會按照mi

Map/Reduce的記憶體使用設定

一、背景今天採用10臺異構的機器做測試，對500G的資料進行運算分析，業務比較簡單，叢集機器的結構如下： A：雙核CPU×1、500G硬碟×1，記憶體2G×1（Slaver），5臺 B：四核CPU×2、500G硬碟×2，記憶體4G×2（Slaver），4臺 C：四核CPU

Map和Reduce個數設定問題

看了Hadoop的API和官方文件，加上自己原創，大致分析如下： map和reduce是hadoop的核心功能，hadoop正是通過多個map和reduce的並行執行來實現任務的分散式平行計算，從這個觀點來看，如果將map和reduce的數量設定為1，那麼使用者的任務就

Hadoop Map&Reduce個數優化設定以及JVM重用

來源：http://irwenqiang.iteye.com/blog/1448164 Hadoop與JVM重用對應的引數是mapred.job.reuse.jvm.num.tasks，預設是1，表示一個JVM上最多可以順序執行的task數目（屬於同一個J

spark效能調優（三）shuffle的map端記憶體緩衝reduce端記憶體佔比

效能優化 shuffle spark.shuffle.file.buffer，預設32k spark.shuffle.memoryFraction，0.2 map端記憶體緩衝，reduce端記憶體佔比；很多資料、網上視訊，都會說，這兩個引數，是調節shuff

Spark---Shuffle調優之調節map端記憶體緩衝與reduce端記憶體佔比

1、map端記憶體緩衝，reduce端記憶體佔比概述 map端記憶體緩衝，reduce端記憶體佔比；很多資料、網上視訊，都會說，這兩個引數，是調節shuffle效能的不二選擇，很有效果的樣子，實際上，

MapReduce Map數 reduce數設定

python 之 map/reduce

keyword 運算論文說明 htm 實現而且下一個 html Python內建了map()和reduce()函數。如果你讀過Google的那篇大名鼎鼎的論文“MapReduce: Simplified Data Processing on Large Clust

python基礎之map/reduce/filter/sorted

排序。 strong func iterable 例子決定 tools sort .com ---map(fun,iterable) 　　首先來看一看map()函數，map函數接受兩個參數，第一個參數是函數的名稱，第二個參數一個可叠代對象。即map(fun,iterabl

python之lambda,filter,map,reduce函數

lis print 接受 pen 包含字符文字錯誤 copy g = lambda x:x+1 　　看一下執行的結果：　　　g(1) 　　>>>2 　　g(2) 　　>>>3 　　當然，你也可以這樣使用：　　lambda x

一步一步跟我學習hadoop(5)----hadoop Map/Reduce教程（2）

submit calc run submitjob des conf sam ner 打開 Map/Reduce用戶界面本節為用戶採用框架要面對的各個環節提供了具體的描寫敘述，旨在與幫助用戶對實現、配置和調優進行具體的設置。然而，開發時候還是要相應著API進行

Hadoop學習：Map/Reduce初探與小Demo實現

pre 排序。解決想法文本文 direction run page lang 一、概念知識介紹 Hadoop MapReduce是一個用於處理海量數據的分布式計算框架。這個框架攻克了諸如數據分布式存儲、作業調度、容錯、機器間通信等復雜

Python學習筆記（六）map/reduce

code image 但是 oat tools col .com 參數 map() 摘抄：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143178

c# 中的 map-reduce-filter

res code yield tin lte 們的 static 我們 return js中的es6 中提出 map reduce filter 等方法；那麽我們在c#中似乎沒看到呢，真的嗎？ are you kiding me? 先看map stati

hive的mr和map-reduce基本設計模式

key format values 模式 none columns lan pac ... （原創文章，謝絕轉載~） hive可以使用 explain 或 explain extended (select query) 來看mapreduce執行的簡要過程描述。expla

python內置函數filter(),map(),reduce()筆記

叠代筆記 function 運算 import 返回值每次條件 ini ‘‘‘python reduce()函數：reduce()函數會對參數序列中元素進行積累。函數將一個數據集合（鏈表，元組等）中的所有數據進行下列操作：用傳給reduce中的函數 function（

map reduce 用法 str處理lower() capitalize()

rod str -s tip col key mps capital 元素 -- 1 s=‘123456‘ 2 l={‘0‘:0,‘1‘:1,‘2‘:2,‘3‘:3,‘4‘:4,‘5‘:5,‘6‘:6,‘7‘:7,‘8‘:8,‘9‘:9}[s[0]] 3 print(l)

Python高級函數--map/reduce

tools rom red spl logs port 字符串 normalize char 名字開頭大寫後面小寫；練習： 1 def normalize(name): 2 return name[0].upper() + name[1:].lower() 3

Map/Reduce的記憶體使用設定

相關推薦