Hadoop如何計算map數和reduce數

阿新 • • 發佈：2019-02-16

Hadoop在執行一個mapreduce job之前，需要估算這個job的maptask數和reducetask數。首先分析一下job的maptask數，當一個job提交時，jobclient首先分析job被拆分的split數量，然後吧job.split檔案放置在HDFS中，一個job的MapTask數量就等於split的個數。

job.split中包含split的個數由FileInputFormat.getSplits計算出，方法的邏輯如下：

1. 讀取引數mapred.map.tasks，這個引數預設設定為0，生產系統中很少修改。

2. 計算input檔案的總位元組數，總位元組數/(mapred.map.tasks==0 ? 1: mapred.map.tasks )=goalsize

3. 每個split的最小值minSize由mapred.min.split.size引數設定，這個引數預設設定為0，生產系統中很少修改。

4. 呼叫computeSplitSize方法，計算出splitsize= Math.max(minSize, Math.min(goalSize, blockSize)),通常這個值=blockSize，輸入的檔案較小，檔案位元組數之和小於blocksize時，splitsize=輸入檔案位元組數之和。

5. 對於input的每個檔案，計算split的個數。

a) 檔案大小/splitsize>1.1，建立一個split，這個split的位元組數=splitsize，檔案剩餘位元組數=檔案大小-splitsize

b) 檔案剩餘位元組數/splitsize<1.1，剩餘的部分作為一個split

舉例說明：

1. input只有一個檔案，大小為100M,splitsize=blocksize,則split數為2，第一個split為64M,第二個為36M

2. input只有一個檔案，大小為65M,splitsize=blocksize，則split數為1，split大小為65M

3. input只有一個檔案，大小為129M,splitsize=blocksize，則split數為2，第一個split為64M,第二個為65M(最後一個split的大小可能超過splitsize)

4. input只有一個檔案，大小為20M ,splitsize=blocksize，則split數為1，split大小為20M

5. input有兩個檔案，大小為100M和20M,splitsize=blocksize,則split數為3，第一個檔案分為兩個split，第一個split為64M,第二個為36M，第二個檔案為一個split，大小為20M

6. input有兩個檔案，大小為25M和20M,splitsize=blocksize,則split數為2，第一個檔案為一個split，大小為25M，第二個檔案為一個split，大小為20M

假設一個job的input大小固定為100M,當只包含一個檔案時，split個數為2，maptask數為2，但當包含10個10M的檔案時，maptask數為10。

下面來分析reducetask，純粹的mapreduce task的reduce task數很簡單，就是引數mapred.reduce.tasks的值，hadoop-site.xml檔案中和mapreduce job執行時不設定的話預設為1。

在HIVE中執行sql的情況又不同，hive會估算reduce task的數量，估算方法如下：

通常是ceil(input檔案大小/1024*1024*1024)，每1GB大小的輸入檔案對應一個reduce task。

特殊的情況是當sql只查詢count(*)時，reduce task數被設定成1。

總結：通過map和reducetask數量的分析可以看出，hadoop/hive估算的map和reduce task數可能和實際情況相差甚遠。假定某個job的input資料量龐大，reduce task數量也會隨之變大，而通過join和group by，實際output的資料可能不多，但reduce會輸出大量的小檔案，這個job的下游任務將會啟動同樣多的map來處理前面reduce產生的大量檔案。在生產環境中每個user group有一個map task數的限額，一個job啟動大量的map task很顯然會造成其他job等待釋放資源。

Hive對於上面描述的情況有一種補救措施，引數hive.merge.smallfiles.avgsize控制hive對output小檔案的合併，當hiveoutput的檔案的平均大小小於hive.merge.smallfiles.avgsize-預設為16MB左右，hive啟動一個附加的mapreducejob合併小檔案，合併後文件大小不超過hive.merge.size.per.task-預設為256MB。

儘管Hive可以啟動小檔案合併的過程，但會消耗掉額外的計算資源，控制單個reduce task的輸出大小>64MB才是最好的解決辦法。

map資料計算示例：

hive> set dfs.block.size;
dfs.block.size=268435456
hive> set mapred.map.tasks;
mapred.map.tasks=2

檔案塊大小為256MB,map.tasks為2

檢視檔案大小和檔案數：
[[email protected] hadoop]$ hadoop dfs -ls /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25;
Found 18 items
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 290700555 2012-11-26 19:00 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000000_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 290695945 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000001_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 290182606 2012-11-26 19:00 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000002_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 271979933 2012-11-26 19:00 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000003_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258448208 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000004_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258440338 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000005_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258419852 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000006_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258347423 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000007_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258349480 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000008_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258301657 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000009_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258270954 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000010_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258266805 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000011_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258253133 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000012_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258236047 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000013_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258239072 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000014_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258170671 2012-11-26 19:00 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000015_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258160711 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000016_0
-rw-r-----   3 alidwicbu cug-alibaba-dw-icbu 258085783 2012-11-26 18:59 /group/alibaba-dw-icbu/hive/bdl_en12_pageview_fatdt0_d/hp_stat_date=2012-11-25/attempt_201211151327_1675393_m_000017_0

檔案：	大小Bytes	大小MB	splitsize(MB)	每個檔案需要的map數量
檔案1	290700555	277.2336531	256	1.082943957
檔案2	290695945	277.2292566	256	1.082926784
檔案3	290182606	276.7396984	256	1.081014447
檔案4	271979933	259.3802767	256	1.013204206
檔案5	258448208	246.4754181	256	0.962794602
檔案6	258440338	246.4679127	256	0.962765284
檔案7	258419852	246.4483757	256	0.962688968
檔案8	258347423	246.379302	256	0.962419149
檔案9	258349480	246.3812637	256	0.962426811
檔案10	258301657	246.3356562	256	0.962248657
檔案11	258270954	246.3063755	256	0.962134279
檔案12	258266805	246.3024187	256	0.962118823
檔案13	258253133	246.2893801	256	0.962067891
檔案14	258236047	246.2730856	256	0.962004241
檔案15	258239072	246.2759705	256	0.96201551
檔案16	258170671	246.2107382	256	0.961760696
檔案17	258160711	246.2012396	256	0.961723592
檔案18	258085783	246.1297827	256	0.961444464
總檔案大小：	4759549173	4539.059804

goalSize = 4539.059804 （檔案總大小）/ mapred.map.tasks(2) = 2269.529902MB

因此splitsize取值為256MB，所以一共分配18個map。

修改map.tasks引數為32
set mapred.map.tasks = 32;

檔案：	大小Bytes	大小MB	splitsize(MB)	每個檔案需要的map數量
檔案1	290700555	277.2336531	141.8	1.955103336
檔案2	290695945	277.2292566	141.8	1.955072332
檔案3	290182606	276.7396984	141.8	1.951619876
檔案4	271979933	259.3802767	141.8	1.829198002
檔案5	258448208	246.4754181	141.8	1.738190537
檔案6	258440338	246.4679127	141.8	1.738137607
檔案7	258419852	246.4483757	141.8	1.737999829
檔案8	258347423	246.379302	141.8	1.737512708
檔案9	258349480	246.3812637	141.8	1.737526543
檔案10	258301657	246.3356562	141.8	1.737204909
檔案11	258270954	246.3063755	141.8	1.736998417
檔案12	258266805	246.3024187	141.8	1.736970513
檔案13	258253133	246.2893801	141.8	1.736878562
檔案14	258236047	246.2730856	141.8	1.73676365
檔案15	258239072	246.2759705	141.8	1.736783995
檔案16	258170671	246.2107382	141.8	1.736323965
檔案17	258160711	246.2012396	141.8	1.736256979
檔案18	258085783	246.1297827	141.8	1.735753051
總檔案大小：	4759549173	4539.059804

goalSize = 4539.059804 / mapred.map.tasks(32) = 141.8456189

因此splitsize取值為141.8MB，所以一共分配36個map。

Hadoop如何計算map數和reduce數

Hadoop如何計算map數和reduce數

【Hadoop】Hive優化之——控制hive任務中的map數和reduce數

hive優化之——控制hive任務中的map數和reduce數

python全棧開發【補充】map函數和reduce函數的區別

VS 計算二維陣列的行數和列數

hadoop中slot簡介（map slot 和 reduce slot）

hadoop 分片與分塊，map task和reduce task的理解

c++語言如何計算二維陣列行數和列數

函數和函數式編程

軟件工程作業個人項目： wc項目，統計文本文件的字符數、單詞數和行數。

Kotlin 函數和函數表達式

Java 數組獲取二維數組的行數和列數

Java獲得數據庫查詢結果的列數和行數，打印查詢結果

怎麽查找關於內核參數和函數的說明文檔

普通函數和函數模板在一起研究

指針函數和函數指針

C#中二維數組的行數和列數

VBA取得EXCEL表格中的行數和列數

map端和reduce端引數的調優策略

python中的map()函式和reduce()函式

Hadoop如何計算map數和reduce數

相關推薦