hadoop輸入分片計算(Map Task個數的確定)

阿新 • • 發佈：2019-01-04

1 public List<InputSplit> getSplits(JobContext job

2 ) throws IOException {

3 //getFormatMinSplitSize()：始終返回1

4 //getMinSplitSize(job)：獲取” mapred.min.split.size”的值，預設為1

5 long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

7 //getMaxSplitSize(job)：獲取"mapred.max.split.size"的值，

8 //預設配置檔案中並沒有這一項，所以其預設值為” Long.MAX_VALUE”，即2^63 – 1

9 long maxSize = getMaxSplitSize(job);

11 // generate splits

12 List<InputSplit> splits = new ArrayList<InputSplit>();

13 List<FileStatus>files = listStatus(job);

14 for (FileStatus file: files) {

15 Path path = file.getPath();

16 FileSystem fs = path.getFileSystem(job.getConfiguration());

17 long length = file.getLen();

18 BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length);

19 if ((length != 0) && isSplitable(job, path)) {

20 long blockSize = file.getBlockSize();

21 //計算split大小

22 long splitSize = computeSplitSize(blockSize, minSize, maxSize);

24 //計算split個數

25 long bytesRemaining = length; //bytesRemaining表示剩餘位元組數

26 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { //SPLIT_SLOP=1.1

27 int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

28 splits.add(new FileSplit(path, length-bytesRemaining, splitSize,

29 blkLocations[blkIndex].getHosts()));

30 bytesRemaining -= splitSize;

31 }

33 if (bytesRemaining != 0) {

34 splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining,

35 blkLocations[blkLocations.length-1].getHosts()));

36 }

37 } else if (length != 0) {

38 splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts()));

39 } else {

40 //Create empty hosts array for zero length files

41 splits.add(new FileSplit(path, 0, length, new String[0]));

42 }

43 }

45 // Save the number of input files in the job-conf

46 job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());

48 LOG.debug("Total # of splits: " + splits.size());

49 return splits;

50 }

hadoop輸入分片計算(Map Task個數的確定)

1 public List<InputSplit> getSplits(JobContext job 2 ) throws IOException { 3 //getFormatMinSplitSize()：始終返回1 4 //getMinSplitSize(job)：獲取” mapre

hadoop 分片與分塊，map task和reduce task的理解

分塊：Block 　　HDFS儲存系統中，引入了檔案系統的分塊概念（block），塊是儲存的最小單位，HDFS定義其大小為64MB。與單磁碟檔案系統相似，儲存在 HDFS上的檔案均儲存為多個塊，不同的是，如果某檔案大小沒有到達64MB，該檔案也不會佔據整個塊空間。在分

mapreduce 作業中 map/reduce 個數的計算

1. 問題描述當在hadoop叢集提交mapreduce作業時，map 和 reduce 的個數是如何計算的？ 2. map個數的計算 2.1 map個數的計算和分片大小（splitSize）是有關係的,所以我們先看看splitSize的計算公式：

MapReduce中map任務個數的確定

在map階段讀取資料前，FileInputFormat會將輸入檔案分割成split。split的個數決定了 map的個數。影響map個數，即split個數的因素主要有： 1）HDFS塊的大小，即HDFS中dfs.block.size的值。如果有一個輸入檔

Hadoop Map&Reduce個數優化設定以及JVM重用

來源：http://irwenqiang.iteye.com/blog/1448164 Hadoop與JVM重用對應的引數是mapred.job.reuse.jvm.num.tasks，預設是1，表示一個JVM上最多可以順序執行的task數目（屬於同一個J

Hadoop動態調整Map Task記憶體資源大小

前言我們都知道,在Hadoop中,一個Job的執行需要轉化成1個個的Task去執行,在Task中,有會有2個型別,一個為Map Task,另一個就是Reduce Task.當然,這不是最底層的級別,在Task內部,還可以再分為TaskAttempt,叫做任務嘗試,任務嘗試姑且

如何在hadoop中控制map的個數

hadooop提供了一個設定map個數的引數mapred.map.tasks，我們可以通過這個引數來控制map的個數。但是通過這種方式設定map的個數，並不是每次都有效的。原因是mapred.map.tasks只是一個hadoop的參考數值，最終map的個數，還取決於其他的因素。為了方便

hadoop中控制map的個數

hadooop提供了一個設定map個數的引數mapred.map.tasks，我們可以通過這個引數來控制map的個數。但是通過這種方式設定map的個數，並不是每次都有效的。原因是mapred.map.tasks只是一個hadoop的參考數值，最終map的個數，還取決於其他的

Hadoop map任務個數分析

Hadoop map任務個數由輸入檔案在HDFS上的分塊個數確定。如果一個輸入檔案的大小大於BlockSize，那麼這個輸入檔案被分成的若干個塊，一個塊即是一個spl

hadoop中map數量的確定及host的選擇

一:準備知識 InputFormat介面:主要用於描述資料的格式,有兩個功能,一個是資料切分,另外一個是為Mapper提供輸入資料 InputFormat其中一個實現基類是FileInputFormat,今天來學習一下FileInputFormat的實現,其中

hadoop中每個節點map和reduce個數的設定調優

hadoop中每個節點map和reduce個數的設定調優 2012-02-21 14:40:32| 分類：舉報|字號訂閱 map red.tasktracker.map.tasks.maximum 這個是一個task tracker中可同時執行的map的最大個數，預設值

Hadoop如何計算map數和reduce數

Hadoop在執行一個mapreduce job之前，需要估算這個job的maptask數和reducetask數。首先分析一下job的maptask數，當一個job提交時，jobclient首先分析job被拆分的split數量，然後吧job.split檔案放置在HDFS中

c語言判斷是否是utf8字符串，計算字符個數

++ != get line [1] code 二進制 pri 範圍 #include <stdio.h> #include <string.h> #include <stdlib.h> /********************

輸入年月日計算是星期幾

clu emp nth 一個看到了 tdi print int 年月日偶然的機會看到了一個計算星期幾的算法，感覺很怪異並且很有意思就記錄一下，也與大家共勉。自己寫的代碼有些瑕疵，但重點是計算星期的算法值得思索。問題：輸入年月日計算是星期幾？代碼如下： #includ

計算字符個數

ret col 字母 str open () ostream 輸入 toupper 計算字符個數題目描述寫出一個程序，接受一個有字母和數字以及空格組成的字符串，和一個字符，然後輸出輸入字符串中含有該字符的個數。不區分大小寫。輸入描述: 輸入一個有字母和數字以及空

華為筆試：計算字符個數

bcd abcde font supper 數字 git class OS 時間題目描述寫出一個程序，接受一個有字母和數字以及空格組成的字符串，和一個字符，然後輸出輸入字符串中含有該字符的個數。不區分大小寫。輸入描述: 輸入一個有字母和數字以及空格組成的字符串，

9.繼續練習簡單的輸入和計算（a-b)

pan main tdi 簡單 pri 輸入 include span scan #include <stdio.h> int main() { int a,b; scanf("%d %d",&a,&b); printf

JS實現計算任意一個數的各個位數的和

pro box rip 返回實現 urn func int 函數 <script> 　　var m = parseInt(prompt("請輸入一個數")); 　　function box(m) { 　　　　var a = 0; 　　　　while (m) {

關於EditText的輸入小數點計算問題

問題描述：當edittext當中需要輸入小數點的時候，進行計算的話會有一些列問題出現，例如：格式不對、小數點位置不對、小數點後輸入0的問題問題解決方法： 1）在輸入框新增一個監聽事件，會有3個方法重寫第一個：onTextChanged （也是最重要的一個，一般

使用函式指標和map載入不確定配置檔案的實現

#include<iostream> #include<string> #include<map> typedef void (*pFunc)(); //用於指向具體載入配置檔案的函式 using namespace std; enum TYPE

hadoop輸入分片計算(Map Task個數的確定)

相關推薦