1. 程式人生 > >Hadoop新版和舊版中InputSplit大小的區別

Hadoop新版和舊版中InputSplit大小的區別

          Hadoop舊版中InputSplit的個數由下面三個引數決定:

         goalSize:totalSize/numSpilt.totalSize為檔案大小,numSplit為使用者設定的map task個數,預設為1.

         minSize:InputSplit的最小值,由配置引數 mapred.min.split.size,預設為1.

         blockSize:HDFS中塊的大小.

         splitSize = max(minSize,min(goalSize,blockSIze))

        新版:

         maxSize:由配置引數mapred.max.split.size確定,已經不再考慮使用者設定的map task個數.

         minSize:InputSplit的最小值,由配置引數 mapred.min.split.size,預設為1.

         blockSize:HDFS中塊的大小.

       splitSize = max(minSize,min(maxSize,blockSIze))