hadoop筆記之切片大小控制
阿新 • • 發佈:2019-01-08
HDFS的block是邏輯上的資料塊.Hadoop2.0中每一塊預設大小128MB,實際儲存過程中block大小小於等128MB,它是以檔案為儲存物件.如一200MB大小檔案,分兩個資料塊128MB+72MB
這裡的兩個塊大實際小分別是128MB和72MB
演算法分析:
max(minSize, min(maxSize,blockSize))
min(maxSize,blockSize)取maxSize,blockSize之間的最小值
max(minSize, min())取minSize, min()之間的最大值
blockSize=128MB
所以增加切片大小有要調整 min(maxSize,blockSize)中maxSize值
減小切片大小調整minSize值.
具體兩個方法如下:
FileInputFormat.setMaxInputSplitSize(job, size);
FileInputFormat.setMinInputSplitSize(job, size);