Hadoop分塊與分片

阿新 • • 發佈：2019-01-10

HDFS儲存系統中，引入了檔案系統的分塊概念（block），塊是儲存的最小單位，HDFS定義其大小為64MB。與單磁碟檔案系統相似，儲存在 HDFS上的檔案均儲存為多個塊，不同的是，如果某檔案大小沒有到達64MB，該檔案也不會佔據整個塊空間。在分散式的HDFS叢集上，Hadoop系統保證一個塊儲存在一個datanode上。

當我們執行hadoop fs -put aa.txt /bb.txt，則aa.txt會被複製為叢集的/bb.txt。檢視系統的log日誌hadoop-$username-namenode-*.log，可以看到類似於

2011-09-07 08:39:12,506 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.addStoredBlock: blockMap updated: 127.

0.0.1:50010 is added to blk_5715489406767973176_1455 size 32

這樣的資訊，裡面記錄有分配block的元資料資訊和block號（blk_5715489406767973176）。

在另一個日誌中hadoop-$username-datanode-*.log可以看到對應的datanode打印出相應的log：

2011-09-07 08:39:12,495 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Receiving block blk_5715489406767973176_145

5 src: /127.0.0.1:48492 dest: /127.0.0.1:50010

HDFS的namenode只儲存整個檔案系統的元資料映象，這個映象由配置dfs.name.dir指定，datanode則存有檔案的metainfo和具體的分塊，儲存路徑由dfs.data.dir指定。

分析完畢分塊，下面討論一下分片：

hadoop的作業在提交過程中，需要把具體的輸入進行分片。具體的分片細節由InputSplitFormat指定。分片的規則為 FileInputFormat.class中的getSplits()方法指定：

long splitSize = computeSplitSize(goalSize, minSize, blockSize);

computeSplitSize:

Math.max(minSize, Math.min(goalSize, blockSize));

其中goalSize為“InputFile大小”/“我們在配置檔案中定義的mapred.map.tasks”值，minsize為mapred.min.split.size，blockSize為64，所以，這個算式為取分片大小不大於block，並且不小於在mapred.min.split.size配置中定義的最小Size。

當某個分塊分成均等的若干分片時，會有最後一個分片大小小於定義的分片大小，則該分片獨立成為一個分片。

Hadoop分塊與分片

Hadoop分塊與分片

Hadoop分塊與分片介紹及分片和分塊大小相同的原因

Hadoop分塊和分片

Hadoop之分塊、分片與shuffle機制詳解

大檔案的分塊與合併

matlab矩陣分塊與把分塊矩陣還原

hadoop 分片與分塊，map task和reduce task的理解

hadoop 檔案分塊，block與split關係

分塊之區間查詢與區間修改

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法-2

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法-3

與磁盤第一塊扇區有關的：分區與開機流程

卿學姐與公主 UESTC - 1324 分塊模板題

「日常訓練與知識學習」樹的分塊（王室聯邦，HYSBZ-1086）

杜教篩（整除分塊，積性函式，尤拉與莫比烏斯，狄利克雷卷積）

js大檔案分塊上傳與tornado接收檔案和下載

修煉內功---資料結構與演算法19---分塊索引

Hadoop是怎麼分塊的？

洛谷P4260：[Code+#3]博弈論與概率統計（組合數學+莫隊/分塊）

Hadoop分塊與分片

相關推薦