Hadoop分塊與分片介紹及分片和分塊大小相同的原因
概念介紹
分塊
在HDFS系統中,為了便於檔案的管理和備份,引入分塊概念(block)。這裡的 塊 是HDFS儲存系統當中的最小單位,HDFS預設定義一個塊的大小為64MB。當有檔案上傳到HDFS上時,若檔案大小大於設定的塊大小,則該檔案會被切分儲存為多個塊,多個塊可以存放在不同的DataNode上,整個過程中 HDFS系統會保證一個塊儲存在一個datanode上 。但值得注意的是 如果某檔案大小沒有到達64MB,該檔案並不會佔據整個塊空間 。
HDFS中的NameNode會記錄在上述檔案分塊中檔案的各個塊都存放在哪個dataNode上,這些資訊一般也稱為 元資訊(MetaInfo)
dfs.name.dir
指定。
分片
當一個作業提交到Hadoop執行的時候,其中的核心步驟是MapReduce,在這個過程中傳輸的資料可能會很多,Hadoop會將MapReduce的輸入資料劃分為等長的小資料塊,稱為輸入分片或者分片。hadoop為每個分片構建一個map任務,分片的預設實現由InputSplitFormat 類的 getSplits() 方法指定:
long splitSize = computeSplitSize(goalSize, minSize, blockSize);
//computeSplitSize方法中省略其他程式碼,核心計算規則如下
Math.max(minSize, Math.min(goalSize, blockSize));
其中goalSize的值為:(InputFile的大小)/(配置檔案中定義的mapred.map.tasks的值)
minsize的值為:配置檔案mapred.min.split.size的值
blockSize的值為:64(預設情況)
可以通過上述計算了解到,hadoop計算的分片大小不小於blockSize,並且不小於mapred.min.split.size。預設情況下,以HDFS的一個塊的大小(預設為64M)為一個分片,即分片大小等於分塊大小。當某個分塊分成均等的若干分片時,會有最後一個分片大小小於定義的分片大小,則該分片獨立成為一個分片。
預設分片大小與分塊大小是相同的原因
hadoop在儲存有輸入資料(HDFS中的資料)的節點上執行map任務,可以獲得高效能,這就是所謂的資料本地化。所以最佳分片的大小應該與HDFS上的塊大小一樣,因為如果分片跨越2個數據塊,對於任何一個HDFS節點(基本不肯能同時儲存這2個數據塊),分片中的另外一塊資料就需要通過網路傳輸到map任務節點,與使用本地資料執行map任務相比,效率則更低!
相關推薦
Hadoop分塊與分片介紹及分片和分塊大小相同的原因
概念介紹 分塊 在HDFS系統中,為了便於檔案的管理和備份,引入分塊概念(block)。這裡的 塊 是HDFS儲存系統當中的最小單位,HDFS預設定義一個塊的大小為64MB。當有檔案上傳到HDFS上時,若檔案大小大於設定的塊大小,則該檔案會被切分儲存為多
mongoDB——自動分片介紹及簡單實現
分片,是指將資料拆分,將其分散到不同的機器上。這樣的好處就是,不需要功能強大的大型計算機也可以儲存更多的資料,處理更大的負載。 mongoDB的分片,是將collection的
ELK5.4 修改分片數及分片分配方式
修改 分片 副本 一、修改分片數elasticsearch默認分片數為5,副本數為1.如果需要修改分片數有兩種方式1、修改索引settings查看索引狀態:curl -GET "http://localhost:9200/index/__settings"修改索引狀態信息:curl -XPUT ‘
ELK介紹及搭建 Elasticsearch 分布式集群
ELK 日誌系統 CentOS7 Elasticsearch分布式集群 筆記內容:ELK介紹及搭建 Elasticsearch 分布式集群筆記日期:2018-03-02 27.1 ELK介紹 27.2 ELK安裝準備工作 27.3 安裝es 27.4 配置es 27.5 curl查看es集群
部署MongoDB分片群集及分片管理
usr config pen log 利用 不足 text 擴展 err MongoDB分片 在Mongodb裏面存在另一種集群,就是分片技術,可以滿足MongoDB數據量大量增長的需求。 當MongoDB存儲海量的數據時,一臺機器可能不足以存儲數據,也可能不足以提供
NIO與BIO 介紹及經典程式碼
1 、NIO與BIO IO為同步阻塞形式,NIO為同步非阻塞形式,NIO並沒有實現非同步,在JDK1.7後升級NIO庫包,支援非同步非阻塞 BIO:同步阻塞式IO,伺服器實現模式為一個連線一個執行緒,即客戶端有連線請求時伺服器端就需要啟動一個執行緒進行處理,如果這個連線不做任何事情那麼就會造成不必要
Memcache學習總結1-Memcache與Memcached介紹及安裝配置
也許大家一看到Memcache和Memcached會有點暈,這兩者有什麼關係又有什麼區別呢,下面先給大家說下Memcached,Memcached是一個高效能的分散式記憶體物件快取系統,用於動態Web應用以減輕資料庫負載。它通過在記憶體中快取資料和物件來減少讀取資料庫的次數,從而提高動態、資料庫驅動網站的速
【zookeeper】zookeeper介紹及安裝和叢集配置
1.什麼是zookeeper ? zookeeper 英文直譯是動物管理員,試想下,動物園裡有很多動物,如果沒有動物管理員去做管理的話,各種動物混在一起很可能出現打架問題,疾病,髒,等等一系列問題,這個時候就需要有個主人去把這些動物統一管理起來,zookeeper其實
Fiddler2介紹及使用和中文幫助文件(1)
Fiddler2 主選單 六個主選單分別是: 檔案(File) Capture Traffic ——啟用捕獲功能,快捷鍵 F12 此功能的開啟/關閉狀態,程式安裝後預設是開啟的。可以在 Fiddler 底部狀態列最左側看到:(開啟狀態)、(關閉狀態) 也可以通過滑鼠點選狀態列該圖示來進行切換。 Load A
分頁與分段的主要聯絡和區別
聯絡:兩者都採用離散分配模式,且都要通過地址對映機構來實現地址變換。區別:(1)分頁僅僅是由於系統管理的需要而不是使用者的需要。分段的目的是為了更好的滿足使用者的需要。 (2)頁的大小固定且由系統決定,而段的長度卻不固定,決定於使用者所編寫的程式。
HTTP提交方式之PUT詳細介紹及POST和PUT的區別
POST是用來提交資料的。提交的資料放在HTTP請求的正文裡,目的在於提交資料並用於伺服器端的儲存,而不允許使用者過多的更改相應資料(主要是相對於在url 修改要麻煩很多)。PUT操作是冪等的。所謂冪等是指不管進行多少次操作,結果都一樣。比如我用PUT修改一篇文章,然後在做同
ARGB與RGB區別及透明度和RGB顏色對照表
對於RGB比較常見,顯示器、電視等都是採用RGB的顏色標準。RGB是工業界的一種顏色標準,通過R(紅)、G(綠)、B(藍)三個顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色。我們知道計算機是
Linux檔案系統分析之二(超級塊,i節點點陣圖和邏輯塊點陣圖)
第二個扇區和第一個扇區一樣屬於引導塊,這裡就不列舉出其內容了,這裡的一塊是兩個扇區即1024B。接下來的一塊就是大名鼎鼎的超級塊了。其內容如下:00000400h: E0 01 A0 05 01 00 01 00 13 00 00 00 00 1C 08 10 ; ??..
Hadoop分塊與分片
HDFS儲存系統中,引入了檔案系統的分塊概念(block),塊是儲存的最小單位,HDFS定義其大小為64MB。與單磁碟檔案系統相似,儲存在 HDFS上的檔案均儲存為多個塊,不同的是,如果某檔案大小沒有到達64MB,該檔案也不會佔據整個塊空間。在分散式的HDFS叢集上,Hadoop系統 保證一個塊儲存在一
MySQL Cluster 與 MongoDB 復制群集分片設計及原理
數據處理 repl ges dff 架構設計 方案 方式 改進 不包含 分布式數據庫計算涉及到分布式事務、數據分布、數據收斂計算等等要求 分布式數據庫能實現高安全、高性能、高可用等特征,當然也帶來了高成本(固定成本及運營成本),我們通過MongoDB及MySQL Clust
JavaWeb網上圖書商城完整項目--day03-1.圖書模塊功能介紹及相關類創建
class default package ren 書籍 logs main java getc 1 前兩天我們學習了user用戶模塊和圖書的分類模塊,接下來我們學習圖書模塊 圖書模塊的功能主要是下面的功能: 2 接下來我們創建對應的包 我們來看看對應的數據庫表t_bo
C#操作Word Aspose.Words組件介紹及使用—基本介紹與DOM概述
控制 包含 枚舉類 讀取 標記 服務器端 方法 python level 1.基本介紹 Aspose.Words是一個商業.NET類庫,可以使得應用程序處理大量的文件任務。Aspose.Words支持Doc,Docx,RTF,HTML,OpenDocument,PDF,XP
mycat 離散分片 -> 程序指定分區的分片
spa ssi ica arc direct ted def cut roo 1。程序指定分區的分片 此規則是在運行階段有應用自主決定路由到那個分片。 此方法為直接依據字符子串(必須是數字)計算分區號(由應用傳遞參數。顯式指定分區號)。 2
團隊作業之一:團隊介紹及選題背景與意義
benefit 設計 旅行 sdk class clip 操作系統 開發環境 方便 團隊作業之一:團隊介紹及選題背景與意義 團隊介紹及組員情況: 1、組名:大吉大利,今晚加班 2、成員: 班級 姓名 身份 計算1511 張林 組員 計
LIB團隊介紹及選題背景與意義
bottom 輔助 round white 績效 設計 信息管理 直觀 align By: Ziyang Chan & Kaiwen Huang 1團隊信息 1.1團隊情況 團隊名稱:Let It Be (LIB) 團隊的組織模式:隨機模式