值得一提：關於 HDFS 的 file size 和 block size

阿新 • • 發佈：2019-01-28

一個常被問到的一個問題是：如果一個HDFS上的檔案大小(file size) 小於塊大小(block size) ，那麼HDFS會實際佔用Linux file system的多大空間？

答案是實際的檔案大小，而非一個塊的大小。下面做一個實驗：

1、往hdfs裡面新增新檔案前，hadoop在linux上面所佔的空間為 464 MB：

2、往hdfs裡面新增大小為2673375 byte(大概2.5 MB)的檔案：

2673375 derby.jar

3、此時，hadoop在linux上面所佔的空間為 467 MB——增加了一個實際檔案大小(2.5 MB)的空間，而非一個block size(128 MB)

：

4、使用hadoop dfs -stat檢視檔案資訊：

這裡就很清楚地反映出：檔案的實際大小(file size)是2673375 byte，但它的block size是128 MB。

5、通過NameNode的web console來檢視檔案資訊:

結果是一樣的：檔案的實際大小(file size)是2673375 byte，但它的block size是128 MB。

6、不過使用‘hadoop fsck’檢視檔案資訊，看出了一些不一樣的內容—— ‘1（avg.block size 2673375 B）’:

值得注意的是，結果中有一個 ‘1（avg.block size 2673375 B）’的字樣。這裡的 'block size' 並不是指平常說的檔案塊大小(Block Size)—— 後者是一個元資料的概念，相反它反映的是檔案的實際大小(file size)。以下是Hadoop Community的專家給我的回覆：

“The fsck is showing you an "average blocksize", not the block size metadata attribute of the file like stat shows. In this specific case, the average is just the length of your file, which is lesser than one whole block.”

最後一個問題是：如果hdfs佔用Linux file system的磁碟空間按實際檔案大小算，那麼這個”塊大小“有必要存在嗎？

其實塊大小還是必要的，一個顯而易見的作用就是當檔案通過append操作不斷增長的過程中，可以通過來block size決定何時split檔案。以下是Hadoop Community的專家給我的回覆：

“The block size is a meta attribute. If you append tothe file later, it still needs to know when to split further - so it keeps that value as a mere metadata it can use to advise itself on write boundaries.”

值得一提：關於 HDFS 的 file size 和 block size

一個常被問到的一個問題是：如果一個HDFS上的檔案大小(file size) 小於塊大小(block size) ，那麼HDFS會實際佔用Linux file system的多大空間？答案是實際的檔案大小，而非一個塊的大小。下面做一個實驗： 1、往hdfs裡面新增新檔案

hadoop學習筆記（三）：hdfs體系結構和讀寫流程（轉）

sim 百萬服務器發表繼續什麽 lose 基於一次原文：https://www.cnblogs.com/codeOfLife/p/5375120.html 目錄 HDFS 是做什麽的 HDFS 從何而來為什麽選擇 HDFS 存儲數據 HDFS

QWidget::size()和QResizeEvent::size()不一定相同！

問題發現 QGraphicsView中將畫布設定為和檢視相同大小需要使用e->size()，用this->size()會出現滾動條！ Qt手冊中說， QWidget::size()是視窗大小（不包括邊框），e->size()是可視區域大小，除去滾動條。測試

size not match(label size和 predict size )

XGBoostError: b'[19:12:58] src/metric/rank_metric.cc:89: Check failed: (preds.size()) == (info.labels.size()) label size predict size not match' &nb

解決Font size和Display size設定到最大，顯示異常的問題

前言 Android7.0的設定裡面有一個顯示模組，裡面有字型大小和顯示大小的設定，調節的時候可能會造成顯示異常的問題。具體問題復現路徑有兩種 1. 大小之間的轉換（包括設定字型和顯示），看你的應用是否顯示正常 2. 設定成最小，清除快取，進入

hive對於lzo文件處理異常Caused by: java.io.IOException: Compressed length 842086665 exceeds max block size 67108864 (probably corrupt file)

文件的 img inf ioe class tab file ado bubuko hive查詢lzo數據格式文件的表時,拋 Caused by: java.io.IOException: Compressed length 842086665 exceeds max bl

HDFS中Block size的預設大小

關於block size的預設大小，有的說是64 MB，有的說是128 MB。那麼具體是從哪個版本由64 MB變成128 MB的？有的說是Hadoop 1.X版本是64MB，2.X版本是128MB，有的說Apache Hadoop 是64MB，Clouder Hadoop是128MB。為

ORA-19502: write error on file "", block number (block size=)

1. 問題描述檢查alert發現如下報錯： Wed Jun 08 23:03:50 2016 LNS: Attempting destination LOG_ARCHIVE_DEST_2 network reconnect (19502) LNS: Destination

ORA-00349: failure obtaining block size for '+fra_grp01_d

-s select resetlogs lte eset aic popu ada store 有一次恢復庫以後，open時報錯ORA-00349,例如以下。最後通過刪除這個log group解決。 SQL> alter database open r

block size大小

關閉硬盤成才跳過 www ces sga clas 什麽 1.用tune2fs查看block size大小： 1 2 tune2fs -l /dev/sda1 |grep "Block size" Block size: 1

第148天：js+rem動態計算font-size的大小，適配各種手機設備

根節點大小設置 ngs 單位 fontsize 不同 false 51cto 終端設備需求：在不同的移動終端設備中實現，UI設計稿的等比例適配。方案：布局排版都用rem做單位，然後不同寬度的屏，js動態計算根節點的font-size。假設設計稿是寬750px來做

中間件事務碼R3AC1裏Block Size的含義

下載 step nal 下載任務中間件 nsh src 分享 sap 在中間件事務碼R3AC1可以為一個中間件的適配器對象維護Block size的大小。以上圖的尺寸為50為例，假設在ERP系統裏有110個設備(equipment)需要下載，那麽CRM中間件會自動生成

kafka producer的batch.size和linger.ms

size while amp lose DC UC rain hset connect 1.問題 batch.size和linger.ms是對kafka producer性能影響比較大的兩個參數。batch.size是producer批量發送的基本單位，默認是1

Oracle Log Block Size

ports -s windows been redo_log file ati cau blocks Although the size of redo entries is measured in bytes, LGWR writes the redo to the

過濾器練習：獲取指定目錄以及子目錄下的檔案（副檔名為.java）：使用遞迴和File物件過濾器！

package cn.itcast.day01_03; import java.io.File; import java.io.FileFilter; /* * 過濾器練習：獲取指定目錄以及子目錄下的檔案（副檔名為.java）：使用遞迴和File物件過濾器！ */ public cl

聊聊Hadoop安全認證體系：Delegation Token和Block Access Token

前言本文繼續上一篇Hadoop安全認證方面的內容主題，來簡單聊聊Hadoop內部的其它認證體系：Delegation Token（授權令牌認證）和Block Access Token（塊訪問認證）。主要來聊聊這兩者間的差異，順帶也會提及一些Kerberos認證的一點內容。這裡

【圖文詳細】HDFS面試題：hdfs裡的 edits和 fsimage作用

1）、fsimage檔案其實是Hadoop檔案系統元資料的一個永久性的檢查點，其中包含Hadoop檔案系統中的所有目錄和檔案idnode的序列化資訊； 2）、edits檔案存放的是Hadoop檔案系統的所有更新操作的路徑，檔案系統客戶端執行的所以寫操作首先會被記錄到edits檔案中。　

神經網路訓練中,傻傻分不清Epoch、Batch Size和迭代

你肯定經歷過這樣的時刻，看著電腦螢幕抓著頭，困惑著：「為什麼我會在程式碼中使用這三個術語，它們有什麼區別嗎?」因為它們看起來實在太相似了。為了理解這些術語有什麼不同，你需要了解一些關於機器學習的術語，比如梯度下降，以幫助你理解。這裡簡單總結梯度下降的含義… 梯度下降這是一個在機器學習中用於尋找最

html中的一些知識點(input的size和width的區別,HTML字元實體，複選框中的checked，等等知識點)

html中的一些知識點(input的size和width的區別,HTML字元實體，複選框中的checked，等等知識點) 直接看下面的程式碼和截圖 <%@page import="org.apache.jasper.tagplugins.jstl.core.ForEach"%>

《Hadoop技術內幕：深入解析Hadoop和HDFS》2.1配置檔案簡介

2.1　配置檔案簡介配置檔案是一個靈活系統不可缺少的一部分，雖然配置檔案非常重要，但卻沒有標準。本節我們來了解 Windows 作業系統和 Java 環境中的配置檔案。 2.1.1　Windows 作業系統的配置檔案 Windows 系統廣泛使用一種特殊化的 AS

值得一提：關於 HDFS 的 file size 和 block size

相關推薦