Hadoop HDFS元數據目錄分析

阿新 • • 發佈：2019-03-04

文件存儲 str 結構序號 idt _id 進程最新版本一個

元數據目錄分析

在第一次部署好Hadoop集群的時候，我們需要在NameNode（NN）節點上格式化磁盤：

$HADOOP_HOME/bin/hdfs namenode -format

格式化完成之後，將會在$dfs.namenode.name.dir/current目錄下如下的文件結構

current/

|-- VERSION

|-- edits_*

|-- fsimage_0000000000008547077

|-- fsimage_0000000000008547077.md5

`-- seen_txid

其中的dfs.name.dir是在hdfs-site.xml文件中配置的，默認值如下：

<property>

  <name>dfs.name.dir</name>

  <value>file://${hadoop.tmp.dir}/dfs/name</value>

</property>

hadoop.tmp.dir是在core-site.xml中配置的，默認值如下

<property>

  <name>hadoop.tmp.dir</name>

  <value>/tmp/hadoop-${user.name}</value>

  <description>A base for other temporary directories.</description>

</property>

dfs.namenode.name.dir屬性可以配置多個目錄，

如/data1/dfs/name,/data2/dfs/name,/data3/dfs/name,....。各個目錄存儲的文件結構和內容都完全一樣，相當於備份，這樣做的好處是當其中一個目錄損壞了，也不會影響到Hadoop的元數據，特別是當其中一個目錄是NFS（網絡文件系統Network File System，NFS）之上，即使你這臺機器損壞了，元數據也得到保存。
下面對$dfs.namenode.name.dir/current/目錄下的文件進行解釋。
1、VERSION文件是Java屬性文件，內容大致如下：

#Fri Nov 15 19:47:46 CST 2013

namespaceID=934548976

clusterID=CID-cdff7d73-93cd-4783-9399-0a22e6dce196

cTime=0

storageType=NAME_NODE

blockpoolID=BP-893790215-192.168.24.72-1383809616115

layoutVersion=-47

其中
　　（1）、namespaceID是文件系統的唯一標識符，在文件系統首次格式化之後生成的；
　　（2）、storageType說明這個文件存儲的是什麽進程的數據結構信息（如果是DataNode，storageType=DATA_NODE）；
　　（3）、cTime表示NameNode存儲時間的創建時間，由於我的NameNode沒有更新過，所以這裏的記錄值為0，以後對NameNode升級之後，cTime將會記錄更新時間戳；
　　（4）、layoutVersion表示HDFS永久性數據結構的版本信息，只要數據結構變更，版本號也要遞減，此時的HDFS也需要升級，否則磁盤仍舊是使用舊版本的數據結構，這會導致新版本的NameNode無法使用；
　　（5）、clusterID是系統生成或手動指定的集群ID，在-clusterid選項中可以使用它；如下說明

a、使用如下命令格式化一個Namenode：

$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

選擇一個唯一的cluster_id，並且這個cluster_id不能與環境中其他集群有沖突。如果沒有提供cluster_id，則會自動生成一個唯一的ClusterID。

b、使用如下命令格式化其他Namenode：

$HADOOP_HOME/bin/hdfs namenode -format -clusterId <cluster_id>

c、升級集群至最新版本。在升級過程中需要提供一個ClusterID，例如：

$HADOOP_PREFIX_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR -upgrade -clusterId <cluster_ID>

如果沒有提供ClusterID，則會自動生成一個ClusterID。

　　（6）、blockpoolID：是針對每一個Namespace所對應的blockpool的ID，上面的這個BP-893790215-192.168.24.72-1383809616115就是在我的ns1的namespace下的存儲塊池的ID，這個ID包括了其對應的NameNode節點的ip地址。
　　
2、$dfs.namenode.name.dir/current/seen_txid非常重要，是存放transactionId的文件，format之後是0，它代表的是namenode裏面的edits_*文件的尾數，namenode重啟的時候，會按照seen_txid的數字，循序從頭跑edits_0000001~到seen_txid的數字。所以當你的hdfs發生異常重啟的時候，一定要比對seen_txid內的數字是不是你edits最後的尾數，不然會發生建置namenode時metaData的資料有缺少，導致誤刪Datanode上多余Block的資訊。

3、$dfs.namenode.name.dir/current目錄下在format的同時也會生成fsimage和edits文件，及其對應的md5校驗文件。

補充：seen_txid

文件中記錄的是edits滾動的序號，每次重啟namenode時，namenode就知道要將哪些edits進行加載edits

Hadoop HDFS元數據目錄分析

文件存儲 str 結構序號 idt _id 進程最新版本一個元數據目錄分析在第一次部署好Hadoop集群的時候，我們需要在NameNode（NN）節點上格式化磁盤： $HADOOP_HOME/bin/hdfs namenode -form

Hadoop NameNode元數據相關文件目錄解析

沒有 hadoop href dfs com 訪問控制相關 itl 大量在《Hadoop NameNode元數據相關文件目錄解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夾的幾個文件： 1 current

HDFS元數據管理機制

color 現在怎麽滿足 bdb 標識符結構 oop 上進 1．元數據管理概述HDFS元數據，按類型分，主要包括以下幾個部分：1、文件、目錄自身的屬性信息，例如文件名，目錄名，修改信息等。2、文件記錄的信息的存儲相關的信息，例如存儲塊信息，分塊情況，副本個數等。3、

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

pan 查詢寫入所有 not insert語句 int 寫入文件文件系統一、概述 hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。 DML包括：INSERT插入

PL1731-Hadoop雲計算數據分析平臺

互聯網思想 -h 架構感覺 container 分享 shu 希望 PL1731-Hadoop雲計算數據分析平臺隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序開發的，有沒有一些基礎性的資料給我們學習學習呢，你的框架感覺一下太大了，希望有個循序

元數據管理器中存在錯誤。實例化來自文件“\?C:Program FilesMicrosoft SQL ServerMSAS11.MSSQLSERVEROLAPDataTfs_Analysis.0.dbvDimTestCaseOverlay.874.dim.xml”的元數據對象時出錯。

參數配置錯誤 manage 但是加密 olap 右上角 alt 剛才一、發現問題啟動SQLSERVER的數據分析服務失敗查看系統日誌錯誤如下：雙擊錯誤後顯示詳細錯誤：元數據管理器中存在錯誤。實例化來自文件“\\?\C:\Pro

Hadoop HDFS元數據目錄分析

Hadoop HDFS元數據目錄分析

Hadoop NameNode元數據相關文件目錄解析

HDFS元數據管理機制

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

PL1731-Hadoop雲計算數據分析平臺

元數據管理器中存在錯誤。實例化來自文件“\?C:Program FilesMicrosoft SQL ServerMSAS11.MSSQLSERVEROLAPDataTfs_Analysis.0.dbvDimTestCaseOverlay.874.dim.xml”的元數據對象時出錯。

mysql 5.5.42 更改數據目錄 centos 6.5環境

數據包分析之信息安全鐵人三項

Python和R數據挖掘分析技術高級公開課在上海舉行

R語言重要數據集分析研究——搞清數據的由來

關於vs 打開網站時報錯配置iis express失敗無法訪問IIS元數據庫...

反射元數據

使用ECharts實現數據圖表分析

網絡數據包分析網卡Offload

基於MySQL元數據的Hive的安裝和簡單測試

springCloud（5）：Eureka的元數據與Eureka Server的rest端點

記一次OGG數據寫入HBase的丟失數據原因分析

最齊全的站點元數據meta標簽的含義和使用方法

linux->windows主動推送文件同步目錄數據 linux-windows數據目錄同步

視頻轉碼成mp4格式，添加關鍵幀，添加元數據，把元數據放在第一幀

Hadoop HDFS元數據目錄分析

相關推薦