HDFS原理及架構

阿新 • • 發佈：2019-04-17

技術 hdfs 錯誤 ecn log 通道建立返回值調用

HDFS架構

HDFS是一個master/slave結構的服務，其中NameNode是master，一般只在一臺節點上啟動；DataNode是slave，一般每臺節點都會啟動一個；DataNode不斷地主動向NameNode發送心跳、匯報block信息等；為了對NameNode進行備份，還會有一個SecondaryNameNode 技術分享圖片

HDFS各類操作

創建目錄

client與namenode直接交互，在INode中創建目錄節點，並將操作寫入edit log中即可，全程不需要datanode參與。
刪除文件

客戶端與namenode交互刪除文件，namenode只是標記要刪除，但不會主動通知datanode；

當對應的datanode向namenode發送心跳時，namnode會把刪除指令放到返回值裏；
所以一般刪除不是立即刪除，而是有一定的延遲。
讀文件

client先與namenode交互，通過getBlockLocatitions方法獲取到文件block所在節點，然後client再與datanode交互獲取具體數據；
block可能不是一次全部返回，可能需要多次調用getBlockLocatitions。
客戶端讀數據時如果DN發生故障，則會接著讀取下一個數據塊兒，並記錄這個出故障的節點；讀數據返回中包含了數據的校驗和，如果發現錯誤，會報告給NN，並從其它副本讀取。
寫文件

client先與NN交互，在NN命名空間中創建一個新文件；

第二步client真正寫入之前再跟NN交互獲取要在哪兒寫，addBlock返回一個LocateBlock對象，包含數據庫標誌和版本號；
LocateBlock還提供了跟DN交互的數據流管道，client寫入到管道中的數據被分為一個個的文件包，這些被放入到一個輸出隊列中；
第三步client跟DN交互寫入數據，第一個節點寫完，由第一個DN向第二個DN寫，寫完還要返回ack確認信息；如果收到ack確認信息，則將這個文件包從隊列中刪除；
寫完一個數據塊之後，DN會跟NN交互，向NN提交這個數據塊。

對於某個DN發生故障的情況：
1，先關閉數據流通道，正在寫的數據包由於沒有收到ack，不會從隊列中刪除，數據不會丟失；

2，正常的DN上的數據塊會被賦予一個新的版本號，並通知NN。主要是故障節點恢復後，發現版本號跟NN上的不一致就會自動刪除了；
3，數據流管道刪除錯誤節點並重新建立管道，繼續在正常幾點上寫數據；
4，文件關閉後，NN發現此數據庫沒有達到副本數要求，會選擇一個新的DN來復制數據塊。

SecNameNode備份
hdfs的元數據保存在Inode對象中，但是namenode是一個單點master，如果數據都在內存則無法進行故障恢復。
hdfs有一個檢查點機制，會把某個時間點內存中的Inode持久化到fsimage文件中，同時對每個操作記錄寫入到edit log中。
SecNameNode則負責把namenode上的fsimage和edit log合並。

1，SecNN不斷地獲取NN上editlog的大小，如果太小則不做處理；
2，如果editlog較大，則SecNN通知NN發起一次檢查點操作；
3，NN會產出一個新的editlog——edit.new，此後對元數據的操作都寫入到edit.new文件中；
4，而SecNN則通過http接口分別將NN上的fsimage和editlog拉取到SecNN節點上，並在內存中合並，並產出文件fsimage.ckpt;
5，SecNN再主動通知NN鏡像已合並完成；
6，NN通過http接口拉取過來fsimage.ckpt並覆蓋原來的fsimage，最後將edit.new改回edit

HDFS HA

https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/index.html

HDFS原理及架構

技術 hdfs 錯誤 ecn log 通道建立返回值調用 HDFS架構 HDFS是一個master/slave結構的服務，其中NameNode是master，一般只在一臺節點上啟動；DataNode是slave，一般每臺節點都會啟動一個；DataNode不斷地主動向N

HDFS原理及架構

HDFS各類操作

HDFS HA

HDFS原理及架構

zabbix實現原理及架構詳解

消息中間件的原理及架構框架

初識HDFS原理及框架

一文簡單理解“推薦系統”原理及架構

Hbase設計原理及架構簡介

分散式計算框架Hadoop原理及架構全解

PKI/CA工作原理及架構

Hadoop 3.0 新特性原理及架構深度剖析

[Hadoop]Hadoop章2 HDFS原理及讀寫過程

Hadoop原理及架構

Hadoop生態叢集hdfs原理（轉）初步掌握HDFS的架構及原理

高性能Mysql主從架構的復制原理及配置詳解

（2）LVS+Keepalived高可用負載均衡架構原理及配置

Hadoop — HDFS的概念、原理及基本操作

RocketMQ架構原理及名詞概念（三）

HDFS——HDFS整體設計架構和原理

Ceph架構原理及使用場景介紹

深入學習Redis高可用架構：哨兵原理及實踐

LNMP架構原理及基礎運用部署

HDFS原理及架構

HDFS各類操作

HDFS HA

相關推薦