Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFS

一、介紹

HDFS （Hadoop Distributed File System）是Hadoop下的分散式檔案系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬體上。

二、HDFS 設計原理

2.1 HDFS 架構

HDFS 遵循主/從架構，由單個NameNode(NN)和多個DataNode(DN)組成：

NameNode : 負責執行有關檔案系統名稱空間的操作，例如開啟，關閉、重新命名檔案和目錄等。它同時還負責叢集元資料的儲存，記錄著檔案中各個資料塊的位置資訊。
DataNode：負責提供來自檔案系統客戶端的讀寫請求，執行塊的建立，刪除等操作。

2.2 檔案系統名稱空間

HDFS的檔案系統名稱空間的層次結構與大多數檔案系統類似(如Linux)，支援目錄和檔案的建立、移動、刪除和重新命名等操作，支援配置使用者和訪問許可權，但不支援硬連結和軟連線。NameNode負責維護檔案系統名稱空間，記錄對名稱空間或其屬性的任何更改。

2.3 資料複製

由於Hadoop被設計執行在廉價的機器上，這意味著硬體是不可靠的，為了保證容錯性，HDFS提供了資料複製機制。HDFS 將每一個檔案儲存為一系列塊，每個塊由多個副本來保證容錯，塊的大小和複製因子可以自行配置（預設情況下，塊大小是128M，預設複製因子是3）。

2.4 資料複製的實現原理

大型的HDFS例項在通常分佈在多個機架的多臺伺服器上，不同機架上的兩臺伺服器之間通過交換機進行通訊。在大多數情況下，同一機架中的伺服器間的網路頻寬大於不同機架中的伺服器之間的頻寬。因此HDFS採用機架感知副本放置策略，對於常見情況，當複製因子為3時，HDFS的放置策略是：

在寫入程式位於datanode

上時，就優先將寫入檔案的一個副本放置在該datanode上，否則放在隨機datanode上。之後在另一個遠端機架上的任意一個節點上放置另一個副本，並在該機架上的另一個節點上放置最後一個副本。此策略可以減少機架間的寫入流量，從而提高寫入效能。

如果複製因子大於3，則隨機確定第4個和之後副本的放置位置，同時保持每個機架的副本數量低於上限，上限值通常為（複製係數 - 1）/機架數量 + 2，需要注意的是不允許同一個dataNode上具有同一個塊的多個副本。

2.5 副本的選擇

為了最大限度地減少頻寬消耗和讀取延遲，HDFS在執行讀取請求時，優先讀取距離讀取器最近的副本。如果在與讀取器節點相同的機架上存在副本，則優先選擇該副本。如果HDFS群集跨越多個數據中心，則優先選擇本地資料中心上的副本。

2.6 架構的穩定性

1. 心跳機制和重新複製

每個DataNode定期向NameNode傳送心跳訊息，如果超過指定時間沒有收到心跳訊息，則將DataNode標記為死亡。NameNode不會將任何新的IO請求轉發給標記為死亡的DataNode，也不會再使用這些DataNode上的資料。由於資料不再可用，可能會導致某些塊的複製因子小於其指定值，NameNode會跟蹤這些塊，並在必要的時候進行重新複製。

2. 資料的完整性

由於儲存裝置故障等原因，儲存在DataNode上的資料塊也會發生損壞。為了避免讀取到已經損壞的資料而導致錯誤，HDFS提供了資料完整性校驗機制來保證資料的完整性，具體操作如下：

當客戶端建立HDFS檔案時，它會計算檔案的每個塊的校驗和，並將校驗和儲存在同一HDFS名稱空間下的單獨的隱藏檔案中。當客戶端檢索檔案內容時，它會驗證從每個DataNode接收的資料是否與儲存在關聯校驗和檔案中的校驗和匹配。如果匹配失敗，則證明資料已經損壞，此時客戶端會選擇從其他DataNode獲取該塊的其他可用副本。

3.元資料的磁碟故障

FsImage和EditLog是HDFS的核心資料，這些資料的意外丟失可能會導致整個HDFS服務不可用。為了避免這個問題，可以配置NameNode使其支援FsImage和EditLog多副本同步，這樣FsImage或EditLog的任何改變都會引起每個副本FsImage和EditLog的同步更新。

4.支援快照

快照支援在特定時刻儲存資料副本，在資料意外損壞時，可以通過回滾操作恢復到健康的資料狀態。

三、HDFS 的特點

3.1 高容錯

由於HDFS 採用資料的多副本方案，所以部分硬體的損壞不會導致全部資料的丟失。

3.2 高吞吐量

HDFS設計的重點是支援高吞吐量的資料訪問，而不是低延遲的資料訪問。

3.3 大檔案支援

HDFS適合於大檔案的儲存，文件的大小應該是是GB到TB級別的。

3.3 簡單一致性模型

HDFS更適合於一次寫入多次讀取(write-once-read-many)的訪問模型。支援將內容追加到檔案末尾，但不支援資料的隨機訪問，不能從檔案任意位置新增資料。

3.4 跨平臺移植性

HDFS具有良好的跨平臺移植性，這使得其他大資料計算框架都將其作為資料持久化儲存的首選方案。

附：圖解HDFS儲存原理

說明：以下圖片引用自部落格：翻譯經典 HDFS 原理講解漫畫

1. HDFS寫資料原理

2. HDFS讀資料原理

3. HDFS故障型別和其檢測方法

第二部分：讀寫故障的處理

第三部分：DataNode故障處理

副本佈局策略：

參考資料

Apache Hadoop 2.9.2 > HDFS Architecture
Tom White . hadoop權威指南 [M] . 清華大學出版社 . 2017.
翻譯經典 HDFS 原理講解漫畫

更多大資料系列文章可以參見個人 GitHub 開源專案：大資料入門指南

相關推薦

Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFS

一、介紹二、HDFS 設計原理     2.1 HDFS 架構     2.2 檔案系統名稱空間     2.3 資料複製     2.4 資料複製的實現原理     2.5 副本的選擇     2.6 架構的穩定性三、HDFS 的特點附：圖解HDFS儲存原理     1. HDFS寫資料原理

必須掌握的分散式檔案儲存系統—HDFS

HDFS（Hadoop Distributed File System）分散式檔案儲存系統，主要為各類分散式計算框架如Spark、MapReduce等提供海量資料儲存服務，同時HBase、Hive底層儲存也依賴於HDFS。HDFS提供一個統一的抽象目錄樹，客戶端可通過路徑來訪問檔案，如hdfs://namen

HDFS（分散式檔案儲存系統）

一、HDFS命令列客戶端的常用操作命令（1）start-dfs.sh ：自動啟動整個叢集 stop-dfs.sh ：自動停止整個叢集（2）上傳檔案到hdfs中： hadoop fs -pu

深入淺出分散式檔案儲存系統之 Ceph 的實現

一、何為分散式檔案檔案系統       分散式檔案系統（Distributed File System）是指檔案系統管理的物理儲存資源不一定直接連線在本地節點上，而是通過計算機網路與節點相連，它的設計是基於客戶端/伺服器模式。 &n

Hadoop檔案儲存系統-HDFS詳解以及java程式設計實現

前言         這是關於Hadoop的系列文章。背景         我們在本系列的第一篇文章的時候就談到過，面對海量資料，我們最為缺乏的就是對大資料量的儲存能力以及處理能力。而這兩種能力在Hadoop的體現分別就是HDFS以及map-redu

分散式檔案儲存系統技術及實現

本課程針對分步式檔案儲存系統的實現進行講解，首先分析為什麼要使用這種分步式儲存系統，以及這種系統在設計時需要注意的問題，並比較現在市面常見的分步式儲存系統（HDFS、Ceph等），展示阿里Pangu系統針對其中問題的解決方法，並結合Pangu系統說明分步式儲存系統的設計要點。開始學習：分散式檔

Django專案之FastDFS檔案儲存系統

0. 使用Docker安裝FastDFS 1. FastDFS的Python客戶端安裝安裝fdfs_client-py-master.zip到虛擬環境中 pip install fdfs_client-py-master.zip pip install

搭建FastDFS分散式檔案儲存系統教程

轉載來源：https://github.com/happyfish100/fastdfs/wiki 搭建FastDFS分散式檔案儲存系統教程環境準備使用的系統軟體名稱說明

基於記憶體的分散式檔案儲存系統Alluxio

如果是隻有欄位快取的話，redis應該是夠用了。但是如果涉及到大量檔案，尤其是用hdfs作為底層儲存結構的，建議用alluxio升級一下。一方面有利於spark資源控制，另一方面也可以統一入口便於擴充套件。 1 叢集規劃三臺伺服器hadoop-ma

創業公司如何構建一個分散式檔案儲存系統

有時候初創企業需要快速搭建一個檔案儲存平臺，滿足企業內專案的圖片、視訊、文字等檔案的儲存；並且即使在讀寫檔案的時候，磁碟壞了、伺服器宕機了、交換機壞了、機櫃掉電了甚至機房掛了，使用者還能正常訪問。你同時可能希望公司業務快速增長後，訪問量猛增的時候能夠儘量少的或者不開發程式碼

大資料筆記之分散式檔案系統HDFS筆記一

分散式檔案系統就是把檔案分佈儲存到多個計算機節點上，成千上萬的計算機節點構成計算機叢集。這些節點分為兩類。一類叫做“主節點”(Master Node)，也叫做“名稱節點”(Name Node) 另一

大資料筆記之分散式檔案系統HDFS筆記二

1. 通訊協議 HDFS是一個部署在叢集上的分散式檔案系統，因此，很多資料需要通過網路進行傳輸，所有的HDFS通訊協議都是構建在TCP/IP協議基礎之上的，客戶端通過一個可配置的埠向名稱節點主動

大資料儲存之分散式檔案系統（一）

1.Google檔案系統（GFS）使用一堆廉價的商用計算機支撐大規模資料處理。 GFSClient：應用程式的訪問介面 Master（主控伺服器）：管理節點，在邏輯上只有一個（還有一臺“影子伺服器“，在主控伺服器失效時提供元資料，但並不是完整的熱備伺服器），儲

HDFS二.HDFS實現分散式檔案儲存---體系結構

單擊模式（Standalone）：單機模式是Hadoop的預設模式。當首次解壓Hadoop的原始碼包時，Hadoop無法瞭解硬體安裝環境，便保守地選擇了最小配置。在這種預設模式下所有3個XML檔案均為空。當配置檔案為空時，Hadoop會完全執行在本地。因為不需要與其他節點互動，單機模式就不使用HDFS，也

隨行付微服務之分散式檔案系統

背景傳統Web應用中所有的功能部署在一起，圖片、檔案也在一臺伺服器；應用微服務架構後，服務之間的圖片共享通過FTP+Nginx靜態資源的方式進行訪問，檔案共享通過nfs磁碟掛載的方式進行訪問，無論是單體架構還是微服務架構下的應用都存在大量圖片、檔案讀寫操作，但是昂貴的磁碟空間、高效能伺服器無疑增加了運營成

微服務之分散式檔案系統

背景傳統Web應用中所有的功能部署在一起，圖片、檔案也在一臺伺服器；應用微服務架構後，服務之間的圖片共享通過FTP+Nginx靜態資源的方式進行訪問，檔案共享通過nfs磁碟掛載的方式進行訪問，無論是單體架構還是微服務架構下的應用都存在大量圖片、檔案讀寫操作，但是昂貴的磁碟空間、高效能伺

分散式儲存系統HDFS（特詳細）

Hadoop基礎 Hadoop核心元件 1.分散式儲存系統HDFS(Hadoop Distributed File System)分散式儲存層 2.資源管理系統YARN(Yet Another Re

三、Hadoop的架構：存儲層(Hadoop分布式文件系統) HDFS

失效主動計算機聯網分布式文件系統 eight alt 部分計算存儲層(Hadoop分布式文件系統) HDFS一、分布式文件系統　　多臺計算機聯網協同工作(有時也稱為一個集群)就像單臺系統一樣解決某種問題，這樣的系統我們稱之為分布式系統。　　分布式文件系統是分布式

【2018中國計算機大會】阿里雲高階總監談超大規模超高效能分散式快儲存系統

新型硬體（如NVRAM、RDMA、GPU/TPU等）及其構建的異構複雜環境，與既有硬體環境的巨大差異，導致傳統的演算法、資料結構甚至是涉及原則和經驗法則等難以為繼，對計算智慧與大資料處理帶來新的挑戰和機遇。 10月27日下午，2018中國計算機大會上舉辦了主題“新型硬體環境下大資料處理技術”的技術論壇，一起

阿里雲高階總監談超大規模超高效能分散式快儲存系統

摘要： 10月27日下午，2018中國計算機大會上舉辦了主題“新型硬體環境下大資料處理技術”的技術論壇，一起探討新型硬體帶來的變化。論壇上，阿里雲高階總監馬濤針對超大規模超高效能分散式塊儲存系統ESSD進行了報告分析。新型硬體（如NVRAM、RDMA、GPU/TPU等）及其構建的異構複雜環境，與既有硬體環