HDFS架構原理分析

阿新 • • 發佈：2019-01-30

HDFS優點：

高容錯性	數據自動儲存多個副本副本丟失後，自動恢復
適合批處理	移動計算而非資料資料位置暴露給計算框架
適合大資料處理	GB、TB、甚至PB級別資料百萬規模以上的檔案數量 10K+節點
可構建在廉價機器上	可構建在廉價機器上

HDFS缺點：

低延遲資料訪問

比如毫秒級

低延遲與高吞吐率

小檔案存取

佔用NameNode大量記憶體

尋道時間超過讀取時間

併發寫入、檔案隨機修改

一個檔案只能有一個寫者

僅支援append

HDFS架構：

HDFS架構圖

主節點：NameNode

從節點：DataNode

Secondary NameNode節點：輔助NameNode完成一些工作。

HDFS資料儲存單元(black)：

- 檔案被切分成固定大小的資料塊

預設資料塊大小為64MB（hadoop1.x），可配置

若檔案大小不到64MB，則單獨存成一個block

- 一個檔案儲存方式

按大小被切分成若干個block，儲存到不同節點上

預設情況下每個block都有三個副本

- Block大小和副本數通過Client端上傳檔案時設定，檔案上傳成功後副本數可以變更，Block Size不可變更。

HDFS設計思想

NameNode(NN):

- NameNode主要功能：接受客戶端的讀寫服務

- NameNode儲存metaData資訊，包括：

檔案owership和permissions

檔案包含哪些Block

Block儲存在哪個DataNode（由DataNode啟動時上報）

- NameNode的medadata資訊在啟動後會載入到記憶體

metadata儲存到磁碟檔名為"fsimage"

Block的位置資訊不會儲存到fsimage(其是儲存在記憶體中)

edits記錄對medadata的操作日誌

SecondNameNode(SNN):

- 它不是NN的備份（但可以備份），它的主要工作是幫助NN合併edits log，減少NN啟動時間。

- SNN執行合併時機

根據配置檔案設定的時間間隔fs.checkpoint.period 預設為3600秒

根據配置檔案設定edits log大小fs.checkpoing.size規定edits檔案的最大值預設是64MB

SNN合併流程

DataNode(DN)：

- 儲存資料(Block)

- 啟動DN執行緒的時候會向NN彙報block資訊

- 通過向NN傳送心跳保持與其聯絡(3秒一次)，如果NN 10分鐘沒有收到DN的心跳，則認為其已經lost，並copy其上的block到其他 DN

HDFS寫入流程：

HDFS寫入流程圖

HDFS讀流程：

HDFS讀流程圖

HDFS檔案許可權：

- 與Linux檔案許可權類似

r:read, w:write, x:execute,許可權x對於檔案忽略，對於資料夾表示是否允許訪問其內容

- 如果Linux系統使用者zhangsan使用hadoop命令建立一個檔案，那麼這個檔案在HDFS中owner就只zhangsan

HDFS安全模式：

- NameNode啟動的時候，首先將fsimage載入記憶體，並執行編輯日誌(edits)中的各項操作。

- 一旦在記憶體中成功建立檔案系統元資料的對映，則建立一個新的fsimage檔案(這個操作不需要SecondaryNameNode)和一個空的編輯日誌。

- 此刻NameNode執行在安全模式。即NameNode的檔案系統對於客戶端來說是隻讀的。

- 在此階段NameNode收集各個DataNode的報告，當資料塊到最小副本數以上時，會被認為是安全的，在一定比例(可設定)的資料塊被確定為安全後，再過若干時間，安全模式結束。

- 當檢測到副本數不足的資料塊，該塊會被複制達到最小副本數，系統中資料塊的位置並不是由NameNode維護的，而是以塊列表形式儲存在DataNode中。

HDFS架構原理分析

HDFS優點：高容錯性數據自動儲存多個副本副本丟失後，自動恢復適合批處理移動計算而非資料資料位置暴露給計算框架適合大資料處理 GB、TB、甚至PB級別資料百萬規模以上的檔案數

Spring MVC架構—原理分析

一、原理分析圖：二、步驟說明：第一步：發起請求到前端控制器Dispatcher 第二步：前端控制器請求HandlerMapping查詢Handler 第三步：處理器對映器向前端控制器返回Handler 第四部：前端控制器呼叫處理器介面卡執行Handler 第五

storm入門簡介、架構原理分析

一、 Storm簡介 Storm是由Nathan Marz開發的，一個免費並開源的分散式實時計算系統。 Storm是基於資料流的實時處理系統，提供了大吞吐量的實時計算能力。通過資料入口獲取每條到來的資料，在一條資料到達系統的時候，立即會在記憶體中進行相應的計

Android官方架構組件:Lifecycle詳解&迪士尼彩樂園網站架設原理分析

ner 觀察者 and 順序觸發組件 oncreate mcr save 我們先將重要的這些類挑選出來： LifecycleObserver接口（ Lifecycle觀察者）：實現該接口的類，通過註解的方式，可以通過被LifecycleOwner類的addObserve

Android官方架構組件:Lifecycle詳解&迪士尼彩樂園定制開發原理分析

npr save this end ons 關於直接能夠封裝 Lifecycle 是一個類，它持有關於組件（如 Activity 或 Fragment）生命周期狀態的信息，並且允許其他對象觀察此狀態。我們只需要2步： 1、Prestener繼承LifecycleOb

Android官方架構組件:Lifecycle詳解&迪士尼彩樂園平臺搭建原理分析

基類客服 androi lifecycle 利用思想 pub 遇到原理在過去的谷歌IO大會上，Google官方向我們推出了 Android Architecture Components,其中談到Android組件處理生命周期的問題，向我們介紹了 Handling

Dubbo 原始碼分析系列之三 —— 架構原理

1 核心功能首先要了解Dubbo提供的三大核心功能： Remoting:遠端通訊提供對多種NIO框架抽象封裝，包括“同步轉非同步”和“請求-響應”模式的資訊交換方式。 Cluster: 服務框架提供基於介面方法的透明遠端過程呼叫，包括多協議支援，以及

Android Camera2架構及原理分析

請點選轉載地址前面幾篇主要分析的是android Camera API1.0的架構以及初始化流程，而google在android5.0(Lollipop)開始對Camera的架構進行了調整，為了適應HAL3，新新增實現了CameraDeviceClient，而Came

hadoop：hdfs架構及原理

HDFS簡介 HDFS:Hadoop Distributed File System(hadoop分散式檔案系統) 分散式，感覺好厲害的樣子啊，有網路檔案系統，有本地檔案系統，現在又多了一個分散式的檔案系統。之所以是要分散式，是資料要放到多個主機上面去。放的東西在叢集中，就

HDFS架構及原始碼分析

HDFS 本文主要介紹hadoop2.x版本，分析程式碼主要位於hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs/server下namenode、datanode與prot

微服務SpringCloud的核心架構及原理分析

需求分析： •龐大的業務要拆分為多個服務 •每個服務要獨立演進 •服務之間互相呼叫或通訊 •非功能性（高併發+高可用+高可擴充套件）需求強烈-億萬級使用者規模解決方案： •分散式服務治理-SpringCloud/Dubbo •微服務：平臺服務和應用服務的架構要分層並

分散式服務架構之Hessian原理分析(一)

使用HessianServiceExporter向外暴露服務，接收請求：HessianServiceExporter接收到請求後通過呼叫handleRequest的invoke進一步執行請求：在invo

官方HDFS架構設計原理說明(上)

玩了HDFS已經有好多年了，之前一直都是邊學邊用，直到現在才真正有時間記錄一下學到的知識O(∩_∩)O 1. 引言 HDFS全稱是Hadoop Distributed File System，Hadoop分散式檔案系統，顧名思義它是一個分散式的檔案系統，設計於執行在普通硬體

hadoop之HDFS、yarn、MapReduce執行原理分析

1、HDFS分散式儲存 namenode:統一管理檔案的元資料資訊 fsImage:儲存了檔案的基本資訊，如檔案路徑，檔案副本集個數，檔案塊的資訊，檔案所在的主機資訊。 editslog：

Hadoop 原理學習——HDFS 架構與工作原理

一、目標HDFS 全稱 hadoop 分散式檔案系統，其最主要的作用是作為 Hadoop 生態中各系統的儲存服務。面對大規模的資料，HDFS 在設計上滿足了以下目標：高度容錯性：HDFS 可能由成百上千的伺服器構成，任何一個元件都可能失效，因此錯誤檢測和快速、自動的恢復時 H

Apache Flink：特性、概念、元件棧、架構及原理分析

Apache Flink是一個面向分散式資料流處理和批量資料處理的開源計算平臺，它能夠基於同一個Flink執行時（Flink Runtime），提供支援流處理和批處理兩種型別應用的功能。現有的開源計算方案，會把流處理和批處理作為兩種不同的應用型別，因為他們它們所提供的SLA是完全不相同的：流處理一般需要支

dubbo原始碼解析五 --- 叢集容錯架構設計與原理分析

歡迎來我的 Star Followers 後期後繼續更新Dubbo別的文章下面是個人部落格地址，頁面比部落格園美觀一些其他都是一樣的目錄面試中叢集容錯的經常的問題 Dubbo 官方文件關於叢集容錯的介紹 Dubbo叢集容錯的架構分析 Dubbo叢集容錯原始碼解析面試中叢集容錯的經

SpringMVC架構的底層原理分析

SpringMVC的請求過程分析示意圖步驟如下：第一步：發起請求到前端控制器(DispatcherServlet) 第二步：前端控制器請求HandlerMapping（處理器對映器）查詢 Handler 可以根據xm

CDN架構以及原理分析

在不同地域的使用者訪問網站的響應速度存在差異,為了提高使用者訪問的響應速度、優化現有Internet中資訊的流動,需要在使用者和伺服器間加入中間層CDN. 使使用者能以最快的速度，從最接近使用者的地方獲得所需的資訊，徹底解決網路擁塞，提高響應速度，是目前大型網站使用的流行的應用方案. 1. CDN 概述

大資料(HDFS原理分析)

HDFS概述 HDFS是什麼？源自於Google的GFS論文

HDFS架構原理分析

相關推薦