大數據生態之 ——HDFS

阿新 • • 發佈：2018-12-16

data 路徑負責 -- http datanode time img ali

大數據生態之-----HDFS

HDFS工作機制

客戶端上傳文件時，一方面由datanode存儲文件內容，另一方面有namenode負責管理block信息（切塊大小，副本數量，位於datanode上的位置信息）

一丶namenode的工作職責：

記錄元數據

a) 文件的路徑

b) 文件的副本數量

c) 文件切塊大小

d) block塊信息

e) block塊的位置信息

2. 響應客戶端請求

3. 平衡datanode上block文件塊的存儲負載

datanode啟動後會向namenode匯報自身所持有的block文件塊的相關信息，客戶端上傳文件時，namenode會優先分配剩余空間較多的datanode

供客戶端使用。當有新的datanode節點加入集群時，namenode也會通知舊的datanode節點轉移自身一部分block塊到新的datanode上

二丶namenode元數據管理機制：

技術分享圖片

namenode上完整的元數據存儲在內存中
內存中的元數據也會序列化到磁盤上生成fsimage文件，整個生命周期中只序列化一次
namenode會對引起元數據變化的客戶端操作進行日誌記錄
secondarynamenode定期從namenode上下載編號較新的日誌，將fsimage反序列化以後和解析的日誌進行合並，合並完成後生成一個新的fsimage並上傳到namenode上覆蓋掉原來的fsimage

文件
這樣就保證了namenode上的fsimage文件一直處於一個較新的狀態，而且namenode上的日誌文件數量也處於一個可控範圍之內。

三丶datanode的工作職責

1．接收客戶端上傳的block塊

2．幫助客戶端獲取指定的block塊

3．定期向namenode匯報自身所持有的block信息

四丶文件讀寫流程

4.1寫文件流程

技術分享圖片

客戶端向namenode發送文件上傳請求（攜帶文件名和路徑信息）
namenode接收到客戶端請求以後會從查詢元數據中進行查詢
如果文件不存在namenode會向客戶端返回允許上傳響應
客戶端接收到namenode允許上傳響應後會發送上傳的

block塊信息，比如需要上傳一個block，存儲3個副本
namenode接收到請求以後會從集群中隨機挑選三臺可用的datanode並其地址將blockid一起發送給client
客戶端接收到namenode響應後會選取最近的那臺datanode發送block塊上傳請求和存儲該block塊的三臺datanode的地址信息
第一臺datanode接收到請求以後會向第二臺datanode發送建立block傳輸pipeline請求，第二臺datanode會向第三臺datanode發送建立block傳輸pipeline請求
第三臺datanode準備完畢後會向第二臺datanode發送準備就緒響應，第二臺datanode準備完畢後會向第一臺datanode發送準備就緒響應，此時三臺datanode都以做好準備等待接收block塊，第一臺datanode會向客戶端發送允許上傳響應
客戶端接收到datanode發送的允許上傳響應後會利用FileInputStream讀取文件並利用SocketOuputStream將文件發送給第一臺datanode，該datanode使用SocketInputStream接收數據的同時會通過block pipeline將數據發送到下一臺datanode上，三臺datanode幾乎會同時完成block的接收工作。
後續block塊的發送重復4-9步驟

4.2讀文件流程

技術分享圖片

Client向name發送文件下載請求(含文件名和HDFS上存儲的路徑信息)
namenode從元數據中進行查找並將block所在的datanode地址響應給Client
客戶端接收到block塊位置信息後，會選擇距離最近的datanode發送block讀取請求，
datanode接收到client發送的block讀取請求以後會將數據發送給client

client接收到datanode發送的數據以後會存儲到本地磁盤並繼續請求下一個block塊並根據偏移量與第一塊接收到的block塊文件進行合並，最終獲取完整文件。

大數據生態之 ——HDFS

data 路徑負責 -- http datanode time img ali 大數據生態之-----HDFS HDFS工作機制客戶端上傳文件時，一方面由datanode存儲文件內容，另一方面有namenode負責管理block信息（切塊大小，副本數量，位於datano

大數據生態之zookeeper（API）

監聽信息 zookeepe delete byte pat path upd try 在使用maven項目編寫zookeeper程序時導入相關的jar包： <dependency> <groupId>org.

大數據學習之HDFS基本命令操作05

bsp 客戶 .html 命令行試用 get 當前目錄 pan 剪切 1）hdfs的客戶端 1.網頁形式->測試用 http://192.168.40.11:50070/dfshealth.html#tab-overview 2.命令行形式->測試用

從0到1構建大數據生態系列1：數據蠻荒中的拓荒之舉

市場需求 ont 應用 load 工作網站做事做到實施緣起我們都知道，當前大數據的需求基本屬於遍地開花。無論是帝都、魔都，還是廣州、深圳，亦或是全國其他各地，都在搞大數據；不管是不到百人的微小公司，還是幾百上千人的中型公司，亦或是上萬的大型公司，都在需求

大數據學習之五——HDFS常用命令

dfs 放置 shell. 下載文件參數 linux系統文件的 com HDFS文件操作常用命令：（1）列出HDFS下的文件 hadoop dfs -ls <目錄> （2）上傳文件將Linux系統本地文件上傳到HDFS中 hadoop d

大數據基礎之如何導出jar包並放在hdfs上執行

img 基本 ces 環境大數據基礎 process pro java oop 我口才不好，文字描述也不行，但是基本邏輯是通的。導出jar包1.首先完成mapper和reducer還有main方法的編碼2。右鍵點擊peopleinfo的包，選擇export-》Java-

大數據江湖之即席查詢與分析（下篇）--手把手教你搭建即席查詢與分析Demo

dmi 安裝centos 用戶 author sla repo 相關中文 plugin 上篇小弟分享了幾個“即席查詢與分析”的典型案例，引起了不少共鳴，好多小夥伴迫不及待地追問我們：說好的“手把手教你搭建即席查詢與分析Demo”啥時候能出？說到就得做到，差啥不能差

【大數據系列】HDFS文件權限和安全模式、安裝

重新啟動 inux 客戶元數據 masters cnblogs 格式新的檢測 HDFS文件權限 1、與linux文件權限類型 r:read w:write x:execute權限x對於文件忽略，對於文件夾表示是否允許訪問其內容 2、如果linux系統用戶sanglp

大數據系列之Hadoop框架

apr png 關系型 big sqoop ted 服務器定制操作 Hadoop框架中，有很多優秀的工具，幫助我們解決工作中的問題。 Hadoop的位置從上圖可以看出，越往右，實時性越高，越往上，涉及到算法等越多。越往上，越往右就越火…… Hadoop框架中一

大數據學習之Scala中main函數的分析以及基本規則（2）

語言 python rgs 數字 popu 結束圖片區別返回一、main函數的分析首先來看我們在上一節最後看到的這個程序，我們先來簡單的分析一下。有助於後面的學習 object HelloScala { def main(args:

Spark快速大數據分析之RDD基礎

數學 ref 內存相關應用級別要求分數 png Spark 中的RDD 就是一個不可變的分布式對象集合。每個RDD 都被分為多個分區，這些分區運行在集群中的不同節點上。RDD 可以包含Python、Java、Scala中任意類型的對象，甚至可以包含用

大數據學習之Linux環境搭建（導航）

vmw href 。。人的 com linu 過程 htm next 環境搭建過程網上有挺多，我只是站在巨人的肩膀上。更多是對自己的搭建環境過程中的一個記錄。首先是VMware軟件的安裝，沒什麽說的，一直“下一步”就好了，虛擬機下安裝Linux系統也比較簡單，不贅述。

小白學習大數據測試之揭秘大數據的背景與發展

掌握數據倉庫金融行業後端 highlight 就是 sof ack 職業大數據是個神馬鬼根據麥肯錫全球研究所給出的定義是：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值

小白學習大數據測試之hadoop初探

itl atan 運行 -o dfs 應用一起 ext testing Hadoop的歷史這裏就不多說了，網上很多資料，總而言之對於hadoop谷歌和雅虎對於ta的貢獻功不可沒。更多介紹請自行查看這裏：https://baike.baidu.com/item/Hadoop

小白學習大數據測試之hadoop再次探索

pan red 系統 ini 多說自動 hdfs ide style 引子雖然通過《小白學習大數據測試之hadoop初探》以及把hadoop的基本核心說明白了，但是似乎對於小白來說還是會有點懵逼。。。。那麽這次我們就在來看看大數據粗暴理解大數據甭管什麽，簡單粗暴的理解為大

一個介紹 superset Kylin 以及大數據生態圈的博文

fault http .html creat org 大數 post com -c superSet http://superset.apache.org/installation.htmlhttps://segmentfault.com/a/11900000050839

大數據學習之六——Hadoop I/O

管理完整檢測適合 img 復數節點數據設計大文件 Hadoop IO的操作意義：基於海量數據集的完整性和壓縮性，Hadoop提供了用於分布式系統的API，包括序列化操作以及底層的數據結構。 1.HDFS數據完整性目的：保證用戶在存儲和處理數據時，數據不會

大數據學習之九——Combiner,Partitioner,shuffle和MapReduce排序分組

pareto 聚合文件 ner 數據傳輸定義排序 str ack 獲取數據 1.Combiner Combiner是MapReduce的一種優化手段。每一個map都可能會產生大量的本地輸出，Combiner的作用就是對map端的輸出先做一次合並，以減少map和reduc

大數據學習之十二——MapReduce代碼實例：關聯性操作

reducer equal 學習 obj actor 對應關系關系 exceptio ted 1.單表關聯 "單表關聯"要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。實例描述給出child-parent（孩子——父母）表，要求輸出grandchil

Druid 大數據分析之快速應用（單機模式）

uid druid 控制臺 config html static 數據存儲指定時間 get 1、概述本節快速安裝基於單機服務器，很多配置可以默認不需要修改，數據存儲在操作系統級別的磁盤。推出快速安裝的目的，便於了解並指導基於Druid進行大數據分析的開發流程。

大數據生態之 ——HDFS

大數據生態之-----HDFS

HDFS工作機制

一丶namenode的工作職責：

二丶namenode元數據管理機制：

三丶datanode的工作職責

四丶文件讀寫流程

4.1寫文件流程

4.2讀文件流程

相關推薦