Hadoop系列-HDFS基礎

阿新 • • 發佈：2019-03-28

last 磁盤文件工業 gis 組織 desktop 和數限制 ado

基本原理

HDFS（Hadoop Distributed File System）是Hadoop的一個基礎的分布式文件系統，這個分布式的概念主要體現在兩個地方：
- 數據分塊存儲在多臺主機
- 數據塊采取冗余存儲的方式提高數據的可用性
針對於以上的分布式存儲概念，HDFS采用了master/slave的主從結構來構建整個存儲系統。之所以可以通過分散的機器組成一個整體式的系統，這其中機器之間的相互通訊必不可少。對於一個程序在不同機器上的通訊，主要是通過遠程系統調用RPC（remote procedure call）實現，不同的語言有不同的實現方式，而HDFS是運行於JVM基礎上的，那麽這裏的通訊就是指不同機器的JVM進程之間的通訊。當然，底層的網絡通訊主要是socket協議，在實際的工業場景中使用對socket進一步封裝的netty實現。接下來，進一步針對數據塊、namenode、datanode等進行說明。

數據塊

每個計算機的磁盤都有一個默認的數據塊（block）大小，這是進行數據讀寫的最小單位，文件系統通過管理磁盤上的數據塊來管理文件。HDFS的block默認大小為128MB，但是於一般單一的磁盤文件系統不同的是，HDFS中小於一個塊大小的文件不會占用整個block空間。例如：一個大小為1MB的文件存儲在HDFS中時，在默認數據塊是128MB的情況下還是只占用1MB，而不是128MB。決定數據傳輸速度的因素主要是磁盤驅動器的傳輸速率和文件尋址效率，如果數據塊設置的足夠大，那麽文件尋址的效率就會變高，但也不是無限大，具體block的大小還需要根據具體的業務邏輯進行考慮。對文件進行塊抽象的一個明顯優點就是文件的大小不受限於任何一臺單獨的主機的磁盤容量限制，也就使得HDFS更適合數據量比較大的大數據場景。
namenode

整個HDFS集群有管理節點（namenode）和工作節點（datanode）。namenode主要維持兩層關系：
- 第一層：整個集群的目錄樹結構以及文件的數據塊列表；
- 第二層：數據塊與各個datanode的映射關系，也包括datanode的一些主機名、磁盤大小等數據。
  
  上圖展示了namenode維持的兩層關系，為了使客戶端訪問的速度最快，以上的信息會保存在namenode主機的內存中。對於在內存中保存的數據，在斷電後就會消失，這顯然是不允許的，因此以上信息除了在內存中保存之外還需要在硬盤中保存一份，具體在硬盤中的保存形式為：
  - 命名空間鏡像文件（FSImage）：某一時刻內存元數據的真實組織情況
  - 編輯日誌文件（EditsLog）：該時刻後所有元數據的改動信息
secondarynamenode

secondarynamenode主要是不定時的觀察EditsLog、FSImage的情況，超過一定的閾值情況下對EditsLog和FSImage進行合並，形成新的FSImage文件。這樣可以盡量減少namenode本身的負載。
datanode

datanode是主要的數據存儲節點，這其中涉及了datanode與namenode的通訊情況。

技術分享圖片

register：將datanode所在主機的信息（如主機名、內存、硬盤）告訴namenode，nemenode通過check相應的信息允許其稱為集群中的一員；
block report：傳輸block信息給namenode，便於namenode可以維護數據塊和數據節點之間的映射關系；
send heartbeat：
- 通過心跳機制保持與namenode的聯系更新存儲容量等信息
- 執行namenode通過heartbeat傳輸來的指令

federation

上文提到，namenode為了盡可能的使客戶端的訪問效率變高，會將所有的文件系統和數據塊的引用信息保存在內存中，如果集群存儲的文件量足夠多，namenode內存的大小將限制集群的整個性能和可擴展能力。為此，在hadoop2.x中引入了federation機制，通過添加namenode實現擴展。

federation環境下，每隔namenode維護一個命名空間卷（namespace volume）由命名空間的元數據和數據塊池組成，命名空間之間相互獨立，互不通信。在這種情況下datanode被用作通用的數據存儲設備，每個datanode要向集群中所有的namenode註冊，且周期性的向所有namenode發送心跳和報告，並執行來自所有namenode的命令。但是，每個namenode只管理各自的block信息，如果一個namenode掛掉，雖然不會影響到其他的namenode，但是這個namenode管理的數據就不可訪問，還是會存在SPOF（single point of failure，即單點故障問題）。

　　　　以上主要是個人對HDFS的一些基本概念的初步理解，如有錯誤還請各位大大們指正。

Hadoop系列-HDFS基礎

last 磁盤文件工業 gis 組織 desktop 和數限制 ado 基本原理 HDFS（Hadoop Distributed File System）是Hadoop的一個基礎的分布式文件系統，這個分布式的概念主要體現在兩個地方：數據分塊存儲在多

Hadoop系列-HDFS HA高可用叢集

前言：在HDFS叢集的時候我們知道，NameNode只有一個，如果現在NameNode掛掉了，或者NameNode需要硬體或者軟體的升級，那麼勢必就有單點問題。那麼HDFS HA就是來解決這個問題

【Hadoop系列】HDFS

現在 conda 適合產生理解並行處理 rip 意見雲端 Hadoop的前世今生什麽是大數據各行各業都會產生大量的數據，比如社交網站的意見觀點，電商平臺人們瀏覽網頁停留的時間，交通運輸每天產生的數據等等。這些數據大多不是結構化的，一般來說都是半結構化或者非結構化

Hadoop HDFS 基礎使用

進程管理計算公式 process 最重要的 lists 大數據空間 art 目錄 1、HDFS 前言 ...................................................................................

hadoop hdfs基礎命令

Hadopp hdfs元件基礎命令首行預設 hadoop fs 選項名稱使用格式含義 -ls -ls <路徑> 檢視指定路徑的當前目錄結構

Hadoop系列007-HDFS客戶端操作

title: Hadoop系列007-HDFS客戶端操作 date: 2018-12-6 15:52:55 updated: 2018-12-6 15:52:55 categories: Hadoop tags: [Hadoop,HDFS,HDFS客戶端] 本人微信公眾號，歡迎掃碼關注！

Hadoop系列006-HDFS概念及命令列操作

本人微信公眾號，歡迎掃碼關注！ HDFS概念及命令列操作一、HDFS概念 1.1 概念 HDFS，它是一個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是分散式的，由很多伺服器聯合起來實現其功能，叢集中的伺服器有各自的角色。 HDFS的設計適合一次寫入，多次讀出的場景，且不支

Hadoop之HDFS常用操作練習（基礎）

內容整理於筆記叢集規劃： ☛Hadoop的高可用完全分佈模式中有HDFS的主節點和資料節點、MapReduce的主節點和任務節點、資料同步通訊節點、主節點切換控制節點總共6類服務節點，其中 HDFS的主節點、MapReduce的主節點、主節點切換控制節

hadoop--hdfs基礎功能實現

package hadoop; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.net.URI; import java.ne

Hadoop系列之-HDFS

HDFS HDFS是Hadoop整體架構的底層儲存系統，從資料結構上來說，它適合儲存半結構化、非結構化、多維的資料，如果實時性要求不高，那麼它也可儲存關係性很強資料的資料。從資料量來說，它的分散式體系和容錯機制可容納

Hadoop系列008-HDFS的資料流

本人微信公眾號，歡迎掃碼關注！ HDFS的資料流 1 HDFS寫資料流程 1.1 剖析檔案寫入 1）客戶端向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。 2）namenode返回是否可以上傳。 3）客戶端請求第一個 block上傳到哪幾個

Hadoop學習筆記—2.不怕故障的海量儲存：HDFS基礎入門

一.HDFS出現的背景　　隨著社會的進步，需要處理資料量越來越多，在一個作業系統管轄的範圍存不下了，那麼就分配到更多的作業系統管理的磁碟中，但是卻不方便管理和維護—>因此，迫切需要一種系統來管理多臺機器上的檔案，於是就產生了分散式檔案管理系統，英文名成為DFS（Distributed File Sy

hadoop系列之HDFS 原理與實戰

HDFS檔案系統 HDFS簡介 HDFS 是 Hadoop Distributed File System 的簡稱，即 Hadoop 分散式檔案系統。它起源於谷歌發表的 GFS 論文，是該論文的開源實現，也是整個大資料的基礎。 HDFS 專門為解決大資料的儲存問題而產生

1-5.將Hadoop新增到環境變數，初始化HDFS,啟動Hadoop，測試hdfs（Hadoop系列day01）

>>將Hadoop新增到環境變數 1. [[email protected] Hadoop]# vim /etc/profile 2. #開啟這個檔案之後，在檔案末尾新增以下程式碼（上次配置的JDK也在下方寫了出來） export

Hadoop系列二：啟動HDFS和YARN過程日誌

以下記錄為啟動HDFS和YARN環境時的過程中的中間過程輸出，節點註冊和 HDFS檔案系統的資料變化日誌等。 (1)執行HDFS檔案系統格式化 [[email protected] hadoop]$ $HADOOP_PREFIX/bin/hdfs name

海牛 Hadoop 系列教程（一）：伺服器基礎環境

3. 用rz命令將CentOS-Base.repo檔案上傳檔案到當前使用者的home目錄"~"4. 將上傳完成的CentOS-Base.repo檔案移動到/etc/yum.repos.d/目錄mv ~/CentOS-Base.repo /etc/yum.repos.d/5. 刪除以前yum配置下的所有快取資料

Hadoop入門系列（一）Window環境下搭建hadoop和hdfs的基本操作

1.去官網下載hadoop。1>選擇映象網站，選清華的映象的網站。2>找個自己喜歡版本的hadoop，下載好將壓縮包解壓。 2.找對應版本的winutil。因為hadoop主要基於linux編寫，這個winutil.exe主要用於模擬linux下的目錄環境。因此h

Hadoop 系列（一）—— 分散式檔案系統 HDFS

一、介紹 HDFS （Hadoop Distributed File System）是 Hadoop 下的分散式檔案系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬體上。二、HDFS 設計原理 2.1 HDFS 架構 HDFS 遵循主/從架構，由單個 NameNode(NN) 和多個 Data

Hadoop 系列（七）—— HDFS Java API

一、簡介想要使用 HDFS API，需要匯入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址： <?xml version="1.0" encoding="UTF-8"?> <project xmln

hadoop系列三:mapreduce的使用

count 明顯 blank api park size 當前 java mapreduce 轉載請在頁首明顯處註明作者與出處一：說明此為大數據系列的一些博文，有空的話會陸續更新，包含大數據的一些內容，如hadoop,spark,storm,機器學習等。

Hadoop系列-HDFS基礎

相關推薦