分散式檔案系統HDFS簡介
Hadoop 分散式檔案系統 (HDFS) 是執行在通用硬體上的分散式檔案系統。HDFS 提供了一個高度容錯性和高吞吐量的海量資料儲存解決方案。HDFS 已經在各種大型線上服務和大型儲存系統中得到廣泛應用,已經成為各大網站等線上服務公司的海量儲存事實標準,多年來為網站客戶提供了可靠高效的服務。
隨著資訊系統的快速發展,海量的資訊需要可靠儲存的同時,還能被大量的使用者快速地訪問。傳統的儲存方案已經從構架上越來越難以適應近幾年來的資訊系統業務的飛速發展,成為了業務發展的瓶頸和障礙。
HDFS 通過一個高效的分散式演算法,將資料的訪問和儲存分佈在大量伺服器之中,在可靠地多備份儲存的同時還能將訪問分佈在叢集中的各個伺服器之上,是傳統儲存構架的一個顛覆性的發展。HDFS 可以提供以下特性:
• 可自我修復的分散式檔案儲存系統
• 高可擴充套件性,無需停機動態擴容
• 高可靠性,資料自動檢測和複製
• 高吞吐量訪問,消除訪問瓶頸
• 使用低成本儲存和伺服器構建
分散式檔案系統 HDFS 特性
高吞吐量訪問
HDFS 的每個資料塊分佈在不同機架的一組伺服器之上,在使用者訪問時,HDFS 將會計算使用網路最近的和訪問量最小的伺服器給使用者提供訪問。由於資料塊的每個複製拷貝都能提供給使用者訪問,而不是從單資料來源讀取,HDFS 對於單資料塊的訪問將是傳統儲存方案的數倍。
對於一個較大的檔案,HDFS 將檔案的不同部分存放於不同伺服器之上。在訪問大型檔案時,系統可以並行從伺服器陣列中的多個伺服器並行讀入,增加了大檔案讀入的訪問頻寬。
通過以上實現,HDFS 通過分散式計算的演算法,將資料訪問均攤到伺服器陣列中的每個伺服器的多個數據拷貝之上,單個硬碟或伺服器的吞吐量限制都可以數倍甚至數百倍的突破,提供了極高的資料吞吐量。
無縫容量擴充
HDFS 將檔案的資料塊分配資訊存放在NameNode 伺服器之上,檔案資料塊的資訊分佈地存放在 DataNode 伺服器上。當整個系統容量需要擴充時,只需要增加DataNode 的數量,系統會自動地實時將新的伺服器匹配進整體陣列之中。之後,檔案的分佈演算法會將資料塊搬遷到新的DataNode 之中,不需任何系統宕機維護或人工干預。通過以上實現,HDFS 可以做到在不停止服務的情況下實時地加入新的伺服器作為分散式檔案系統的容量升級,不需要人工干預檔案的重新分佈。
高度容錯
HDFS 檔案系統假設系統故障(伺服器、網路、儲存故障等)是常態,而不是異常。因此通過多方面保證資料的可靠性。資料在寫入時被複制多份,並且可以通過使用者自定義的複製策略分佈到物理位置不同的伺服器上;資料在讀寫時將自動進行資料的校驗,一旦發現數據校驗錯誤將重新進行復制;HDFS 系統在後臺自動連續的檢測資料的一致性,並維持資料的副本數量在指定的複製水平上。
http://storage.chinabyte.com/107/12416607.shtml
相關推薦
分散式檔案系統HDFS簡介
Hadoop 分散式檔案系統 (HDFS) 是執行在通用硬體上的分散式檔案系統。HDFS 提供了一個高度容錯性和高吞吐量的海量資料儲存解決方案。HDFS 已經在各種大型線上服務和大型儲存系統中得到廣泛應用,已經成為各大網站等線上服務公司的海量儲存事實標準,多年來為網站
Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性: 1 2.1.1. fastdfs是否可在
Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性: 1 2.1.1. fastdfs是否可在windows系統下安裝?可以的話,哪位可以..._百度知道 2
Hadoop分散式檔案系統HDFS架構
1 Master(NameNode/NN) 帶 N個Slaves(DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block blocksize:128M 130M =
大資料筆記之分散式檔案系統HDFS筆記一
分散式檔案系統就是把檔案分佈儲存到多個計算機節點上,成千上萬的計算機節點構成計算機叢集。這些節點分為兩類。 一類叫做“主節點”(Master Node),也叫做“名稱節點”(Name Node) 另一
大資料筆記之分散式檔案系統HDFS筆記二
1. 通訊協議 HDFS是一個部署在叢集上的分散式檔案系統,因此,很多資料需要通過網路進行傳輸 , 所有的HDFS通訊協議都是構建在TCP/IP協議基礎之上的, 客戶端通過一個可配置的埠向名稱節點主動
Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性: 1 2.1.1. fastdfs是否可在
Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 分散式檔案系統 通過獨立檔案伺服器可以解決一些問題,如果某天儲存檔案的那臺服務突然down了怎麼辦?可能你會說,定時將檔案系統備份,這臺down機的時候,迅速切換到另一臺
Hadoop分散式檔案系統——HDFS詳解
這篇主要聊一下Hadoop分散式檔案系統—HDFS 大綱: 1.HDFS設計目標 2.HDFS裡面的NameNode和DataNode 3.操作HDFS的兩種方式 1.HDFS設計目標 硬體錯誤 硬體錯誤是常態而不是異常。(每每讀這句我就想到了:程式設計師加
Hadoop分散式檔案系統(HDFS)的基本命令
轉載於:https://blog.csdn.net/zhaojw_420/article/details/531616241、-help[cmd] 顯示命令的幫助資訊./hdfs dfs -help ls12、-ls(r) 顯示當前目錄下的所有檔案 -R層層循出文件夾./hd
給系統架構師們的啟示:分散式檔案系統HDFS設計9大特點!
研究一下HDFS的幾個設計特點,可以給系統架構師們進行分散式計算框架設計提供一些啟示:1)Block的配置: 預設不配置。一個Block會有三份備份,一份放在NameNode指定的DataNode,另一份放在與指定DataNode非同一Rack上的DataNode,最後一份
Hadoop分散式檔案系統——HDFS的讀寫
HDFS是執行在通用硬體平臺上的可容錯分散式檔案系統。它優化了大檔案的流式讀取模式,適用於那些高吞吐並且對延遲性要求相對比較低的場景。它還通過檔案“一次寫入,多次讀取”的簡單策略保證了資料的一致性。HDFS亦使用了“塊複製”的概念,讓資料在叢集的
Hadoop分散式檔案系統——HDFS概念以及hdfs讀寫資料
HDFS一流式資料訪問模式來儲存超大檔案,運行於商用硬體叢集上。 一、HDFS 的概念 1、資料塊: (1) 每個磁碟都有預設的資料塊大小,這是磁碟進行資料讀/寫的最小單位 (2) HDFS有資料塊的概念,預設是64M,hadoop2中是
GlusterFS分散式檔案系統使用簡介
0 術語簡介 GlusterFS是一個開源的分散式檔案系統。更多特性介紹附錄的參考文件。 Brick:GFS中的儲存單元,通過是一個受信儲存池中的伺服器的一個匯出目錄。可以通過主機名和目錄名來標識,如'SERVER:EXPORT' Client: 掛載了GFS卷的裝
Hadoop分散式檔案系統--HDFS結構分析
前言 在Hadoop內部,具體實現了許多類的檔案系統,當然最最被我們用到的就是他的分散式檔案系統HDFS了。但是本篇文章不會講HDFS的主從架構等東西,因為這些東西網上和資料書中都講得很多了。所以,我決定以我個人的學習所得,來講講HDFS內部的一些有意思的東西
Hadoop 系列(一)—— 分散式檔案系統 HDFS
一、介紹 HDFS (Hadoop Distributed File System)是 Hadoop 下的分散式檔案系統,具有高容錯、高吞吐量等特性,可以部署在低成本的硬體上。 二、HDFS 設計原理 2.1 HDFS 架構 HDFS 遵循主/從架構,由單個 NameNode(NN) 和多個 Data
分散式檔案系統FastDFS簡介、搭建、與SpringBoot整合實現圖片上傳
之前大學時搭建過一個FastDFS的圖片伺服器,當時只是抱著好奇的態度搭著玩一下,當時搭建採用了一臺虛擬機器,tracker和storage服務在一臺機器上放著,最近翻之前的部落格突然想著在兩臺機器上搭建試一下,順便整合了SpringBoot實現了一下圖片的上傳服務。 新的閱讀體驗地址:http://www
HDFS分散式檔案系統簡介
HDFS(Hadoop Distributed File System)Hadoop 分散式檔案系統 基於流資料模式訪問 就是可以位元組序列化的資料,java.io.Serializable介面 分散式檔案系統處理的資料必須是流資料,可以寫IO
使用python的hdfs包操作分散式檔案系統(HDFS)
===================================================================================== 寫在前邊的話: 之前做的Hadoop叢集,組合
1、HDFS分散式檔案系統
1、HDFS分散式檔案系統 分散式儲存 分散式計算 2、hadoop hadoop含有四個模組,分別是 common、 hdfs和yarn。 common 公共模組。 HDFS hadoop distributed file system,hadoop分散式檔案系統,負責檔案的
hadoop[4]-hdfs分散式檔案系統的基本工作機制
一、Namenode 和 Datanode HDFS採用master/slave架構。一個HDFS叢集是由一個Namenode和一定數目的Datanodes組成。Namenode是一箇中心伺服器,負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。叢集中的Datanode一般是一個節點一
大資料-Hadoop-HDFS(分散式檔案系統)環境搭建
1:Hadoop三大核心元件 A:分散式檔案系統HDFS B:分散式資源排程器 C:分散式計算框架MapReduce 2:HDFS簡介: HDFS架構:HDFS採用Master/Slave架構 即:一個Master(NameNode)對應多個Slave(DataNode)