第九章 HDFS概述

阿新 • • 發佈：2021-09-03

一、HDFS產生的背景

隨著資料量越來越大，在一個作業系統存不下所有的資料，那麼就分配到更多的作業系統管理的磁碟中，但是不方便管理和維護，迫切需要一種系統來管理多臺機器上的檔案，這就是分散式檔案管理系統。HDFS只是分散式檔案管理系統中的一種。

二、HDFS的定義

HDFS（Hadoop Distributed File System），它是一個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是分散式的，由很多伺服器聯合起來實現其功能，叢集中的伺服器有各自的角色。

HDFS的使用場景：適合一次寫入，多次讀出的場景。一個檔案經過建立、寫入和關閉之後就不需要改變。

三、HDFS的優缺點

1.HDFS優點

#1.高容錯性
➢資料自動儲存多個副本。它通過增加副本的形式,提高容錯性。
➢某一個副本丟失以後，它可以自動恢復。

#2.適合處理大資料
➢資料規模:能夠處理資料規模達到GB、TB、甚至PB級別的資料;
➢檔案規模:能夠處理百萬規模以上的檔案數量，數量相當之大。

#3.可構建在廉價機器上，通過多副本機制，提高可靠性。

2.HDFS缺點

#1.不適合低延時資料訪問，比如毫秒級的儲存資料，是做不到的。

#2.無法高效的對大量小檔案進行儲存。
➢儲存大量小檔案的話，它會佔用NameNode大量的記憶體來儲存檔案目錄和塊資訊。這樣是不可取的，因為NameNode的記憶體總是有限的;
➢小檔案儲存的定址時間會超過讀取時間，它違反了HDFS的設計目標。

#3.不支援併發寫入、檔案隨機修改。
➢一個檔案只能有一個寫，不允許多個執行緒同時寫;
➢僅支援資料append (追加)，不支援檔案的隨機修改。

四、 HDFS組成架構

#1.NameNode (nn) :就是Master， 它是一個主管、管理者。
➢管理HDFS的名稱空間;
➢配置副本策略;
➢管理資料塊(B1ock) 對映資訊;
➢處理客戶端讀寫請求。

#2.DataNode: 就是Slave。NameNode下達命令, DataNode執行 實際的操作。
➢儲存實際的資料塊;
➢執行資料塊的讀/寫操作。

#3.Client: 就是客戶端。
➢檔案切分。檔案上同HDFS的時候，Client將檔案切分成一個一個的Block, 然局進行上傳;
➢與NameNode互動， 獲取檔案的位置資訊;
➢與DataNode互動，讀取或者寫入資料;
➢Client提供一些命令來管理HDFS, 比如NameNode格式化;
➢Client可以通過一些命令來訪問HDFS,比如對HDFS增刪改查操作；

#4.Secondary NameNode:並非NameNode的熱備。當NameNode掛掉的時候, 它並不能馬上昔換NameNode並提供服務.
➢輔助NameNode,分擔其工作量，比如定期合併simage和Edits,並推送臺NameNode;
➢在緊急情況下，可輔助恢復NameNode.

五、HDFS檔案塊大小

HDFS中的檔案在物理上是分塊儲存(B1ock)塊的大小可以通過配置引數(dfs blocksize)來規定，預設大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M。

#1.思考:為什麼塊的大小不能設定太小，也不能設定太大?
➢HDFS的塊設定太小，會增加定址時間，程式一直在找塊的開始位置;
➢如果塊設定的太大，從磁碟傳輸資料的時間會明顯大於定位這個塊開始位置所需的時間。導致程式在處理這塊資料時，會非常慢。

總結: HDFS塊的大小設定主要取決於磁碟傳輸速率。

第九章 HDFS概述

一、HDFS產生的背景隨著資料量越來越大，在一個作業系統存不下所有的資料，那麼就分配到更多的作業系統管理的磁碟中，但是不方便管理和維護，迫切需要一種系統來管理多臺機器上的檔案，這就是分散式檔案管理系統。

C語言程式設計第五版第九章習題答案譚浩強課後答案

C語言程式設計第五版譚浩強課後習題答案 1.定義一個結構體變數(包括年、月、日)。計算該日在本年中是第幾天,注意閏年問題。

第九章 Lambda&方法引用

9.1、Lambda表示式 9.1.1、標準格式 (形式引數) -> {程式碼塊} 9.1.2、使用前提有一個介面並且介面中有且僅有一個抽象方法

第九章-DOM部分筆記

從JS基礎到JS-web-API JS 基礎規定 JS 語法，它是ECMA262組織規定的。 JS-web-API 是用於網頁操作的API，它是由W3C規定的。

【C++】《C++ Primer 》第九章

第九章順序容器一、順序容器概述順序容器（sequential container）：為程式設計師提供了控制元素儲存和訪問順序的能力。這種順序不依賴於元素的值，而是與元素加入容器時的位置相對應。

第九章 Nginx 配置

一、雲伺服器準備 1.品牌:阿里雲、百度雲等 2.伺服器系統:CentOS7.0 以上 64位，拿到公網IP

第九章 Spring Security

9.1　Spring Security簡介 Spring Security是為基於Spring的應用程式提供宣告式安全保護的安全性框架。Spring Security提供了完整的安全性解決方案，它能夠在Web請求級別和方法呼叫級別處理身份認證和授權。因為基於

Python第九章--特殊方法、屬性、迭代器

一、構造方法 1.構造方法（1.構造方法類似於“第六章函式與模組”中使用過的名為init的初始化方法，與普通方法不同的是，當物件被建立後，會立即呼叫構造方法

第十一天第九章異常處理及程式除錯

# try...except語句：當程式出錯時，輸出錯誤資訊後，程式會繼續執行 \'\'\' try: pass# 可能出現錯誤的程式碼

第九章 nginx基礎之搭建小遊戲

一、nginx部署 1.epel源安裝 [root@web01 ~]# yum install -y nginx 2.官方源安裝 1.配置官方源[root@web02 ~]# vim /etc/yum.repos.d/nginx.repo [nginx-stable]name=nginx stable repobaseurl=http://nginx.org/pa