Distribution File System DFS

阿新 • • 發佈：2018-11-09

以HDFS為例，介紹分散式檔案系統。

檔案系統

檔案系統的功能

檔案的按名存取（基本功能）
檔案目錄的建立和維護（用於實現上述基本功能）
實現邏輯檔案到物理檔案的轉換（核心內容）
檔案儲存空間的分配和管理
資料保密、保護和共享
提供一組使用者使用的操作

檔案

檔案是由檔名字標識的一組資訊的集合
各作業系統的檔案命名規則略有不同
實現按名存取的檔案系統的優點
- 將使用者從複雜的物理儲存地址管理中解放出來
- 可方便地對檔案提供各種安全、保密和保護措施
- 實現檔案的共享（同名共享、異名共享）
如何實現**“按名存取”？**
- 當用戶要求存取某個檔案時，系統查詢目錄檔案，獲得對應的檔案目錄
- 在檔案目錄中，根據使用者給定的檔名尋找到對應該檔案的檔案控制塊（檔案目錄項）
- 通過檔案控制塊所記錄的該檔案的相關資訊（如檔案資訊存放的相對位置或檔案資訊首塊的物理位置）依次存取該檔案的內容。

檔案目錄

概念
- **檔案目錄：**建立和維護的關於系統的所有檔案的清單
- **檔案控制塊：**每個目錄項對應一個檔案的資訊描述
- **目錄檔案：**目錄資訊也以檔案的形式存放
檔案控制塊的基本內容
- 檔案存取控制資訊：如檔名、使用者名稱、檔案主存取許可權等
- 檔案結構資訊：檔案邏輯結構、檔案的物理結構等
- 檔案使用資訊：已開啟該檔案的程序數、檔案的修改
  情況等
- 檔案管理資訊：檔案建立日期、檔案訪問日期等

檔案的物理結構

順序檔案，連續儲存
連結檔案
索引檔案

分散式檔案系統

體系架構

主節點進行管理，從節點儲存資料
檔案切分成塊，分散儲存在從節點上

檔案訪問

單機多程序訪問同一檔案
- 讀寫鎖
不同機器上程序訪問同一檔案
- 加鎖效率太低，Hadoop使用一種immutable file

備份與一致性

客服端備份 Client -server DFS
- 在客戶端進行備份，將更改過的檔案傳到server，改變時client和server不一致
伺服器端備份 Cluster-based DFS

HDFS

設計目標

假設硬體的異常比軟體的異常更加常見
應用程式關注的是吞吐量，而不是響應時間。
檔案僅支援追加，而不允許修改。
計算和儲存採用就近原則，把程式碼放在遠端計算，不搬運資料

資料塊

對於Hadoop來說，都是處理的大檔案
檔案由資料塊集合組成
- 通常每塊的大小為64MB
- 每個資料塊在本地檔案系統已單獨的檔案進行儲存（Linux檔案系統）
與作業系統中檔案block的區別
- 作業系統的block是讀取的物理單元
  - 目的是節省I/O
  - block總是一樣大
- 而在HDFS中是為了切大檔案
  - 若最後一塊小於64M，則保持原有大小

體系結構

53840366916

NameNode
- 每個叢集只有一個
- 負責檔案系統元資料操作、資料塊的複製和定位
SecondaryNameNode
- 用於NameNode的備份節點
DataNode
- 叢集中每個節點一個數據節點
- 負責資料塊的儲存
- 為客戶端提供實際檔案資料

NameNode

作用
- 管理節點、接收使用者的操作請求
核心資料檔案包括
- 元資料
  - 儲存在記憶體中
- 映象檔案fsimage: 維護檔案系統樹以及檔案樹中所有的檔案/目錄的元資料（包括檔案中塊所在的資料節點的位置資訊）
- 操作日誌檔案EditLog：記錄所有針對檔案的建立、刪除、重新命名等操作

SecondaryNameNode

執行過程：
- 定期從NameNode上下載fsimage,edits。二者合併，生成新的fsimage在本地儲存，並寫回NameNode
- 是“檢查點”，不是“熱備份”
  - 並不能保證實時都一樣
若直接操作image，代價很高，總是先更改日誌（記錄操作）

DataNode

作用
- 提供檔案的儲存
檔案塊（block）：最基本的儲存單位，一個Linux檔案
- HDFS預設Block大小是64MB，
- 以一個256MB檔案，共有256/64=4個Block
不同於普通檔案系統的是，HDFS中，如果一個檔案小於一個數據塊的大小，並不佔用整個資料塊儲存空間
資料備份：預設是三個
因此，NamNode處理控制流，告訴客戶存在哪裡；而DataNode處理資料流，客戶端直接與其進行傳輸。

檔案訪問

檔案寫入HDFS

可以並行寫入不同節點

資料存放策略

目標：負載均衡，快速訪問，支援容錯

第一個副本：放置在上傳檔案的資料節點；如果是叢集外提交，則隨機挑選一臺磁碟不太滿、CPU不太忙的節點(快速寫入)
第二個副本：放置在與第一個副本不同的機架rack的節點上(減少跨rack的網路流量)
第三個副本：與第一個副本相同機架的其他節點上(應對交換機故障)
更多副本：隨機節點

從HDFS讀取檔案

從各個資料節點上傳資料塊，可以並行

資料讀取策略

當客戶端讀取資料時，從NameNode獲得資料塊不同副本的存放位置列表，列表中包含了副本所在的資料節點
可以呼叫API來確定客戶端和這些資料節點所屬的機架ID
最近者優先原則：當發現某個資料塊副本對應的機架ID和客戶端對應的機架ID相同時，就優先選擇該副本讀取資料，如果沒有發現，就隨機選擇一個副本讀取資料

檔案訪問模型

一次寫入多次讀取
- 一個檔案經過建立、寫入和關閉後就不得改變檔案中的內容
- 僅容許追加append（）
  - 直接對檔案增加一個block
- 對於單檔案，不支援併發寫，只支援併發讀
  - append同一個檔案只允許同時執行一個操作
- 修改內容需刪除，重新寫入
好處：避免讀寫衝突、無需檔案鎖

備份與一致性

一個檔案有若干備份
備份之間是否可能存在不一致？
- 寫入成功的備份之間是強一致的
一次寫入多次讀取

容錯機制

DataNode故障

“宕機”，節點上面的所有資料都會被標記為“不可讀”
- 資料塊自動複製到剩餘的節點上以保證滿足備份因子
- 由NameNode監控
定期檢查備份因子

NameNode故障

根據SecondaryNameNode中的FsImage和Editlog資料進行恢復

HDFS功能

HDFS適合做什麼
- 大檔案儲存
- 流式資料訪問
HDFS不適合做什麼
- 大量小檔案
- 隨機讀取
- 延遲讀取

Distribution File System DFS

以HDFS為例，介紹分散式檔案系統。檔案系統檔案系統的功能檔案的按名存取（基本功能）檔案目錄的建立和維護（用於實現上述基本功能）實現邏輯檔案到物理檔案的轉換（核心內容）檔案儲存空間的分配和管理資料保密、保護和共享提供

[LeetCode] Design In-Memory File System 設計內存文件系統

format directory ring orm turn original all lee example Design an in-memory file system to simulate the following functions: ls: Give

Linux文件系統只讀Read-only file system

linux 文件系統只讀問題描述:1、系統無法進行磁盤的讀寫操作（touch,cp,chmod）等等2、服務器無法啟動（也是因為無法創建文件）3、只有涉及到系統磁盤的寫操作，都會報錯"Read-only file system"問題原因：1、系統沒有正常關機，導致虛擬磁盤出現文件系統錯誤；2、機器硬

菜鳥學習--- linux下nfs Read-only file system

nfs[root@nfsclient alidata]# touch 24 touch: cannot touch `24‘: Read-only file system一、查看mount 是否有權限[root@nfsclient /]# mount /dev/sda3 on / type ext4 (rw)

The Google File System論文拜讀

數據分布大型伸縮性設計時失效度量新的之前系統設計 The Google File System Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung Google? 摘要我們設計並實現了谷歌文件系統，這是一

Centos下出現read-only file system 的解決辦法

磁盤掛載 -s spa bsp 硬盤情況嘗試 family 損壞 Centos下出現這種情況說明磁盤只能讀不能寫，出現這種情況一般是因為不正常的關機或者硬盤損壞導致磁盤掛載出現問題。本萌新也遇到了這個問題，嘗試了各種命令都不行，最後用了mount -o

VFS(Virtual File System)

rtu 特定數據結構存儲 ons 結構對象 poi open 一、VFS作為內核子系統，為用戶空間程序提供了文件系統相關的接口。所有實際文件系統依賴VFS共存，依靠VFS系統工作。 1、VFS提供通用文件系統接口：用戶空間程序可以利用標準的UNIX文件系統調用，如op

無法使用 adb push file，Read-only file system

remount blog body markdown mount class 使用 file clas adb root adb remount adb push xxx /system/etc/xxx failed to copy ‘xxx‘ to ‘/system/et

BerOS file system

least call ash res mali not ssi nice possible The new operating system BerOS has a nice feature. It is possible to use any number of

Ubuntu&Linux系統出現文件系統只讀Read-only file system 的快速解決方法

nbsp 分區信息 -o 錯誤 info eboot strong bsp ron 問題描述：周末運行盤平臺服務程序，周一來操作系統卡頓，主進程已退出，重啟進程時提示Read-only file system；新建目錄和其他chmod -R等等操作都提示Read-only

nfs-rpcbind-portmap掛載nfs-network file system

AC redhat 簡述系統默認掛載高可用方案 -c hab 名稱 NFS原理詳解 PS:哈哈，這篇的篇幅真的非常的長。要看完真的要有很強的耐心那。我自己寫也快寫吐了呢。 [ATong學習linux]NFS原理詳解一、NFS介紹 1）什麽是NFS 它的主

文件系統（File System）

當前目錄表格只需要基本操作 nbsp 文件管理系統 pan 存儲文件內容什麽是文件系統，引用百科解釋：　　操作系統中負責管理和存儲文件信息的軟件機構稱為文件管理系統，簡稱文件系統。文件系統是操作系統核心的組成部分，沒有它我們無法完成對文件的增、刪、改、查等基本

linux 中出現 Read-only file system

linux 中出現 Read-only當linux操作系統啟動出現root用戶也無法進行任何的文件寫操作時，無論什麽用戶(包括root)寫文件保存或者刪除文件，且對操作文件或目錄都有寫權限時，還任然報錯:E212: Can‘t open file for writing 或者 Read-only file s

執行monkey提示cannot create D:xx.txt: read-only file system

問題 info adb shell linux key 之前權限 system 文件打開adb窗口執行monkey，提示，之前是運行過的，不知道出了什麽問題。解決辦法：後來才發現是在執行monkey命令之前先運行了adb shell 命令，不要運行adb she

Zend Studio 開發Resource is out of sync with the file system的解決辦法

SVN上down下來的專案，本地執行卻無法顯示頁面，經過嘗試給模板檔案改名就能迴避這個問題。定位到是模板快取的問題，於是清模板快取。但是發現ThinkPHP專案Runtime目錄下的快取檔案在刪除時候會提示： Resource is out of sync with the file

File System in Linux

Linux File Systems 0. Introduction ext4是Linux流行的File System, mkfs是格式化Disk總的命令，用於在特定的分割槽上建立 linux 檔案系統。 &n

[ADB]解決adb push，只讀檔案系統Read-only file system問題

解決方法因命令2、adb disable-verity，需要新版adb工具才有，可以從以下連結下載使用 paltform adb 執行命令如下： adb root 獲取root許可權 adb disable-verity 關閉 system 分割槽的 verit

588. Design In-Memory File System

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neu

Android adb remount failed處理及Read-only file system處理(Android O)

我們在除錯工作中，常常會使用adb pull/push來獲取或替換裝置中的一些檔案。 1. 在使用pull/push前需要先執行： # adb root # adb remount 在Android N及之前的版本，是ok的，但是在Android O上會提示remount失敗： # adb

HDFS(hadoop distributed File System)詳解

HDFS(hadoop distributed File System)分散式檔案系統特點：高容錯性（多個文字副本儲存），價格低，高吞吐量。常見的系統 gfs，HDFS、Lustre 、Cep

Distribution File System DFS

檔案系統

檔案系統的功能

檔案

檔案目錄

檔案的物理結構

分散式檔案系統

體系架構

檔案訪問

備份與一致性

HDFS

設計目標

資料塊

體系結構

NameNode

SecondaryNameNode

DataNode

檔案訪問

檔案寫入HDFS

資料存放策略

從HDFS讀取檔案

資料讀取策略

檔案訪問模型

備份與一致性

容錯機制

DataNode故障

NameNode故障

HDFS功能

相關推薦