HDFS讀寫流程

阿新 • • 發佈：2021-12-13

兩個重要概念：

NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；
 
DataNode：員工級別。負責儲存客戶端發來的資料塊block；執行資料塊的讀寫操作。

寫流程

寫詳細步驟：
1、首先向namenode通訊，請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在 ，還得看看是否有上傳的許可權，說白了，就是判斷是否可以上傳
2、namenode返回是否可以上傳 ，如果可以，client會先對檔案進行切分（邏輯切分）
3、客戶端請求第一個 Block上傳到哪幾個DataNode伺服器上。
4、NameNode返回3個DataNode節點，分別為dn1、dn2、dn3。
5、客戶端通過FSDataOutputStream模組請求dn1上傳資料，dn1收到請求會繼續呼叫dn2，然後dn2呼叫dn3，將這個通訊管道建立完成。
6、dn1、dn2、dn3逐級應答客戶端。
7、客戶端開始往dn1上傳第一個Block（先從磁碟讀取資料放到一個本地記憶體快取），以Packet為單位，dn1收到一個Packet就會傳給dn2，dn2傳給dn3；dn1每傳一個packet會放入一個應答佇列等待應答。
8、當一個Block傳輸完成之後，客戶端再次請求NameNode上傳第二個Block的伺服器。（重複執行3-7步）。
9、傳輸完畢之後，客戶端關閉流資源，並且會告訴hdfs資料傳輸完畢，然後hdfs收到傳輸完畢就恢復元資料

具體概念介紹

Distributed FileSystem:進行抽象封裝，FileSystem會利用JDK的反射機制建立一個DistributedFileSystem例項（物件），然後呼叫它的initialize()方法

邏輯切分：客戶端並沒有將檔案真正切分，只是畫了個標誌線加以區分

寫操作，上傳檔案，所以本地是輸入流，hdfs是輸出流

第三步有哪幾個DataNode伺服器上：這裡指副本數，設定了幾個副本，就返回幾個DataNode（記住資料是儲存在DataNode）我設定了三個副本，所以，返回三個；

同時，返回的DataNode也有一定規矩，首先第一個DataNode是距離客戶端最近的，後兩個是根據第一個選出，產生了兩個問題，如何判斷最近，以及如何根據第一個選，這個請看: 拓撲距離和機架感知.

第七步，packet為單位，每個64KB

傳輸Packet：dn1收到之後，一邊往本地落盤，一邊傳給dn2，之後的dn2同理，當dn3落盤結束之後，它將成功資訊發給dn2，之後dn2需要等自己成功並且收到dn3成功資訊之後，將成功資訊發給dn1,同理，dn1在接收到dn2成功資訊並且自己落盤成功之後發給客戶端，此時一個packet就成功了；注意packet不是逐個發的，是一個佇列同時發的，成功了，在佇列裡刪除掉，這樣全部packet發完，第一塊就傳完了，接著傳第二塊，第二次選擇的DataNode可能和第一次一樣，也可能不一樣

傳輸過程中幾種失敗可能：

1.在建立通道時失敗，這樣直接上傳失敗，直接拋異常
2.在傳輸資料過程中失敗：
1）.客戶端傳輸Packet到第一個DataNode過程中失敗就上傳失敗
2）dn1與dn2或者dn2與dn3之間的傳輸Packet失敗，上傳仍然進行，並且傳出成功訊號，因為即使這兩個過程失敗了，副本數就變成1了，hdfs有高容錯性，副本丟失，第一個DataNode會觸發自動備份，自動尋找兩個DataNode

讀流程

1）客戶端通過Distributed FileSystem向NameNode請求下載檔案，NameNode通過查詢元資料，找到檔案塊所在的DataNode地址。
2）挑選一臺DataNode（就近原則，然後隨機）伺服器，請求讀取資料。
3）DataNode開始傳輸資料給客戶端（從磁盤裡面讀取資料輸入流，以Packet為單位來做校驗）。
4）客戶端以Packet為單位接收，先在本地快取，然後寫入目標檔案。
5）下載完第一塊，在重複上面2.3步下載

讀寫過程，資料完整性如何保持

通過校驗和。因為每個chunk中都有一個校驗位，一個個chunk構成packet，一個個packet最終形成block，故可在block上求校驗和。

HDFS 的client端即實現了對 HDFS 檔案內容的校驗和 (checksum) 檢查。當客戶端建立一個新的HDFS檔案時候，分塊後會計算這個檔案每個資料塊的校驗和，此校驗和會以一個隱藏檔案形式儲存在同一個 HDFS 名稱空間下。當client端從HDFS中讀取檔案內容後，它會檢查分塊時候計算出的校驗和（隱藏檔案裡）和讀取到的檔案塊中校驗和是否匹配，如果不匹配，客戶端可以選擇從其他 Datanode 獲取該資料塊的副本。

HDFS中檔案塊目錄結構具體格式如下：

${dfs.datanode.data.dir}/
├── current
│ ├── BP-526805057-127.0.0.1-1411980876842
│ │ └── current
│ │ ├── VERSION
│ │ ├── finalized
│ │ │ ├── blk_1073741825
│ │ │ ├── blk_1073741825_1001.meta
│ │ │ ├── blk_1073741826
│ │ │ └── blk_1073741826_1002.meta
│ │ └── rbw
│ └── VERSION
└── in_use.lock

in_use.lock表示DataNode正在對資料夾進行操作
rbw是“replica being written”的意思，該目錄用於儲存使用者當前正在寫入的資料。
Block元資料檔案（*.meta）由一個包含版本、型別資訊的標頭檔案和一系列校驗值組成。校驗和也正是存在其中。

HDFS讀寫流程（重點）

@ 目錄一、寫資料流程舉例：二、異常寫流程讀資料流程一、寫資料流程 ①服務端啟動HDFS中的NN和DN程式

HDFS讀寫流程

兩個重要概念： NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；

帶你入坑大資料（二） --- HDFS的讀寫流程和一些重要策略

前言前情回顧如果說上一篇是在闡述HDFS最基礎的理論知識，這一篇就是HDFS的主要工作流程，和一些較為有用的策略

hadoop 元件 hdfs架構及讀寫流程

hadoop 元件 hdfs架構及讀寫流程一 . Namenode Namenode 是整個系統的管理節點就像一本書的目錄，儲存檔案資訊，地址，接受使用者請求，等

HDFS的讀寫流程

HDFS的讀寫流程 HDFS寫流程（上傳流程）需要的東西：要上傳的檔案、客戶端Client、NameNode首先，需要在客戶端Client上建立一個分散式檔案系統的物件（DistributedFileSystem），然後客戶端申請向NameNod

HDFS04 HDFS的讀寫流程

HDFS的讀寫流程(面試重點) HDFS寫資料流程客服端把D://ss.avi檔案傳送到叢集 1.首先需要建立一個Distributed FileSystem（分散式檔案系統）客服端。向NameNode請求上傳檔案。上傳到/user/atguigu/ss.avi路徑。

HDFS讀寫資料流程

HDFS寫資料流程資料寫入流程客戶端向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。

hdfs架構以及讀寫流程

前言 HDFS 是一個能夠面向大規模資料使用的，可進行擴充套件的檔案儲存與傳遞系統。是一種允許檔案通過網路在多臺主機上分享的檔案系統，可讓多機器上的多使用者分享檔案和儲存空間。讓實際上是通過網路來訪問

hadoop入門(12)：hdfs的讀寫流程

hdfs的寫入流程檔案具體上傳流程如下：建立檔案： HDFS client向HDFS寫資料先呼叫DistributedFileSystem.create()

hdfs的塊大小以及hdfs的讀寫流程

hdfs上的檔案是以塊為單位進行儲存的大小一般設定為128m，不能太小，也不能太大。

DAY.1-Ceph元件、資料讀寫流程、叢集搭建及RBD使用

一、Ceph元件：　　1.OSD（Object Storage Daemon）　　功能：Ceph OSDs（物件儲存守護程式ceph-osd）：提供資料儲存，作業系統上的一個磁碟就是一個OSD守護程式，用於處理ceph叢集資料複製、回覆、重新平衡，並通

hbase架構及讀寫流程

1. 整體架構各角色之間的關係叢集部署架構 flowchart TB A[Master] & B[zookeeper] --> C[RegionServer] & D[RegionServer] & E[RegionServer]

【osd】ceph讀寫流程

概述 OSD是RADOS叢集的基本儲存單元。 PG(placement group)從名字可理解為放置策略組，它是物件的集合，該集合裡的所有物件都具有相同的放置策略：物件的副本都分佈在相同的OSD列表上。一個物件只能屬於一個PG，一

大資料基石之 Hadoop 的讀寫流程與 2.X 架構

Hadoop 讀寫流程與 2.X 架構安全模式叢集啟動時的一個狀態，處於安全模式的狀態下，只向客戶端提供檔案的只讀檢視

HDFS讀資料流程

(1) 客戶端向NameNode發起RPC請求，來獲取請求檔案Block資料塊所在的位置。 (2) NameNode檢測元資料檔案，會視情況返回Block塊資訊或者全部Block塊資訊，對於每個Block塊，NameNode都會返回含有該Block副本的Da

Ceph 細節原理及讀寫流程

目錄 Ceph 細節原理 OSD daemon PG 的概念 PG 中 OSD 組長是如何建立的 PG 的狀態 PG 內 OSD 的資料校驗方式

1.5.5 HDFS讀寫解析-hadoop-最全最完整的保姆級的java大資料學習資料

目錄 1.5.5 HDFS讀寫解析 1.5.5.1 HDFS讀資料流程 1.5.5.2 HDFS寫資料流程 1.5.5 HDFS讀寫解析

HDFS的讀寫機制

本篇部落格講解了HDFS的讀機制和寫機制，通過一個例項演示了HDFS的檔案儲存過程，非常通俗易懂。

KUDU(三)kudu資料讀寫,更新流程

文章目錄寫讀更新寫當CLient請求寫資料時,先根據主鍵從Master獲取要訪問的目標Tablets,然後依次到對應的Tablet獲取資料因為kudu表存在主鍵約束,所以需要進行主鍵是否已經存在的判斷,這裡涉及到之

Python讀寫csv檔案流程及異常解決

逗號分隔值（Comma-Separated Values，CSV，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。純文字意味著該檔案是一個字元序列，不含必須像二進位制數字那樣被

HDFS讀寫流程

相關推薦