hadoop入門(12)：hdfs的讀寫流程

阿新 • • 發佈：2022-03-08

hdfs的寫入流程

檔案具體上傳流程如下：

建立檔案：
1. HDFS client向HDFS寫資料先呼叫DistributedFileSystem.create()
2. RPC呼叫namenode的create()方法，會在HDFS目錄樹中指定路徑，新增新檔案；並將操作記錄在edits.log中。namenode的create()方法執行完後，返回一個FSDataOutPutStream，他是DFSOutPutStream的包裝類
建立資料流管道pipeline
1. client呼叫DFSOutPutStream.write()寫資料（先寫檔案的第一個塊，暫時稱為blk1）
2. DFSOutputStream通過RPC呼叫namenode的addBlock，向namenode申請一個空的資料塊block
3. addBlock返回一個LocatedBlock物件，此物件包含當前blk要儲存哪三個datanode資訊，比如dn1，dn2，dn3
4. 客戶端根據位置資訊建立資料流管道
向資料流管道寫入當前塊的資料
1. 寫資料時，先將資料寫入一個檢驗塊chunk中，寫滿512位元組後，對此chunk計算校驗和chunksum值（4位元組）
2. 然後將chunk和對應的校驗寫入packet中，一個packet是64kb
3. 隨著源源不斷的帶校驗chunk寫入packet，當packet寫滿之後將其寫入dataqueue佇列中
4. packet從佇列中取出，沿著pipeline傳送到dn1，再從dn1傳送到dn2，dn2傳送到dn3
5. 同時，這個packet也會儲存一份到一個確認佇列ack queue中
6. packet到達最後一個datanode即nd3之後會做檢驗，然後將檢驗沿結果逆著pipeline方向傳回客戶端，具體檢驗結果從dn3傳到dn2，dn2做檢驗，dn2傳到dn1，dn1做檢驗，結果再傳回客戶端。
7. 客戶端根據校驗結果，如果“成功”，則將儲存在ack queue中的packet刪除，如果失敗則將packet取出重新放回到dataqueue末尾，等待沿pipeline再次傳輸。
8. 如此將block中一個數據的一個個packet傳送出去。當block傳送完畢，即dn1，dn2，dn3都接收了blk1的副本，那麼三個datanode分別RPC呼叫namenode的blockReceivedAndDeleted()，namenode會更新記憶體中block與datanode的對應關係（比如dn1上多了個blk1）
關閉三個datanode構建的pipeline，且檔案還有下一個塊的時候，再從4開始直到全部檔案寫完
1. 最終，呼叫DFSOutputStream的close()。
2. 客戶端呼叫namenode的complete()，告知namenode檔案傳輸完成。

HDFS寫資料-容錯

Q：如果在傳輸過程中dn2掛了，則當前piprline中斷，hdfs會怎麼樣？
A：客戶端RPC會呼叫namenode的updateBlockPipeline()為當前block（假設為blk1）生成新的版本比如ts1（本質上是時間戳），故障dn2會從pipeline中刪除。
DFSOutputStream再RPC呼叫namenode的getAdditionalDatanode()讓namenode重新分配datanode假設為dn4。讓dn1、dn3、dn4組成新的管道，他們上邊的blk1版本設定為新版本ts1.
由於dn4上沒有blk1的資料，客戶端告訴dn1、dn3將其上的blk1資料拷貝給dn4.
新的管道建立好之後，DFSOutputStream呼叫updatePipeline()更新namenode元資料。到此，pipeline恢復，客戶端繼續上傳檔案。
故障的datanode重啟後，namenode發現其上面的blk1的時間戳是老的，會讓datanode將blk1刪除掉。

hdfs的讀取流程

檔案的具體讀取流程如下：

Client端讀取hdfs檔案，client呼叫檔案系統物件DistributedFileSystem的open方法
返回FSDataInputStream物件（對DFSInputStream的包裝）
構造DFSInputStream物件時，呼叫namenode的getBlockLocation方法，獲得file開始的若干個block的儲存datanode列表；針對每個block的dn列表，會根據網路拓撲排序，離client近的排在前面。
呼叫DFSInputStream的read方法讀取blk1的資料，與client最近的datanode建立連線，讀取資料。
讀取完後，關閉與dn建立的流。
重複4、5、6步驟，緊接著讀取下一個塊的資料，直到這一批塊的資料讀完。
讀取下一批塊，重複3、4、5、6、7
呼叫FSDataInputStream的close方法

HDFS讀資料-容錯

Q：讀取block資料時，client與datanode連線中斷會怎麼辦？
A： client與第二個儲存此block的datanode建立連線，儲存資料。記錄出問題的datanode，不會再從其上讀取資料。

Q： client讀取資料時，發現block塊的資料有問題怎麼辦？
A： client讀取資料時，同時會讀取到block的校驗和，若client針對讀取的block計算校驗和發現與其讀取的校驗和不一致，說明block損壞。client會從其它存放此block的datanode讀取資料，同樣會計算校驗和，同時告訴namenode此情況。

hadoop入門(12)：hdfs的讀寫流程

hdfs的寫入流程檔案具體上傳流程如下：建立檔案： HDFS client向HDFS寫資料先呼叫DistributedFileSystem.create()

HDFS讀寫流程（重點）

@ 目錄一、寫資料流程舉例：二、異常寫流程讀資料流程一、寫資料流程 ①服務端啟動HDFS中的NN和DN程式

HDFS讀寫流程

兩個重要概念： NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；

hadoop 元件 hdfs架構及讀寫流程

hadoop 元件 hdfs架構及讀寫流程一 . Namenode Namenode 是整個系統的管理節點就像一本書的目錄，儲存檔案資訊，地址，接受使用者請求，等

帶你入坑大資料（二） --- HDFS的讀寫流程和一些重要策略

前言前情回顧如果說上一篇是在闡述HDFS最基礎的理論知識，這一篇就是HDFS的主要工作流程，和一些較為有用的策略

HDFS的讀寫流程

HDFS的讀寫流程 HDFS寫流程（上傳流程）需要的東西：要上傳的檔案、客戶端Client、NameNode首先，需要在客戶端Client上建立一個分散式檔案系統的物件（DistributedFileSystem），然後客戶端申請向NameNod

HDFS04 HDFS的讀寫流程

HDFS的讀寫流程(面試重點) HDFS寫資料流程客服端把D://ss.avi檔案傳送到叢集 1.首先需要建立一個Distributed FileSystem（分散式檔案系統）客服端。向NameNode請求上傳檔案。上傳到/user/atguigu/ss.avi路徑。

HDFS讀寫資料流程

HDFS寫資料流程資料寫入流程客戶端向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。

hdfs架構以及讀寫流程

前言 HDFS 是一個能夠面向大規模資料使用的，可進行擴充套件的檔案儲存與傳遞系統。是一種允許檔案通過網路在多臺主機上分享的檔案系統，可讓多機器上的多使用者分享檔案和儲存空間。讓實際上是通過網路來訪問

大資料基石之 Hadoop 的讀寫流程與 2.X 架構

Hadoop 讀寫流程與 2.X 架構安全模式叢集啟動時的一個狀態，處於安全模式的狀態下，只向客戶端提供檔案的只讀檢視

hdfs的塊大小以及hdfs的讀寫流程

hdfs上的檔案是以塊為單位進行儲存的大小一般設定為128m，不能太小，也不能太大。

1.5.5 HDFS讀寫解析-hadoop-最全最完整的保姆級的java大資料學習資料

目錄 1.5.5 HDFS讀寫解析 1.5.5.1 HDFS讀資料流程 1.5.5.2 HDFS寫資料流程 1.5.5 HDFS讀寫解析

Java併發程式設計入門（十三）讀寫鎖和快取模板

Java極客 | 作者 / 鏗然一葉這是Java極客的第 41 篇原創文章一、讀寫鎖

C#（99）：二進位制讀寫 BinaryReader、BinaryWriter、BinaryFormatter

一、二進位制讀寫類：1、BinaryReader/BinaryWriter:二進位制讀寫BinaryReader：用特定的編碼將基元資料型別讀作二進位制值。BinaryWriter：以二進位制形式將基元型別寫入流，並支援用特定的編碼寫入字串。2、XmlRea

MySQL中介軟體之ProxySQL(3)：初試讀寫分離

實現一個簡單的讀寫分離這裡通過一個簡單的示例實現ProxySQL的讀寫分離功能，算是ProxySQL的快速入門。即使是快速入門，需要配置的內容也很多，包括：後端MySQL配置、監控配置、傳送SQL語句的使用者、SQL語句的路由

三星 870 EVO 4TB 固態硬碟官方測試：連續讀寫 560MB/s

1月22日訊息三星近日推出了870 EVOSSD ，擁有 250GB、500GB、1TB 與 2TB 等版本，售價分別為 309 元、499 元、949 元與 2099 元。

YDOOK：JSON：Python 讀寫讀取寫入同時讀寫 json檔案完全教程

技術標籤：Python3python讀寫JSON同時讀寫YDOOKJYLin YDOOK：JSON：Python 讀寫讀取寫入同時讀寫 json檔案完全教程

C語言：檔案讀寫

這是很基礎的教程，我只是寫給自己看，作為一個學習筆記記錄一下，如果正在閱讀的你覺得簡單，請不要批評，可以關掉選擇離開

DAY.1-Ceph元件、資料讀寫流程、叢集搭建及RBD使用

一、Ceph元件：　　1.OSD（Object Storage Daemon）　　功能：Ceph OSDs（物件儲存守護程式ceph-osd）：提供資料儲存，作業系統上的一個磁碟就是一個OSD守護程式，用於處理ceph叢集資料複製、回覆、重新平衡，並通

【IT之家評測室】訊飛智慧辦公本 T2 評測：聽說讀寫商務範

近日，科大訊飛正式釋出了全新的智慧辦公本 T2，售價 3999 元。所謂智慧辦公本，就是一種擁有超大水墨屏，支援手寫語音智慧識別的辦公輔助裝置。訊飛智慧辦公本 T2 不僅支援 OCR 手寫識別，依託科大訊飛核心語音識別