HDFS 讀寫流程-譯

HDFS 檔案讀取流程

Client 端呼叫 DistributedFileSystem 物件的 open() 方法。

由 DistributedFileSystem 通過 RPC 向 NameNode 請求返回檔案的 Block 塊所在的 DataNode 的地址。（我們知道 HDFS 預設策略對某個 Block 會儲存三份副本到不同的 DataNode，那麼 NameNode 應該返回那個 DataNode？答案是根據 DataNode 到 Client 端的距離。假設請求的 Block 塊剛好就落在 Client 端所在機器上，即 Client 端本身也是 DataNode，那麼毫無疑問 DataNode 將會返回 Client 端所在機器地址。這也驗證了 Hadoop 的一個設計特性，移動計算而不是移動資料，極大了減小了頻寬。）

Client 端呼叫 FSDataInputStream 物件的 read() 方法，通過 FSDataInputStream 向 DataNode 獲取 Block 資料。之後資料流源源不斷地從 DataNode 返回至 Client。當最後一個 Block 返回至 Client 端後， DFSInputStream 會關閉與 DataNode 連線。上述過程對 Client 端都是透明的，從 Client 來看，它只是在不停的讀取資料流。

如果 DFSInputStream 在讀取的過程中發生了錯誤，將會嘗試與存有該 Block 副本且距離最近的 DataNode 通訊。同時，它會記錄下出問題的 DataNode，在之後的資料請求過程中不再與之通訊。並報告給 NameNode。DFSInputStream 具備檢查資料校驗和的功能。

HDFS 檔案寫入流程

Client 寫入檔案時，呼叫 DistributedFileSystem 物件的 create() 方法。

DistributedFileSystem 通過 RPC 請求 NameNode 向其 NameSpace 寫入檔案元資料資訊。NameNode 會做多種檢查，如判斷檔案是否存在，是否有相應的寫許可權等等。如果檢查通過，NameNode 會將檔案元資料寫入 NameSpace。DistributedFileSystem 將會返回 FSDataOutputStream 用於 Client 端直接向 DataNode 寫入資料。

DFSOutputStream 將 Client 要寫入的資料分割成 Packets。Packets 會被儲存到 Data Queue 佇列中，並由 DataStreamer 消費處理。DataStreamer 請求 NameNode 分配 DataNode 列表，將 Packets 寫入到 DataNode 中。假設放置副本的預設策略是 3，那麼 NameNode 將返回 3 個 DataNode，並串聯起來組成一條 Pipeline。 DataStreamer 將 Packets 寫入到第一個 DataNode1，DataNode1 儲存完後直接轉發至 DataNode2，DataNode2 儲存完後再直接轉發至 DataNode3。（注意，這裡直接是 DataNode1 直接將 Packet 轉發至 DataNode2。）

DFSOutputStream 為了防止出問題時資料的丟失，維持了一個等待 DataNode 成功寫入的 ACK Queue。只有當 Packet 被成功寫入 Pipeline 中的每個 DataNode 時，此 Packet 才會從 ACK Queue 中移除。

在 Pipeline 寫入的過程中，如果某個 DataNode 出現問題，Pipeline 首先將會被關閉，隨後在 ACK Queue 中的 Packets 會被新增到 Data Queue 的最前面，用來防止位於問題節點下游的 DataNode 寫入時的資料丟失。出問題的 DataNode 會被從 Pipeline 中移除。NameNode 會重新分配一個健康的 DataNode 構成新的 Pipeline。

當 Client 端寫完資料，呼叫 DFSOutputStream 物件的 close() 方法。該操作將會將所有剩餘的 Packets 刷寫到 DataNode Pipeline 並等待返回確認，之後向 NameNode 傳送檔案寫入完成訊號。

歡迎關注我的公眾號

HDFS 讀寫流程-譯

HDFS讀寫流程簡介

HDFS讀寫流程

HDFS讀寫流程（重點）

HDFS文件讀寫流程簡單圖解

Java操作HDFS開發環境搭建以及HDFS的讀寫流程

Hadoop_08_客戶端向HDFS讀寫（上傳）數據流程

hadoop學習筆記（三）：hdfs體系結構和讀寫流程（轉）

HDFS讀寫檔案的具體流程

HDFS儲存架構剖析以及讀寫流程

hdfs讀寫檔案核心流程詳解巧說

HDFS 讀寫檔案流程詳解

淺談HDFS的寫流程

hbase讀寫流程

linux塊設備讀寫流程

2.HBase_儲存與讀寫流程

大資料開發之Hadoop篇----hdfs讀寫許可權操作

HDFS讀寫檔案

Hbase讀寫流程和定址機制

大資料筆記 2--hdfs讀資料流程

HDFS 讀寫流程-譯

相關推薦