HDFS讀寫資料流程

阿新 • • 發佈：2021-07-29

HDFS寫資料流程

資料寫入流程

客戶端向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。
namenode返回是否可以上傳。
客戶端請求第一個 block上傳到哪幾個datanode伺服器上。
namenode返回3個datanode節點，分別為dn1、dn2、dn3。
客戶端請求dn1上傳資料，dn1收到請求會繼續呼叫dn2，然後dn2呼叫dn3，將這個通訊管道建立完成。
dn1、dn2、dn3逐級應答客戶端。
客戶端開始往dn1上傳第一個block（先從磁碟讀取資料放到一個本地記憶體快取），以packet為單位，dn1

收到一個packet就會傳給dn2，dn2傳給dn3；dn1每傳一個packet會放入一個應答佇列等待應答。
當一個block傳輸完成之後，客戶端再次請求namenode上傳第二個block的伺服器。（重複執行3-7步）

機架感知（副本節點選擇）---- 資料備份：

低版本hadoop副本節點選擇

第一個副本在client所處的節點上。如果客戶端在叢集外，隨機選一個。

第二個副本和第一個副本位於不相同機架的隨機節點上。

第三個副本和第二個副本位於相同機架，節點隨機。

Hadoop 2.8.5副本節點選擇

第一個副本client所處的節點上。如果客戶端在叢集外，隨機選一個。

第二個副本和第一個副本位於相同機架，隨機節點。

第三個副本位於不同機架，隨機節點。

優勢：不同計價之間連線需要耗時間，但是同一機架上的連線不需要耗時間，通過這樣設定副本節點使得第一個副本節點和第二個副本節點之間的距離更近，傳輸更快

HDFS讀資料流程

客戶端向namenode請求下載檔案，namenode通過查詢元資料，找到檔案塊所在的datanode地址。
挑選一臺datanode（就近原則，然後隨機）伺服器，請求讀取資料。
datanode開始傳輸資料給客戶端（從磁盤裡面讀取資料放入流，以packet為單位來做校驗）。
客戶端以packet為單位接收，先在本地快取，然後寫入目標檔案。

HDFS讀寫資料流程

HDFS寫資料流程資料寫入流程客戶端向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。

HBase 讀寫資料流程

HBase 讀寫資料流程 HBase 讀資料流程客戶端建立 Connection 連線物件，通過載入的 hbase-site.xml 配置檔案獲得 zk 叢集地址

HDFS讀寫流程（重點）

@ 目錄一、寫資料流程舉例：二、異常寫流程讀資料流程一、寫資料流程 ①服務端啟動HDFS中的NN和DN程式

KUDU(三)kudu資料讀寫,更新流程

文章目錄寫讀更新寫當CLient請求寫資料時,先根據主鍵從Master獲取要訪問的目標Tablets,然後依次到對應的Tablet獲取資料因為kudu表存在主鍵約束,所以需要進行主鍵是否已經存在的判斷,這裡涉及到之

HDFS讀寫流程

兩個重要概念： NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；

HDFS寫資料流程

HDFS中的檔案在物理上是分塊儲存（Block）,塊的大小可以通過配置引數（dfs.blocksize）來規定，預設大小，2.X/3.X版本中是128M，1.X版本中是64M。128M指的是上限。

1.5.5 HDFS讀寫解析-hadoop-最全最完整的保姆級的java大資料學習資料

目錄 1.5.5 HDFS讀寫解析 1.5.5.1 HDFS讀資料流程 1.5.5.2 HDFS寫資料流程 1.5.5 HDFS讀寫解析

併發讀寫資料一致性保證（二）-MySQL

業務開發過程，其實就是使用者業務資料的處理過程，因而開發的核心任務就是維護資料一致不出錯。現實場景中，多個使用者會併發讀寫同一份資料（如秒殺），不加控制會翻車、加了控制則降低併發度，影響效能和使用者體

併發讀寫資料一致性保證（一）Java併發容器

業務開發過程，其實就是使用者業務資料的處理過程，因而開發的核心任務就是維護資料一致不出錯。現實場景中，多個使用者會併發讀寫同一份資料（如秒殺），不加控制會翻車、加了控制則降低併發度，影響效能和使用者體

淺談Python中的異常和JSON讀寫資料的實現

異常可以防止出現一些不友好的資訊返回給使用者，有助於提升程式的可用性，在java中通過try ... catch ... finally來處理異常，在Python中通過try ... except ... else來處理異常

使用FileStream讀寫資料

這節講一下使用FileStream讀寫資料，這是一個比較基礎的流。 FileStream類只能處理原始位元組，所以它可以處理任何型別的檔案。

spark-mongo(1 讀寫資料)

參考連結 MongoDB Connector for Spark官方文件 Mongo Spark 原始碼原文：https://www.jianshu.com/p/dbac491317cc

gorm CRUD:讀寫資料

操作的引數傳入基本都是結構體的指標，同時完成CURD後，指標指向的結構體資料也將隨著更新

python讀寫資料讀寫csv檔案(pandas用法)

python中資料處理是比較方便的，經常用的就是讀寫檔案，提取資料等，本部落格主要介紹其中的一些用法。Pandas是一個強大的分析結構化資料的工具集;它的使用基礎是Numpy(提供高效能的矩陣運算);用於資料探勘和資料分析

《elasticsearch》之讀寫資料

　　　　 es 寫資料過程 1）客戶端選擇一個 node 傳送請求過去，這個 node 就是coordinating node（協調節點）。

Spark開發-SparkSQL讀寫資料

SparkSQL資料讀寫 DataFrameReader DataFrameWriter DataFrameReader 對應的元件 SCHEMAOPTIONFORMAT

關於.net環境下跨程序、高頻率讀寫資料的問題

一、需求背景 1、最近專案要求高頻次地讀寫資料，資料量也不是很大，多表總共加起來在百萬條上下。

kafka 為什麼能那麼快？高效讀寫資料，原來是這樣做到的

1. 利用 Partition 實現並行處理　　我們都知道 Kafka 是一個 Pub-Sub 的訊息系統，無論是釋出還是訂閱，都要指定 Topic。

位元組流讀寫資料

位元組 InputStream是位元組輸入流的抽象類，是所有位元組輸入流的父類 InputStream類是用來處理位元組的，不適合處理文字，Java為字元文字的輸入提供了單獨的類---Reader類，但Reader類並不是InputStream類的替換者

任意資料長度的 bitset，以及按位讀寫資料的函式

如果沒有定義過 byte_t 型別： #include <stdint.h>typedef uint8_t byte_t;//typedef unsigned char byte_t; // 1 個 byte 位元組，8位，一般系統中能表示的最小位元組資料。