剖析HDFS的檔案寫入

阿新 • • 發佈：2018-11-23

客戶端通過對DistributedFileSystem 物件呼叫create()來新建檔案(步驟1)。DistributedFileSystem對namenode 建立一個RPC呼叫，在檔案系統的名稱空間中新建一個檔案，此時該檔案中還沒有相應的資料塊(步驟2)。namenode執行各種不同的檢查以確保這個檔案不存在以及客戶端有新建該檔案的許可權。如果這些檢查均通過，namenode就會為建立新檔案記錄一條記錄，如果檢查未通過，會導致檔案建立失敗並向客戶端丟擲一個IOException。DistributedFileSystem向客戶端返回一個FSDataOutputStream物件，由此客戶端可以開始寫入資料。就像讀取事件一樣，FSDataOutputStream封裝一個DFSOutputStream物件，該物件負責處理datanode和namenode之間的通訊。

      圖-客戶端將資料寫入HDFS

在客戶端寫入資料時(步驟3)， DFSOutputStream將它分成一個個的資料包，並寫入內部佇列，稱為“資料佇列”(data queue)。 DataStreamer處理資料佇列，它的責任是挑選出適合儲存資料複本的一組datanode，並據此來要求namenode分配新的資料塊。這一組 datanode 構成一個管線——我們假設複本數為3，所以管線中有3個節點。DataStreamer將資料包流式傳輸到管線中第1個datanode，該datanode儲存資料包並將它傳送到管線中的第2個datanode。同樣，第2個datanode儲存該資料包並且傳送給管線中的第3個(也是最後一個)datanode (步驟4

)。
DFSOutputStream也維護著一個內部資料包佇列來等待datanode的收到確認回執，稱為“確認佇列”(ack queue)。收到管道中所有datanode 確認資訊後，該資料包才會從確認佇列刪除(步驟5)。

     如果任何datanode 在資料寫人期間發生故障，則執行以下操作(對寫人資料的客戶端是透明的)。首先關閉管線，確認把佇列中的所有資料包都添加回資料佇列的最前端，以確保故障節點下游的datanode 不會漏掉任何一個數據包。為儲存在另一正常datanode的當前資料塊指定一- 個新的標識，並將該標識傳送給namenode, 以便故障datanode在恢復後可以刪除儲存的部分資料塊。從管線中刪除故障datanode,基於兩個正常datanode 構建一條新管線。餘下的資料塊寫入管線中正常的datanode。namenode 注意到塊複本量不足時，會在另一個節點上建立一個新的複本。後續的資料塊繼續正常接受處理。

     在一個塊被寫入期間可能會有多個datanode同時發生故障,但非常少見。只要寫入了dfs.namenode.replication.min的複本數(預設為1),寫操作就會成功，並且這個塊可以在叢集中非同步複製，直到達到其目標複本數(dfs.replication的預設值為3)。

      客戶端完成資料的寫入後，對資料流呼叫close()方法(步驟6

)。該操作將剩氽的所有資料包寫人datanode 管線，並在聯絡到namenode告知其檔案寫人完成之前，等待確認(步驟7)。namenode已經知道檔案由哪些塊組成(因為Datastreamer請求分配資料塊),所以它在返回成功前只需要等待資料塊進行最小量的複製。

剖析HDFS檔案的讀取

客戶端通過呼叫FileSystem物件的open()方法來開啟希望讀取的檔案，對於HDFS來說，這個物件是DistributedFileSystem的一個例項(圖中的步驟1)。DistributedFileSystem通過使用遠端過程呼叫(RPC)來呼叫namenode,以

HDFS檔案寫入

上一篇部落格中介紹了 HDFS 讀取檔案的流程，這篇文章趁熱打鐵，介紹一下 HDFS 檔案寫入的流程，整個流程如下：通過 FileSystem.get 方法獲取檔案系統 FileSystem，HDFS 檔案系統例項為 DistributedFileSystem。通過 DistributedFileSy

HDFS檔案寫入與讀取

HDFS檔案寫入與讀寫副本（3個）選擇策略說明： 1. 若client為DataNode節點，那儲存block時，規則為：副本1，同client的節點上；副本2，不同機架節點上；副本3，同第二個副本機架的另一個節點上；其他副本隨機挑選。 2. 若client

剖析HDFS的檔案寫入

客戶端通過對DistributedFileSystem 物件呼叫create()來新建檔案(步驟1)。DistributedFileSystem對namenode 建立一個RPC呼叫，在檔案系統的名稱空間中新建一個檔案，此時該檔案中還沒有相應的資料塊(步

HDFS檔案的建立以及向檔案中寫入內容

package com.yc.hadoop.hdfs; import java.net.URI; import java.util.Scanner; import org.apache.hadoop.conf.Configuration; import org.apache.

hadoop2.6.0原始碼剖析-客戶端(第二部分--讀(open)HDFS檔案)

在讀HDFS檔案前，需要先open該檔案，這個呼叫的是org.apache.hadoop.fs.FileSystem類物件，但是由於實際建立的物件是org.apache.hadoop.hdfs.DistributedFileSystem類物件，後者是前者的子類，所以呼叫父類中的FSDataInput

剖析HDFS的檔案讀寫

客戶端通過對DistributedFileSystem物件呼叫create()來新建檔案(步驟1)。DistributedFileSystem對namenode建立一個RPC呼叫，在檔案系統的名稱空間中新建一個檔案，此時該檔案中還沒有相應的資料塊(步驟2)。namenode執行各種不同的檢查

hadoop2.6.0原始碼剖析-客戶端(第二部分--讀(read)HDFS檔案)

上篇文章我們分析了open函式，這個函式會獲取要開啟檔案的塊資訊，接下來我們開始分析讀檔案部分的程式碼。我們先來看一個示例，程式碼如下： package com.hadoop.senior.hdfs; import java.io.File; import java.io.FileIn

測試將web日誌流檔案寫入hdfs的配置檔案

a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir =/home/hadoop/log a1.sources.r1.fileHeader =

flume向hdfs中寫入大檔案（日誌）

問題： flume監控的目錄寫入大檔案的時候不能同步記錄在hdfs中 flume監控的目錄寫入大檔案的時候，同步記錄到hdfs中後變成多個小檔案解決辦法：更改flume的配置資訊（主要更改滾動方式），滾動的意思是當flume監控的目錄達到了配置資訊中的某一條滾動方式的時候

flume向hdfs中寫入會生成很多小檔案

問題： flume監控的目錄寫入大檔案的時候不能同步記錄在hdfs中 flume監控的目錄寫入大檔案的時候，同步記錄到hdfs中後變成多個小檔案 flume從kafka中讀取資料下沉到hdfs中會生成很多小檔案解決辦法：更改flume的配置資訊（主要更改滾動方式），滾動的意思是當flu

Hadoop檔案寫入(詳細剖析)

步驟詳情: 檔案是如何寫入 HDFS 的。儘管比較詳細，但對於理解資料流還是很有用的，因為它清楚地說明了 HDFS 的一致模型。要考慮的情況是如何建立一個新檔案，並把資料寫入該檔案，最後關閉該檔案

HDFS檔案讀取和寫入

讀取檔案：一：讀取方式一寫入哪個DataNode是不確定的，主要尋找讀取速度較快的DataNode；怎麼找到這種DataNode，從以下幾個方面：是否有本機位置，本機架位置，本機房位置；依次重試讀取檔案，直到讀取檔案成功；二：讀取方式二：back

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

phpmyadmin利用日誌檔案寫入一句話

前提： root許可權，已經進入了phpmyadmin後臺 1、首先進入phpmyadmin後臺，檢視genelog變數，更改general log和general log file引數，初始設定general log是OFF，我們將其改成ON;general log file我們將其改

003-nodejs檔案寫入系統

我們來試試nodejs的檔案寫入系統 ---實現檔案寫入操作--- //1.載入檔案作業系統,fs模組 var fs = require('fs'); //2.實現檔案寫入操作 var msg = 'Hello World'; //3.呼叫f

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

HDFS檔案讀寫操作（通俗易懂）

首先來介紹兩個概念 ▪NameNode：領導級別。管 NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間； DataNode：員工級別。負責儲存客戶端發來的資料塊block；執行資料塊的讀寫操作。理資料寫詳細步驟： 1、首先

分散式系統詳解--框架（Hadoop--JAVA操作HDFS檔案）

分散式系統詳解--框架（Hadoop--JAVA操作HDFS檔案）前面的文章介紹了怎麼將整個集群系統搭建起來，並進行了有效的測試。為了解決登入一臺伺服器登入其他伺服器需要多次輸入密碼的

剖析HDFS的檔案寫入

相關推薦