HDFS檔案寫入

阿新 • • 發佈：2018-11-30

上一篇部落格中介紹了 HDFS 讀取檔案的流程，這篇文章趁熱打鐵，介紹一下 HDFS 檔案寫入的流程，整個流程如下：

通過 FileSystem.get 方法獲取檔案系統 FileSystem，HDFS 檔案系統例項為 DistributedFileSystem。
通過 DistributedFileSystem.create 呼叫 namenode 的服務，請求在 namenode 的名稱空間中建立一個新的檔案條目。namenode 會先檢查該檔案是否存在，客戶端是否有許可權建立，通過這些檢查之後 namenode 才會生成檔案條目，並返回 DFSoutputStream，負責處理資料節點和名稱節點之間的通訊。如果失敗則返回一個 IOException。

DFSoutputStream 在將檔案寫入到 datanode 前，會先將檔案分為一個個 packet，排成佇列 data queue。
DFSoutputStream 在處理 data queue 時，會先請求 namenode，詢問這個檔案儲存在哪幾個 datanode 比較合適（為了保證資料的安全性，需要將檔案備份到不同的 datanode 上，預設為 3 個）。然後將這幾個 datanode 排成一個 pipeline，DFSoutputStream 把 packet 按 data queue 佇列順序傳送到第一個 datanode 中，第一個 datanode 又把這個 packet 傳送到第二個 datanode 中，以此類推。

當 pipeline 中所有節點將這個 packet 傳輸完成之後，會發送一個確認碼給客戶端，這時 DFSoutputStream 才會將這個 packet 從 data queue 中去掉。
檔案傳輸完成之後，SDFoutputStream 呼叫 close 方法結束檔案的傳輸
DistributedFileSystem 呼叫 complete 通知 namenode 把這個檔案標示為已完成。

用一張圖片概括就是這個樣子：

HDFS檔案寫入

這裡在補充說明一個問題，namenode 如何選擇哪個資料節點來儲存副本呢？Hadoop 的策略是在與客戶端相同的節點上放置第一個副本（若客戶端執行在叢集之外，就可以隨機選擇節點，不過系統會避免挑選那些太滿或太忙的節點）。

第二個副本被放置在與第一個節點不同的隨機選擇的機架上。第三個副本被放置在與第二個副本相同的機架，但放在不同的節點。整個資料中心如下圖：

hdfs資料中心

以上就是我對 HDFS 寫入檔案的總結，如果有錯歡迎指出！

HDFS檔案寫入

上一篇部落格中介紹了 HDFS 讀取檔案的流程，這篇文章趁熱打鐵，介紹一下 HDFS 檔案寫入的流程，整個流程如下：通過 FileSystem.get 方法獲取檔案系統 FileSystem，HDFS 檔案系統例項為 DistributedFileSystem。通過 DistributedFileSy

HDFS檔案寫入與讀取

HDFS檔案寫入與讀寫副本（3個）選擇策略說明： 1. 若client為DataNode節點，那儲存block時，規則為：副本1，同client的節點上；副本2，不同機架節點上；副本3，同第二個副本機架的另一個節點上；其他副本隨機挑選。 2. 若client

HDFS檔案的建立以及向檔案中寫入內容

package com.yc.hadoop.hdfs; import java.net.URI; import java.util.Scanner; import org.apache.hadoop.conf.Configuration; import org.apache.

剖析HDFS的檔案寫入

客戶端通過對DistributedFileSystem 物件呼叫create()來新建檔案(步驟1)。DistributedFileSystem對namenode 建立一個RPC呼叫，在檔案系統的名稱空間中新建一個檔案，此時該檔案中還沒有相應的資料塊(步

測試將web日誌流檔案寫入hdfs的配置檔案

a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir =/home/hadoop/log a1.sources.r1.fileHeader =

flume向hdfs中寫入大檔案（日誌）

問題： flume監控的目錄寫入大檔案的時候不能同步記錄在hdfs中 flume監控的目錄寫入大檔案的時候，同步記錄到hdfs中後變成多個小檔案解決辦法：更改flume的配置資訊（主要更改滾動方式），滾動的意思是當flume監控的目錄達到了配置資訊中的某一條滾動方式的時候

flume向hdfs中寫入會生成很多小檔案

問題： flume監控的目錄寫入大檔案的時候不能同步記錄在hdfs中 flume監控的目錄寫入大檔案的時候，同步記錄到hdfs中後變成多個小檔案 flume從kafka中讀取資料下沉到hdfs中會生成很多小檔案解決辦法：更改flume的配置資訊（主要更改滾動方式），滾動的意思是當flu

HDFS檔案讀取和寫入

讀取檔案：一：讀取方式一寫入哪個DataNode是不確定的，主要尋找讀取速度較快的DataNode；怎麼找到這種DataNode，從以下幾個方面：是否有本機位置，本機架位置，本機房位置；依次重試讀取檔案，直到讀取檔案成功；二：讀取方式二：back

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

phpmyadmin利用日誌檔案寫入一句話

前提： root許可權，已經進入了phpmyadmin後臺 1、首先進入phpmyadmin後臺，檢視genelog變數，更改general log和general log file引數，初始設定general log是OFF，我們將其改成ON;general log file我們將其改

003-nodejs檔案寫入系統

我們來試試nodejs的檔案寫入系統 ---實現檔案寫入操作--- //1.載入檔案作業系統,fs模組 var fs = require('fs'); //2.實現檔案寫入操作 var msg = 'Hello World'; //3.呼叫f

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

HDFS檔案讀寫操作（通俗易懂）

首先來介紹兩個概念 ▪NameNode：領導級別。管 NameNode：領導級別。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間； DataNode：員工級別。負責儲存客戶端發來的資料塊block；執行資料塊的讀寫操作。理資料寫詳細步驟： 1、首先

分散式系統詳解--框架（Hadoop--JAVA操作HDFS檔案）

分散式系統詳解--框架（Hadoop--JAVA操作HDFS檔案）前面的文章介紹了怎麼將整個集群系統搭建起來，並進行了有效的測試。為了解決登入一臺伺服器登入其他伺服器需要多次輸入密碼的

Linux高階程式設計基礎——檔案系統程式設計之檔案寫入操作

檔案系統程式設計之檔案寫入操作——實驗題 //編寫程式碼，完成以下功能： //1.建立檔案file1，寫入字串“abcdefghijklmn”； //2.建立檔案file2，寫入字串“ABCDEFGHIJKLMN”; //3.讀取file1中的內容，寫入file2，使file2中的字串內容為“a

[Visual Studio C++][MFC] fstream函式的使用方法：C++檔案寫入、讀出函式。

文章轉自：https://www.cnblogs.com/zhoug2020/p/8427277.html [導讀] ofstream是從記憶體到硬碟，ifstream是從硬碟到記憶體，其實所謂的流緩衝就是記憶體空間 &

將任意檔案寫入以太坊區塊的方法

以太坊除數字貨幣方面的應用外，還可以儲存無法被篡改/刪除的資料（51%雙花攻擊或者區塊回滾除外）。一段文字，一張照片，或者一首歌曲，只需寫入以太坊區塊中，即可真正做到 “恆久遠永流傳” ，不會出現網盤、郵箱、網

python中 .write 無法向檔案寫入內容

問題程式碼如下 links = open("new") out = open("out.txt","w+") for link in links: out.write(link+"\n") 問題原因：當沒有使用flush()或close()時，要寫入的內容依然在緩衝區中，沒有寫入檔案，如果中途

java連線hdfs檔案系統並訪問檔案

package hadoop; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.net.URL; import org.apache.

HDFS檔案寫入

相關推薦