Hadoop_08_客戶端向HDFS讀寫（上傳）數據流程

阿新 • • 發佈：2018-06-17

pack 查詢文件路徑 hdfs 校驗 blocks 管理 con 讀取數據

1.HDFS的工作機制：

HDFS集群分為兩大角色：NameNode、DataNode (Secondary Namenode)
NameNode負責管理整個文件系統的元數據
DataNode 負責管理用戶的文件數據塊（只管接收保存，不負責切片）
文件會按照固定的大小（blocksize）128M切成若幹塊後分布式存儲在若幹臺datanode上
每一個文件塊可以有多個副本，並存放在不同的datanode上
Datanode會定期向Namenode匯報自身所保存的文件block信息，而namenode則會負責保持文件的副本數量
HDFS的內部工作機制對客戶端保持透明，客戶端請求訪問HDFS都是通過向namenode申請來進行

2.HDFS的寫數據流程：

2.1.概述

　　客戶端要向HDFS寫數據，首先跟Namenode通信以確認可以寫文件並獲得接收文件block的datanode(切塊在客戶端進行)，

然後客戶端按順序將文件逐個block傳遞給相應datanode，並由接收到block的datanode負責向其他datanode復制block副本

2.2.詳細步驟流程圖：

步驟詳細說明

　　1. 跟namenode通信請求上傳文件，namenode檢查目標文件是否已存在，父目錄是否存在

　　2. namenode返回是否可以上傳

　　3. client請求第一個 block該傳輸到哪些datanode服務器上

　　4. namenode返回3個datanode服務器ABC

　　5. client請求3臺dn中的一臺A上傳數據（本質上是一個RPC調用，建立pipeline），A收到請求會繼續調用B，然後B調用C，

將真個pipeline建立完成，逐級返回客戶端

　　6. client開始往A上傳第一個block（先從磁盤讀取數據放到一個本地內存緩存），以packet為單位，A收到一個packet就會傳

給B，B傳給C；A每傳一個packet會放入一個應答隊列等待應答

　　7.當一個block傳輸完成之後，client再次請求namenode上傳第二個block的服務器。

3.HDFS的讀數據流程：　

　　客戶端將要讀取的文件路徑發送給namenode，namenode獲取文件的元信息（主要是block的存放位置信息）返回給客戶端，

客戶端根據返回的信息找到相應datanode逐個獲取文件的block並在客戶端本地進行數據追加合並從而獲得整個文件

　　讀數據流程圖：

　　技術分享圖片　　

4.3.3 詳細步驟解析

　　1、跟namenode通信查詢元數據，找到文件塊所在的datanode服務器

　　2、挑選一臺datanode（就近原則，然後隨機）服務器，請求建立socket流

　　3、datanode開始發送數據（從磁盤裏面讀取數據放入流，以packet為單位來做校驗）

　　4、客戶端以packet為單位接收，現在本地緩存，然後寫入目標文件

Hadoop_08_客戶端向HDFS讀寫（上傳）數據流程

pack 查詢文件路徑 hdfs 校驗 blocks 管理 con 讀取數據 1.HDFS的工作機制： HDFS集群分為兩大角色：NameNode、DataNode (Secondary Namenode) NameNode負責管理整個文件系統的元數據 DataNode

解決客戶端向服務器寫中文時亂碼問題

ade prot 內容 tty protected wid extend odi inf package com.hdh.content;import java.io.IOException;import java.io.PrintWriter;import javax.

初涉掃碼登錄：edusoho實現客戶端掃碼登錄（簡版）

confirm 鍵值版本號 error == form 通過遮罩層 strrev 一、項目簡介及需求 edusoho是一套商業版的在線教育平臺，項目本身基於symfony2框架開發，現在有一款自己的APP，要求在不多修改edusoho自身代碼的基礎上，實現客戶端對P

Redis Cluster集群搭建後，客戶端的連接研究（Spring/Jedis）（待實踐）

turn ron 記錄 redis div println 刪除 clu name 說明：無論是否已經搭建好集群，還是使用什麽樣的客戶端去連接，都是必須把全部IP列表集成進去，然後隨機往其中一個IP寫。這樣做的好處： 1、隨機IP寫入之後，Redis Cluster代

windows下測試磁盤讀寫（HD Tune）

hd tune hd tune測試磁盤讀寫速度 3個SATA磁盤組成RAID 5，4個SAS硬盤組成另外一個RAID 5。測試結果如下：用HD Tune測試讀速度：用HD Tune測試寫速度（需要刪除分區再測試）：windows下測試磁盤讀寫（HD Tune）

IO讀寫（復制）視頻練習

IOpackage com.chen.io1; import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.FileInputStream;import java.io.FileNotFoundEx

C 檔案讀寫（二進位制檔案）

我們將介紹 C 程式設計師如何建立、開啟、關閉文字檔案或二進位制檔案。一個檔案，無論它是文字檔案還是二進位制檔案，都是代表了一系列的位元組。C 語言不僅提供了訪問頂層的函式，也提供了底層（OS）呼叫來處理儲存裝置上的檔案。本章將講解檔案管理的重要呼叫。開啟檔案您可

如何將NTFS格式的行動硬碟掛接到Mac OS上進行讀寫（Read/Write）操作

現在硬碟便宜，很多同學都有行動硬碟，如果你同時使用Windows與Mac OS的話，行動硬碟最好不要使用NTFS檔案系統，否則在Mac OS上，你只能讀你的行動硬碟，不能寫。但是實際上的情況是，行動硬碟上有很多東西了，且最初是格式化為了NTFS格式，這時候重新格式化是很麻煩的，要做資料移動。

Java實現CSV格式檔案的讀寫（操作API）

首先引入maven <dependency> <groupId>net.sourceforge.javacsv</groupId> <

GitHub圖形化客戶端實現Git合併分支（上）

一本地兩個分支的合併現在專案只有一個master分支，我們新建了一個idea分支，實現自己的想法，commit一下，那麼現在倉庫內的情況是這樣的如何讓idea的程式碼併入master呢？需要“

讀寫（Read-Write）鎖實現

大部分情況下，使用一個數據結構時並不會對其進行修改。而是隻需要一個區段的讀取許可權來完成工作。如果有多個執行緒需要讀取某一個數據，沒有理由不讓它們併發的進行讀取。Spinlock 鎖無法區分只有讀以及讀寫混合的場景，因為 spinlock 鎖無法滿足這種潛在

C\C++對大檔案的快速讀寫（記憶體對映）

1、建立檔案(CreateFile)，如下： HANDLE CreateFile( LPCTSTR lpFileName, DWORD dwDesiredAccess, DWORD dwShareMode, LPSECURITY_ATTRIBU

linux下使用C++程式操作檔案的讀寫（複製/拷貝）

注意：在linux下使用eclipse+CDT執行下面的程式時，請在root狀態下！！！在終端中，進入root狀態，然後在root狀態下，開啟eclipse，再執行下面的程式。（因為涉及到檔案讀寫許可權，普通狀態可能無法完成操作，root狀態下會更好一些。）一.關於檔案操作的

呼叫JAVA API對HDFS檔案進行檔案的讀寫、上傳下載、刪除等操作程式碼詳解

Hadoop檔案系統基本的檔案系統命令操作, 通過hadoop fs -help可以獲取所有的命令的詳細幫助檔案。 Java抽象類org.apache.hadoop.fs.FileSystem定義了hadoop的一個檔案系統介面。該類是一個抽象類，通過以下兩種靜態工廠方

LINUX C語言檔案的讀寫（非二進位制）

#include<stdio.h> #include<stdlib.h> #include<unistd.h> #include<fcntl.h> #include<string.h> int main() { i

NFC技術：讀寫非NDEF格式的數據

ltr ext final indexof read gin nds edi exce 1 //向nfc標簽讀寫MifareUltraligh格式的數據 2 public class MainActivity extends Activity { 3

PHP系列（十二）數據庫抽象層pdo

pdo1、數據庫抽象層pdo(1)、PDO(php data object)擴展類庫為php訪問數據庫定義了輕量級的、一致性的接口它可以支持mysql,postgresql,oracle,mssql等多種數據庫(2). PDO的安裝編輯php.ini文件:– extension=php_pdo.dll– ex

學習筆記（十一）——數據庫的索引碎片、計劃緩存、統計信息

部分 null 文章 mage like 分享 show not 決定 1.索引碎片數據庫存儲本身是無序的，建立了聚集索引，會按照聚集索引物理順序存入硬盤。既鍵值的邏輯順序決定了表中相應行的物理順序而且在大多數的情況下，數據庫寫入頻率遠低於讀取頻率，索引的存在為了讀

day9-Python學習筆記（二十）數據庫備份，

python學習 swd div pan self. 數據筆記 tmp filename 數據庫備份， import os,datetimeclass BakDb(object): def __init__(self,ip,username,passwd,port

SpringMVC（十六）數據校驗

解析器 demo1 color != span 錯誤一個用戶 gem ted 一、什麽是數據校驗？　　　　　　這個比較好理解，就是用來驗證客戶輸入的數據是否合法，比如客戶登錄時，用戶名不能為空，或者不能超出指定長度等要求，這就叫做數據校驗。　　　　　　數據校驗分為客戶

Hadoop_08_客戶端向HDFS讀寫（上傳）數據流程

步驟詳細說明

4.3.3 詳細步驟解析

相關推薦