[Hadoop]Hadoop章2 HDFS原理及讀寫過程

阿新 • • 發佈：2019-03-15

client 第一個 fsimage slave lin 需要流程結構容錯

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系統。

HDFS有很多特點：

① 保存多個副本，且提供容錯機制，副本丟失或宕機自動恢復。默認存3份。

② 運行在廉價的機器上。

③ 適合大數據的處理。多大？多小？HDFS默認會將文件分割成block，64M為1個block。然後將block按鍵值對存儲在HDFS上，並將鍵值對的映射存到內存中。如果小文件太多，那內存的負擔會很重。

技術分享圖片

如上圖所示，HDFS也是按照Master和Slave的結構。分NameNode、SecondaryNameNode、DataNode這幾個角色。

NameNode：是Master節點，是大領導。管理數據塊映射；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；

SecondaryNameNode：是一個小弟，分擔大哥namenode的工作量；是NameNode的冷備份；合並fsimage和fsedits然後再發給namenode。

DataNode：Slave節點，奴隸，幹活的。負責存儲client發來的數據塊block；執行數據塊的讀寫操作。

熱備份：b是a的熱備份，如果a壞掉。那麽b馬上運行代替a的工作。

冷備份：b是a的冷備份，如果a壞掉。那麽b不能馬上代替a工作。但是b上存儲a的一些信息，減少a壞掉之後的損失。

fsimage:元數據鏡像文件（文件系統的目錄樹。）

edits：元數據的操作日誌（針對文件系統做的修改操作記錄）

namenode內存中存儲的是=fsimage+edits。

SecondaryNameNode負責定時默認1小時，從namenode上，獲取fsimage和edits來進行合並，然後再發送給namenode。減少namenode的工作量。

工作原理

寫操作：

有一個文件FileA，100M大小。Client將FileA寫入到HDFS上。

HDFS按默認配置。

HDFS分布在三個機架上Rack1，Rack2，Rack3。

a. Client將FileA按64M分塊。分成兩塊，block1和Block2;

b. Client向nameNode發送寫數據請求

c. NameNode節點，記錄block信息。並返回可用的DataNode

Block1: host2,host1,host3

Block2: host7,host8,host4

原理：

NameNode具有RackAware機架感知功能，這個可以配置。

若client為DataNode節點，那存儲block時，規則為：副本1，同client的節點上；副本2，不同機架節點上；副本3，同第二個副本機架的另一個節點上；其他副本隨機挑選。

若client不為DataNode節點，那存儲block時，規則為：副本1，隨機選擇一個節點上；副本2，不同副本1，機架上；副本3，同副本2相同的另一個節點上；其他副本隨機挑選。

d. client向DataNode發送block1；發送過程是以流式寫入。

流式寫入過程，

1>將64M的block1按64k的package劃分;

2>然後將第一個package發送給host2;

3>host2接收完後，將第一個package發送給host1，同時client想host2發送第二個package；

4>host1接收完第一個package後，發送給host3，同時接收host2發來的第二個package。

5>以此類推，直到將block1發送完畢。

6>host2,host1,host3向NameNode，host2向Client發送通知，說“消息發送完了”。

7>client收到host2發來的消息後，向namenode發送消息，說我寫完了。這樣就真完成了

8>發送完block1後，再向host7，host8，host4發送block2，

9>發送完block2後，host7,host8,host4向NameNode，host7向Client發送通知

10>client向NameNode發送消息，說我寫完了，這樣就完畢了。

分析，通過寫過程，我們可以了解到：

①寫1T文件，我們需要3T的存儲，3T的網絡流量。

②在執行讀或寫的過程中，NameNode和DataNode通過HeartBeat進行保存通信，確定DataNode活著。如果發現DataNode死掉了，就將死掉的DataNode上的數據，放到其他節點去。讀取時，要讀其他節點去。

③掛掉一個節點，沒關系，還有其他節點可以備份；甚至，掛掉某一個機架，也沒關系；其他機架上，也有備份。

讀操作：

讀操作就簡單一些了，client要從datanode上，讀取FileA。而FileA由block1和block2組成。

那麽，讀操作流程為：

a. client向namenode發送讀請求。

b. namenode查看Metadata信息，返回fileA的block的位置。

block1:host2,host1,host3

block2:host7,host8,host4

c. block的位置是有先後順序的，先讀block1，再讀block2。而且block1去host2上讀取；然後block2，去host7上讀取；

如果client位於機架內某個DataNode上，遵循的規律是：優選讀取本機架上的數據。

HDFS中常用到的命令

1、hadoop fs

1 2 3 4 5 6 7 8 9 10 11 12 13 hadoop fs -ls / hadoop fs -lsr hadoop fs -mkdir /user/hadoop hadoop fs -put a.txt /user/hadoop/ hadoop fs -get /user/hadoop/a.txt / hadoop fs -cp src dst hadoop fs -mv src dst hadoop fs -cat /user/hadoop/a.txt hadoop fs -rm /user/hadoop/a.txt hadoop fs -rmr /user/hadoop/a.txt hadoop fs -text /user/hadoop/a.txt hadoop fs -copyFromLocal localsrc dst 與hadoop fs -put功能類似。 hadoop fs -moveFromLocal localsrc dst 將本地文件上傳到hdfs，同時刪除本地文件。

2、hadoop fsadmin

1 2 3 hadoop dfsadmin -report hadoop dfsadmin -safemode enter | leave | get | wait hadoop dfsadmin -setBalancerBandwidth 1000

3、hadoop fsck

4、start-balancer.sh

[Hadoop]Hadoop章2 HDFS原理及讀寫過程

[Hadoop]Hadoop章2 HDFS原理及讀寫過程

client 第一個 fsimage slave lin 需要流程結構容錯 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系統。 HDFS有很多特點： ① 保存多個副本，且提供容錯機制，副本丟失或宕機自動恢

ProxySQL簡介原理及讀寫分離應用

#### MySQL-ProxySQL中介軟體簡介 ##### 同類型產品 - MySQL Route：是現在MySQL官方Oracle公司釋出出來的一箇中間件。 - Atlas：是由奇虎360公發的基於MySQL協議的資料庫中介軟體產品，它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基

HDFS資料的讀寫過程

1.資料讀取過程一般的檔案讀取操作包括：open 、read、close等客戶端讀取資料過程，其中1、3、6步由客戶端發起：客戶端首先獲取FileSystem的一個例項，這裡就是HDFS對應的例項： ①客戶端呼叫FileSystem例項的open方法，獲得這個

Hadoop(2): Blocks存儲管理及讀寫

存儲管理 src -h rep big play eno shu ack 為了提供Fault Tolerance，Hadoop Namenode在獲取rack id後，會將Block復制幾份存放在不同的rack中。該算法稱為Rack Awreness, 如下圖

大資料技術學習筆記之Hadoop框架基礎2-MapReduce程式設計及執行流程

一、回顧 -》hadoop的功能？ -》海量資料儲存和海量計算問題 -》分散式檔案儲存框架hdfs和

hadoop學習之路----HDFS原理與基本架構總結（第二講）

第二講主要內容如下1.HDFS特點（也就是HDFS適用什麼場景）2.HDFS缺點（也就是HDFS不適用什麼場景）3.HDFS基本架構4.HDFS工作原理5.下一代HDFS介紹下面主要聊聊其中的各個部分1.HDFS特點（主要出自PPT）主要有以下五點高容錯性資料自動儲存多個副本

大資料學習-Hadoop生態章---(一)HDFS

大資料學習-Hadoop生態章 (一) HDFS 1.1.Hadoop簡介 Hadoop是分散式的系統架構，是Apache基金會頂級金牌專案。 Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System)，簡稱HDFS。 Had

Hadoop之HDFS檔案讀寫過程

4.DFSOutputStream將資料分成塊，寫入data queue。data queue由Data Streamer讀取，並通知元資料節點分配資料節點，用來儲存資料塊(每塊預設複製3塊)。分配的資料節點放在一個pipeline裡。Data Streamer將資料塊寫入pipeline中的第

Hadoop詳解(二)——HDFS的命令，執行過程，Java介面，原理詳解。RPC機制

HDFS是Hadoop的一大核心，關於HDFS需要掌握的有：分散式系統與HDFS、HDFS的體系架構和基本概念、HDFS的shell操作、Java介面以及常用的API、Hadoop的RPC機制、遠端debugDistributed File System資料量越來越多，在一

Hadoop 3.0 新特性原理及架構深度剖析

Hadoop 3.0在HDFS，Yarn，MapReduce核心部分有哪些變化呢？經過多年的發展，Hadoop已經日趨成熟，3.0版本釋出，預示著Hadoop進入了新的發展階段，那麼Hadoop3.0有哪些內容，哪些值得注意的地方？都是我們值得研究的部分

第13章第2講文件讀寫操作

pla margin nbsp tchar img http blog fputs fop #include"stdio.h" main() { FILE *fp; if((fp=fopen("c1.txt","rt"))==NULL) {

初識HDFS原理及框架

大量用法執行 nod tro lds hba 配置參數管理數據目錄 HDFS是什麽 HDFS的優缺點 HDFS的框架 HDFS的讀寫流程 HDFS命令 HDFS參數 1. HDFS是什麽 HDFS（Hadoop Dist

0day安全：軟體漏洞分析技術第二章棧溢位原理及實踐

_stdcall呼叫約定下，函式呼叫時用到的指令序列大致如下：push 引數3push 引數2push 引數1call 函式地址；a)向棧中壓入當前指令在記憶體中的位置，即儲存儲存返回地址。b)跳轉到所呼叫函式的入口push ebp 儲存舊棧幀的底部mov ebp,esp 設定新棧幀的底部（棧幀切換）sub

hadoop 使用eclipse plugin執行存在許可權讀寫問題

在開發過程中使用1.1.2在eclipse中執行，出現 org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.security.AccessControlException: Permission denied:

HDFS原理及架構

技術 hdfs 錯誤 ecn log 通道建立返回值調用 HDFS架構 HDFS是一個master/slave結構的服務，其中NameNode是master，一般只在一臺節點上啟動；DataNode是slave，一般每臺節點都會啟動一個；DataNode不斷地主動向N

R語言使用RMySQL連接及讀寫Mysql數據庫

技術分享 fcm list adl 創建數據庫 package install sql安裝 packages 簡單說下安裝過程，一般不會有問題，重點是RMySQL的使用方式。系統環境說明 Redhat系統：Linux 460-42.6.32-431.29.2.el6.

mysql 主從實戰及讀寫分離

logs 啟動毫秒 class -- systemctl position 讀寫 mas 1. MYSQL主從原理　　　1）至少需要2臺數據庫服務器，一主一從，Master開啟bin-log功能用於記錄主庫增加、刪除、修改、更新SQL語句。　　2）異步復

mysql主從及讀寫分離

主從與讀寫分離主從同步1 主配置把237配置為主數據庫服務器授權用戶從42數據庫服務器連接自己的時候有拷貝數據的權限grant replication slave on *.* to [email protected]"172.40.7.42" identified

HDFS文件讀寫流程簡單圖解

http pla ges jpg eight 簡單系統 mage pan 在活動反思文件系統中 HDFS文件讀寫流程簡單圖解

搬家行業開發小程序系統（App.Config詳解及讀寫操作）

設置反饋流程選擇文件的搬家功能操作服務項目應用程序配置文件是標準的 XML 文件，XML 標記和屬性是區分大小寫的。它是可以按需要更改的，開發人員可以使用配置文件來更改設置，而不必重編譯應用程序。配置文件的根節點是configuration。我們經常訪問的