1. 程式人生 > >初識Hadoop

初識Hadoop

並行處理 ack 初識hadoop 單元 name 多個 分布式 png mage

1,Hadoop的組成
兩個核心組成
HDFS: 分布式文件系統,存儲海量的數據
MapReduce: 並行處理框架,實現任務分解和調度

2,HDFS
HDFS中的文件被分成塊進行存儲,默認的塊大小為64MB, 塊是文件存儲處理的邏輯單元
HDFS中有兩類節點 NameNode和DataNode

2.1,NameNode是管理節點,存放文件元數據
文件與數據塊的映射表
數據塊與數據節點的映射表

2.2,DataNode是HDFS的工作節點,存放數據塊

技術分享圖片


2.3,HDFS中的數據管理與容錯
每個數據塊3個副本,分布在兩個機架內的三個節點
DataNode定期向NameNode發送心跳消息

技術分享圖片

二級NameNode定期同步元數據映像文件和修改日誌,當NameNode發生故障時,備胎轉正

技術分享圖片

HDFS讀取文件的流程

技術分享圖片

HDFS寫入文件的流程

技術分享圖片

3,MapReduce原理
分而治之,一個大任務分成多個小的子任務(map) 並行執行後,合並結果(reduce)

技術分享圖片

3.1,MapReduce中的基本概念
JobTracker的角色
作業調度
分配任務,監控任務執行進度
監控TaskTracker的狀態
TaskTracker的角色
執行任務
匯報任務狀態

技術分享圖片

技術分享圖片

3.2,MapReduce的容錯機制
重復執行(最多重復4次)
推測執行

初識Hadoop