1. 程式人生 > >十小時入門大資料學習筆記(二)

十小時入門大資料學習筆記(二)

第二章 初識Hadoop

2.1Hadoop概述

名稱由來:專案作者的孩子對黃色大象玩具的命名

開源、分散式儲存與分散式計算的平臺

Hadoop能做什麼:

1. 搭建大型資料倉庫,PB級資料的儲存、處理、分析、統計等業務

2. 搜尋引擎、日誌分析、資料探勘、商業智慧

2.2Hadoop核心元件

HDFS(分散式檔案系統)

1. 源於Google200310月發表的GFS論文

2. GFS的克隆

3. 特點:擴充套件性、容錯性、海量資料儲存

4. 將檔案切分成指定大小的資料塊並且多副本存於多個機器上

5. 資料切分、多副本、容錯對使用者是透明的

 

YARN(資源管理系統)

1. 整個叢集資源的管理與排程

2. 特點:擴充套件性、容錯性、多框架資源統一排程

 

MapReduce(分散式計算框架)

1. 200412月的GoogleMapReduce論文

2. Google MapReduce的克隆版

3. 特點:擴充套件性、容錯性、海量資料的離線處理

 

2.3Hadoop優勢

Hadoop優勢之高擴充套件性

1. 儲存/計算資源不夠可以橫向線性的擴充套件機器

2. 一個叢集可以包含數以千計、萬計的節點

Hadoop其他優勢

1. 儲存在低廉機器上、成本低廉

2. 成熟的生態圈

2.4Hadoop發展史

Hadoop十年解讀與發展預測》

狹義的Hadoop:適合於大資料的分散式儲存(HDFS)、分散式計算(MapReduce)和資源排程(YARN)的平臺。

廣義的Hadoop

Hadoop生態系統,龐大的概念,hadoop是其中最重要最基礎的一部分;生態系統中的每一個子系統針對特定的問題域(甚至可能更窄);不搞統一型的全能系統,而是小而精的多個小系統。

2.5Hadoop的生態系統

 

生態系統特點:

1. 開源、社群活躍

2. 囊括了大資料處理的方方面面

2.6Hadoop發行版的選擇

1. Apache Hadoop

2. CDHCloudera Distributed Hadoop

3.HDPHortonworks Data Platform

2.7企業中的應用案例

1. 消費大資料

2. 商品零售大資料