2、Hadoop 2.X 概述及生態系統
阿新 • • 發佈:2018-12-13
Hadoop官網
Hadoop來源
- GFS -> HDFS
- MapReduce -> MapReduce
- BigTable -> HBase
Common
The common utilities that support the other Hadoop modules.
- 工具、基礎、為工程服務
HDFS
A distributed file system that provides high-throughput access to application data.
- 儲存海量資料
- 分散式
- 安全性:副本資料
- 資料是以block的方式進行儲存的
YARN
A framework for job scheduling and cluster resource management.
- 分散式資源管理框架
- 管理整個叢集的資源(記憶體、CPU核數)
- 分配排程叢集的資源
MapReduce
A YARN-based system for parallel processing of large data sets.
- 對海量資料的處理
- 分散式
- 思想:分而治之。
- 大資料集分為小的資料集,進行邏輯業務處理(map),合併統計資料集結果(reduce)