1. 程式人生 > >hadoop生態的大體介紹

hadoop生態的大體介紹

hadoop生態的大體介紹
重點元件:
HDFS:Hadoop 的分散式檔案儲存系統
MapReduce:Hadoop 的分散式程式運算框架,也可以叫做一種程式設計模型
Hive:基於 Hadoop 的類 SQL 資料倉庫工具
HBase:基於 Hadoop 的列式分散式 NoSQL 資料庫
ZooKeeper:分散式協調服務元件
Mahout:基於 MapReduce/Flink/Spark 等分散式運算框架的機器學習演算法庫
Oozie/Azkaban:工作流排程引擎
Sqoop:資料遷入遷出工具
Flume:日誌採集工具

資料的處理流程:
hadoop生態的大體介紹
A、資料採集:定製開發採集程式,或使用開源框架 Flume 或者 LogStash
B、資料預處理:定製開發 MapReduce 程式運行於 Hadoop 叢集,或者專門資料收集工具也能進行資料預處理
C、資料倉庫技術:基於 Hadoop 之上的 Hive
D、資料匯出:基於 Hadoop 的 Sqoop 資料匯入匯出工具
E、資料視覺化:定製開發 web 程式或使用 Kettle 等產品
F、資料統計分析:Hadoop 中的 MapReduce 或者基於 Hadoop 的 Hive,或者 Spark,Flink
G、整個過程的流程排程:Hadoop 生態圈中的 Oozie/Azkaban 工具或其他類似開源產品