1. 程式人生 > >hadoop生態系統及版本演化

hadoop生態系統及版本演化





HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務             HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版 YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集
MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點             MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google 克隆版
Hive:由facebook開源,基於MR的資料倉庫
,資料計算使用MR,資料儲存使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:
類似SQL,但不完全相同         日誌分析:統計網站一個時間段內的pv、uv Pig:由yahoo!開源,構建在Hadoop之上的資料倉庫
Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification) HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 , Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,
是Chubby克隆版                 解決分散式環境下資料管理問題 :統一命名 、狀態同步 、叢集管理 、配置同步 Sqoop:資料同步工具,連線Hadoop與傳統資料庫之間的橋樑 ,支援多種資料庫,包括MySQL、DB2等 ,插拔式,使用者可根據需要支援新的資料庫 ;本質上是一個MapReduce程式 Flume:日誌收集工具,Cloudera開源的日誌收集系統 Oozie:作業流排程系統         目前計算框架和作業型別繁多: MapReduce Java、Streaming、HQL、Pig等          如何對這些框架和作業進行統一管理和排程:                 不同作業之間存在依賴關係(DAG);                 週期性作業                 定時執行的作業                 作業執行狀態監控與報警(發郵件、簡訊等)

Hadoop發行版本         apache hadoop版本         CDH:Cloudera DistributedHadoop         HDP:Hortonworks Data Platform 建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)         更易維護和升級         經過整合測試,不會面臨版本相容問題

--------------------------
微信公眾號:IT人成長關注
大資料技術QQ群:485681776