hadoop生態系統及版本演化
阿新 • • 發佈:2019-01-01
HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務 HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版 YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集中
MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點 MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google 克隆版
Hive:由facebook開源,基於MR的資料倉庫
Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification) HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 , Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,
Hadoop發行版本 apache hadoop版本 CDH:Cloudera DistributedHadoop HDP:Hortonworks Data Platform 建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本) 更易維護和升級 經過整合測試,不會面臨版本相容問題
--------------------------
微信公眾號:IT人成長關注
大資料技術QQ群:485681776