Cloudera的CDH和Apache的Hadoop的區別
目前而言,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:Apache(最原始的版本,所有發行版均基於這個版本進行改進)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱CDH)、Hortonworks版本(Hortonworks Data Platform,簡稱“HDP”),對於國內而言,絕大多數選擇CDH版本,CDH和Apache版本主要區別如下:
(1) CDH對Hadoop版本的劃分非常清晰,只有兩個系列的版本,分別是cdh3和cdh4,分別對應第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本則混亂得多;比Apache hadoop在相容性,安全性,穩定性上有增強。
(2)CDH3版本是基於Apache hadoop 0.20.2改進的,並融入了最新的patch,CDH4版本是基於Apache hadoop 2.X改進的,CDH總是並應用了最新Bug修復或者Feature的Patch,並比Apache hadoop同功能版本提早釋出,更新速度比Apache官方快。
(3)安全 CDH支援Kerberos安全認證,apache hadoop則使用簡陋的使用者名稱匹配認證
(4)CDH文件清晰,很多采用Apache版本的使用者都會閱讀CDH提供的文件,包括安裝文件、升級文件等。
(5)CDH支援Yum/Apt包,Tar包,RPM包,Cloudera Manager四種方式安裝,Apache hadoop只支援Tar包安裝。
注:CDH使用推薦的Yum/Apt包安裝時,有以下幾個好處:
1、聯網安裝、升級,非常方便
2、自動下載依賴軟體包
3、Hadoop生態系統包自動匹配,不需要你尋找與當前Hadoop匹配的Hbase,Flume,Hive等軟體,Yum/Apt會根據當前安裝Hadoop版本自動尋找匹配版本的軟體包,並保證相容性。
4、自動建立相關目錄並軟鏈到合適的地方(如conf和logs等目錄);自動建立hdfs, mapred使用者,hdfs使用者是HDFS的最高許可權使用者,mapred使用者則負責mapreduce執行過程中相關目錄的許可權。