HDP、CDH、CDP升級
前言
Cloudera 在跟HortonWorks 合併後,便推出了新一代大資料平臺 CDP,並正在逐步停止原有的大資料平臺 CDH 和 HDP。
但具體到何時會徹底停止對 CDH 和 HDP 的維護,CDH/HDP 停止維護後現有使用者該如何應對,以及 CDP 跟 CDH/HDP 的異同,或多或少都有些模式。
CDH/HDP 各版本的關鍵時間點
- 下圖簡要介紹了CDH和HDP側重的技術領域:
- 可以看到CDH和HDP都重點涵蓋了資料工程和資料倉庫場景
- 同時CDH對AI,ML和資料科學場景有側重
- 而HDP對IoT資料攝取和流場景有側重
2、下圖簡要介紹了目前市面上主流CDH和HDP版本的關鍵時間點
HDP2.x和CDH5.x對應的是hadoop2.x
HDP3.x和CDH6.x對應的是hadoop3.x
目前官方已經停止了對HDP2.x和CDH5.X的技術支援
官方對HDP3.x和CDH6.x的技術支援也都會在最近半年停止
具體來講,HDP3.x的最新版HDP3.1會在2021/12月停止技術支援
具體來講,CDH6.x的最新版CDH6.3會在2022/3月停止技術支援
CDP 介紹
1、CDP 可以認為是將原來的 CDH/HDP 融合在了一起,具體融合方式如下圖所示,關鍵點是:
淘汰了競爭的技術
融合了重疊的技術
保留了互補的技術
升級了共享的技術
並增加了某些新功能
2. CDP 對應不同場景,推出了三大版本:
對應公有云場景的 CDP public cloud,目前三大公有云廠商 aws, gcp, azure都已經提供了支援;
對應私有云場景的 CDP private cloud plus,其計算叢集使用了 docker 和 k8s 相關技術;
對應資料中心場景的 CDP private cloud base, 其實對應的就是原來場景的 CDH 和 HDP;
三大版本底層對應的是同樣的 cloudera runtime,其實質就是大資料各個具體元件,如 hdfs/hive/spark等等。
Cloudera 的新許可證政策
Cloudera 的新許可證政策如下圖所示,其關鍵點是:
Cloudera 所有產品都將開源 (至少承諾的是如此,包括原來CDH中不開源的cloudera manager等也將開源),其開源模型類似 Red Hat開源模型;
Cloudera 所有產品的二進位制檔案和原始碼,都需要訂閱,(即不再提供社群版,只提供企業版,都需要付費,不再有免費的午餐!);
自2019年11月以來,訪問產品的二進位制檔案需要訂閱和 paywall credentials (即沒有paywall credentials 的話,將不再能從 cloudera 官網下載 parcel/rpm 包);
2021年1月後,擴充套件的Paywall將包括平臺的早期版本,包括所有版本的CDH/HDP/HDF等 (即目前所有版本的CDH/HDP/HDF/CDP,從官網下載 parcel/rpm 包,都需要有 paywall credentials);
使用遺留CDH/HDP系統的小夥伴們該何去何從
概括起來,使用遺留CDH/HDP系統的小夥伴們,有以下選擇:
繼續使用原有版本的CDH/HDP:在指定日期之後,Cloudera官方不再對原有版本的CDH/HDP提供技術支援,這僅僅意味著Cloudera官方不會再對原有版本提供新特性增強,也不再對原有版本提供BUG修復,但客戶原有的大資料平臺仍然是能夠正常提供服務的 (這點不同於星環的TDH,TDH在許可證到期之後,整個叢集中的服務就不能再重啟,不能在正常提供服務了);
考慮市面上其他供應商的大資料平臺,如星環的TDH,或基於開源apache版本自行封裝。不過需要注意,星環的TDH是閉源的,其一些引數跟開源的並不相容,有 vendor lock in的風險;
按照Cloudera的建議,在合適的時機,升級到 CDP平臺。
如何從 CDH/HDP 遷移到CDP?
Cloudera 提供了一系列工具幫助大家儘量平滑地從CDH/HDP升級到CDP。
Cloudera官方建議的升級方式有四種方式:
原地升級
拷貝升級/遷移升級
滾動式拷貝升級/遷移升級
遷移到公有云
不考慮遷移到共有云的話,大家可以主要考量兩種遷移方式,即原地升級和拷貝升級/遷移升級,其優缺點如下圖所示: