分析幾種Hadoop叢集部署方式優劣
對hadoop初學者來說,或者說正在使用hadoop的開發者來說,hadoop環境的搭建不是一件省心的事,甚至很多部落格上都重要的事說三便“不要花精力在搭建環境之上”,可見很多人在搭建環境時會遇到很多問題,並且會花費很多時間,本文將把所有的“玩法”都過一下,相信看完之後,你心裡就有數了,將會依據自己的需求來選擇合適的搭建方式。
部署方式 |
優勢 |
不足 |
適合場合 |
Apache Hadoop 單機 |
• 單臺機器即可 • 簡單 • 所需元件少 |
• 一般不用於生產 • 無HA • 無法體現分散式 |
• 初學 • 開發測試 • 小規模試用 |
Apache Hadoop 叢集 |
• 靈活的版本選擇 • 自主可控性較好 • 應用場景廣泛 |
• 需專業人員管理 • 元件間相容性差 • 配置、運維複雜 |
• 學習 • 開發測試 • 生產環境 |
CDH或 HDP |
• Web管理和監控 • 開源廠商支援 • 相容性和穩定高 |
• 仍需大量配置 • 受制於廠商 • 更新版本稍慢 |
• 開發測試 • 生產環境 |
其它廠商類CDH |
• 有自己擴充套件特性 • 廠商支援 |
• 非免費 • 嚴重受制於廠商 |
• 生產環境 |
編寫shell部署運維指令碼 |
• 自控性好 • 配置簡單 • 靈活性好 |
• 需編寫指令碼 • 測試費時 • 需不斷完善 |
• 學習 • 開發測試 • 生產環境 |
通過上面的對比,總結如下:
l 初學hadoop,希望快速開始,採用第一種apache單機,無基礎的情況下1個小即可完成,有linux基礎除掉安裝虛擬機器、linux的時間,10分鐘可完成;
l 用於生產環境或測試環境,採用第三種cdh方式,管理叢集都是圖形化,但是缺少了對內部深層次的瞭解;
l 對於深入學習者,已經有一定經驗和積累了,可以選最後一種,不斷可以深入的瞭解內部各程序依賴關係,還可以提升shell指令碼檔案程式設計水平。
關於每一種環境的詳細搭建方式,將會分幾個章節在後面分別介紹,另外如果可能也會錄製一些免費視訊,詳細的講解一下操作步驟。