1. 程式人生 > >大資料叢集的配置

大資料叢集的配置

為什麼要用Ambari
Ambari 是 Apache Software Foundation 中的一個頂級專案。就 Ambari 的作用來說,就是建立、管理、監視 Hadoop 的整個生態圈產品(例如 Hive,Hbase,Sqoop,Zookeeper 等)。用一句話來說,Ambari 就是為了讓 Hadoop 以及相關的大資料軟體更容易使用的一個工具。

對於那些苦苦花費好幾天去安裝、除錯 Hadoop 的初學者是最能體會到 Ambari 的方便之處的。而且,Ambari 現在所支援的平臺元件也越來越多,例如流行的 Spark,Storm 等計算框架,以及資源排程平臺 YARN 等,我們都能輕鬆地通過 Ambari 來進行部署。

概念概述
Stack :堆 版本號 一批Service的集合
Service:產品 如Hive,HBase等
Module:Service中的一部分
Alert:警告
Host:節點 可以理解為一個虛擬機器
Ambari Agent:每個Host上的管理員
Ambari Server:通過與每個Agent保持通話,操控並瞭解所有資訊(host、service等執行情況和資源狀態)並提供GUI
View:ambari通過框架 Ambari Views framework ,允許第三方對元件進行擴充套件,如hdfs的目錄管理等。目前支援Tez、Hive、Pig、Capacity Scheduler(YARN)、Files(HDFS)

原理簡介
Ambari 自身也是一個分散式架構的軟體,主要由兩部分組成:Ambari Server 和 Ambari Agent。簡單來說,使用者通過 Ambari Server 通知 Ambari Agent 安裝對應的軟體;Agent 會定時地傳送各個機器每個軟體模組的狀態給 Ambari Server,最終這些狀態資訊會呈現在 Ambari 的 GUI,方便使用者瞭解到叢集的各種狀態,並進行相應的維護。

安裝
安裝須知:

所有操作都要使用root使用者,且系統不要有其他使用者,ssh的金鑰也都是基於root使用者的。否則會出現問題【Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password) 】
hostname都要使用FQDN格式,具體參照【配置】的第三步
所有節點都安裝ntpd服務 可參考CentOS7 中使用NTP進行時間同步
切記 一定要從空機裝起,尤其是以前搭過hadoop環境的。
ambari使用嚮導(僅僅是使用)
ambari只能管理一個叢集
再次說明 ambari版本:2.4.2.0;作業系統:CentOS7

安裝流程:
https://www.jianshu.com/p/835bed227455