Spark HA on yarn 最簡易安裝。
機器部署:
準備兩臺機以上linux服務器,安裝好JDK,zookeeper,hadoop
spark部署
master:hadoop1,hadoop2(備用)
worker:hadoop2,hadoop3,hadoop4
軟件準備
spark下載網址:http://spark.apache.org/downloads.html
當前最新版本為2.11,下載你所需要的spark版本,註意spark版本與hadoop版本要相互匹配。
安裝步驟:
1.上傳spark安裝包到linux
2. 解壓安裝包到指定位置(比如說我的在apps下)
tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz -C apps/
3.配置spark
進入spark安裝目錄conf下
cd apps/spark-1.6.3-bin-hadoop2.6/conf/spark-env.sh
重命名spark-env.sh.template
mv spark-env.sh.template spark-env.sh
修改spark-env.sh
在該配置文件中添加配置
export JAVA_HOME=/home/kinozk/apps/jdk1.8.0_9
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"
export HADOOP_CONF_DIR=/home/kinozk/apps/hadoop/etc/hadoop
重命名並修改slaves.template
mv slaves.template slaves
vi slaves
在該文件中紅添加字節嗲你所在位置(woker節點)
hadoop2
hadoop3
hadoop4
保存退出
將配置好的Spark拷貝到其他節點上
scp -r spark-1.6.3-bin-hadoop2.6/ hadoop2:$PWD
scp -r spark-1.6.3-bin-hadoop2.6/ hadoop3:$PWD
scp -r spark-1.6.3-bin-hadoop2.6/ hadoop4:$PWD
配置環境變量
這裏就不說了,跟配置hadoop,zookeeper時的配置方式下相同,
啟動集群
先啟動zookeeper,然後啟動hadoop,最後啟動spark
需要註意的是,spark與hadoop中都有start-all.sh命令,因此啟動spark時進入spark安裝目錄的跟目錄下
在hadoop1上執行sbin/start-all.sh腳本,然後在hadoop2上執行sbin/start-master.sh啟動第二個Master
登錄spark管理界面查看集群狀態(主節點):http://hadoop1:8080/
此時hadoop1節點status為alive,hadoop2節點status為standby
在hadoop1 上kill掉master進程,再登錄spark管理界面查看集群狀態(主節點):http://hadoop2:8080/查看hadoop2狀態,是否被切換為alive狀態
Spark HA on yarn 最簡易安裝。