04、Spark
阿新 • • 發佈:2018-08-27
home slave sof sbin 輸入 支持 編輯 4.4 部署
04、Spark Standalone集群搭建
4.1 集群概述
獨立模式是Spark集群模式之一,需要在多臺節點上安裝spark軟件包,並分別啟動master節點和worker節點。master節點是管理節點,負責和各worker節點通信,完成worker的註冊與註銷。worker節點是任務執行節點,通過worker節點孵化出執行器子進程來執行任務。
4.2 集群規劃
這裏使用4臺主機部署Spark集群,主機名稱分別是s101、s102、s103和s104。
s101 #Master節點 s102 #Worker節點 s103 #Worker節點 s104 #Worker節點
4.3 集群搭建
4.3.1 安裝Spark軟件包
按照前文安裝spark軟件包的方式分別在以上四臺主機上安裝Spark,註意目錄和權限盡量保持一致,以便集群容易維護和管理。也可以將之前的Spark安裝目錄和環境變量文件分發到以上四臺主機。具體安裝步驟略。
4.3.2 配置hadoop軟連接
在以上四臺機的spark配置目錄下,創建core-site.xml和hdfs-site.xml軟連接文件指向hadoop的配置文件。
#進入配置目錄 $>cd /soft/spark/conf #創建軟連接 $>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml $>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml
創建完成後,如下圖所示:
4.3.3 修改slaves文件
只需要在master節點對該文件進行修改即可,但為了保持所有節點配置一致性,我們對所有節點都進行修改,或者修改後進行分發。slaves文件內容如下:
#使用如下命令進入slaves文件編輯模式
$>nano /soft/spark/conf/slaves
#輸入如下內容,列出所有worker節點。
s102
s103
s104
4.3.4 配置JAVA_HOME環境變量
修改配置目錄下spark-env.sh文件,指定JAVA_HOME環境變量。
#使用如下命令進入spark-env.sh文件編輯模式 $>nano /soft/spark/conf/spark-env.sh #添加如下內容 ... export JAVA_HOME=/soft/jdk ...
編輯內容如下圖所示:
4.4 啟動集群
啟動spark集群時,如果配置了hadoop配置文件,需要先啟動hadoop集群,然後再啟動Spark集群。由於Spark Standalone集群模式只是從hdfs讀取文件,並不需要yarn的支持,因此只需要啟動hadoop的hdfs相關進程即可。
#啟動hadoop hdfs
$>/soft/hadoop/sbin/start-dfs.sh
#啟動Spark集群
$>/soft/spark/sbin/start-all.sh
註意:Spark和Hadoop都有啟動所有進程的腳本,並且都叫start-all.sh,因此再使用時一定要使用絕對路徑。
查看進程結果如圖:
4.5 查看webui
通過如下url地址訪問spark webui:
http://s101:8080/
打開頁面如下圖所示:
04、Spark