1. 程式人生 > >04、Spark

04、Spark

home slave sof sbin 輸入 支持 編輯 4.4 部署

04、Spark Standalone集群搭建

4.1 集群概述

獨立模式是Spark集群模式之一,需要在多臺節點上安裝spark軟件包,並分別啟動master節點和worker節點。master節點是管理節點,負責和各worker節點通信,完成worker的註冊與註銷。worker節點是任務執行節點,通過worker節點孵化出執行器子進程來執行任務。

4.2 集群規劃

這裏使用4臺主機部署Spark集群,主機名稱分別是s101、s102、s103和s104。

s101                    #Master節點
s102                    #Worker節點
s103                    #Worker節點
s104                    #Worker節點

4.3 集群搭建

4.3.1 安裝Spark軟件包

按照前文安裝spark軟件包的方式分別在以上四臺主機上安裝Spark,註意目錄和權限盡量保持一致,以便集群容易維護和管理。也可以將之前的Spark安裝目錄和環境變量文件分發到以上四臺主機。具體安裝步驟略。

4.3.2 配置hadoop軟連接

在以上四臺機的spark配置目錄下,創建core-site.xml和hdfs-site.xml軟連接文件指向hadoop的配置文件。

#進入配置目錄
$>cd /soft/spark/conf

#創建軟連接
$>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml
$>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

創建完成後,如下圖所示:

技術分享圖片

4.3.3 修改slaves文件

只需要在master節點對該文件進行修改即可,但為了保持所有節點配置一致性,我們對所有節點都進行修改,或者修改後進行分發。slaves文件內容如下:

#使用如下命令進入slaves文件編輯模式
$>nano /soft/spark/conf/slaves

#輸入如下內容,列出所有worker節點。
s102
s103
s104

4.3.4 配置JAVA_HOME環境變量

修改配置目錄下spark-env.sh文件,指定JAVA_HOME環境變量。

#使用如下命令進入spark-env.sh文件編輯模式
$>nano /soft/spark/conf/spark-env.sh

#添加如下內容
...
export JAVA_HOME=/soft/jdk
...

編輯內容如下圖所示:

技術分享圖片

4.4 啟動集群

啟動spark集群時,如果配置了hadoop配置文件,需要先啟動hadoop集群,然後再啟動Spark集群。由於Spark Standalone集群模式只是從hdfs讀取文件,並不需要yarn的支持,因此只需要啟動hadoop的hdfs相關進程即可。

#啟動hadoop hdfs
$>/soft/hadoop/sbin/start-dfs.sh

#啟動Spark集群
$>/soft/spark/sbin/start-all.sh

註意:Spark和Hadoop都有啟動所有進程的腳本,並且都叫start-all.sh,因此再使用時一定要使用絕對路徑。

查看進程結果如圖:

技術分享圖片

4.5 查看webui

通過如下url地址訪問spark webui:

http://s101:8080/

打開頁面如下圖所示:

技術分享圖片

04、Spark