04、Spark

阿新 • • 發佈：2018-08-27

home slave sof sbin 輸入支持編輯 4.4 部署

04、Spark Standalone集群搭建

4.1 集群概述

獨立模式是Spark集群模式之一，需要在多臺節點上安裝spark軟件包，並分別啟動master節點和worker節點。master節點是管理節點，負責和各worker節點通信，完成worker的註冊與註銷。worker節點是任務執行節點，通過worker節點孵化出執行器子進程來執行任務。

4.2 集群規劃

這裏使用4臺主機部署Spark集群，主機名稱分別是s101、s102、s103和s104。

s101                    #Master節點
s102                    #Worker節點
s103                    #Worker節點
s104                    #Worker節點

4.3 集群搭建

4.3.1 安裝Spark軟件包

按照前文安裝spark軟件包的方式分別在以上四臺主機上安裝Spark，註意目錄和權限盡量保持一致，以便集群容易維護和管理。也可以將之前的Spark安裝目錄和環境變量文件分發到以上四臺主機。具體安裝步驟略。

4.3.2 配置hadoop軟連接

在以上四臺機的spark配置目錄下，創建core-site.xml和hdfs-site.xml軟連接文件指向hadoop的配置文件。

#進入配置目錄
$>cd /soft/spark/conf

#創建軟連接
$>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml
$>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

創建完成後，如下圖所示：

技術分享圖片

4.3.3 修改slaves文件

只需要在master節點對該文件進行修改即可，但為了保持所有節點配置一致性，我們對所有節點都進行修改，或者修改後進行分發。slaves文件內容如下：

#使用如下命令進入slaves文件編輯模式
$>nano /soft/spark/conf/slaves

#輸入如下內容，列出所有worker節點。
s102
s103
s104

4.3.4 配置JAVA_HOME環境變量

修改配置目錄下spark-env.sh文件，指定JAVA_HOME環境變量。

#使用如下命令進入spark-env.sh文件編輯模式
$>nano /soft/spark/conf/spark-env.sh

#添加如下內容
...
export JAVA_HOME=/soft/jdk
...

編輯內容如下圖所示：

技術分享圖片

4.4 啟動集群

啟動spark集群時，如果配置了hadoop配置文件，需要先啟動hadoop集群，然後再啟動Spark集群。由於Spark Standalone集群模式只是從hdfs讀取文件，並不需要yarn的支持，因此只需要啟動hadoop的hdfs相關進程即可。

#啟動hadoop hdfs
$>/soft/hadoop/sbin/start-dfs.sh

#啟動Spark集群
$>/soft/spark/sbin/start-all.sh

註意：Spark和Hadoop都有啟動所有進程的腳本，並且都叫start-all.sh，因此再使用時一定要使用絕對路徑。

查看進程結果如圖：

技術分享圖片

4.5 查看webui

通過如下url地址訪問spark webui：

http://s101:8080/

打開頁面如下圖所示：

技術分享圖片

04、Spark

home slave sof sbin 輸入支持編輯 4.4 部署 04、Spark Standalone集群搭建 4.1 集群概述獨立模式是Spark集群模式之一，需要在多臺節點上安裝spark軟件包，並分別啟動master節點和worker節點。master節點是

04、Spark

04、Spark Standalone集群搭建

4.1 集群概述

4.2 集群規劃

4.3 集群搭建

4.3.1 安裝Spark軟件包

4.3.2 配置hadoop軟連接

4.3.3 修改slaves文件

4.3.4 配置JAVA_HOME環境變量

4.4 啟動集群

4.5 查看webui

04、Spark

【函數】04、裝飾器

處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm)

ubuntu安裝搜狗輸入法（ubuntu 14.04、ubuntu16.04通用）

04、組織單元

05、Spark

3.2、spark集群運行應用之第三方jar的處理方式

Hadoop HDFS基本操作（ubuntu16.04 、Hadoop 3.0.3）

配置 Docker 加速器：適用於 Ubuntu14.04、Debian、CentOS6 、CentOS7、Fedora、Arch Linux、openSUSE Leap 42.1

Ubuntu 16.04下Spark安裝與開發環境搭建

大資料Hadoop學習系列之Hadoop、Spark學習路線

一、spark單機安裝

二、spark SQL互動scala操作示例

04、重建二叉樹

三、spark簡介

四、spark叢集架構

Ubuntu 16.04安裝Spark

docker部署分散式大資料叢集hadoop、spark、hive、jdk、scala、

十、spark graphx的scala示例

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

04、Spark

04、Spark Standalone集群搭建

4.1 集群概述

4.2 集群規劃

4.3 集群搭建

4.3.1 安裝Spark軟件包

4.3.2 配置hadoop軟連接

4.3.3 修改slaves文件

4.3.4 配置JAVA_HOME環境變量

4.4 啟動集群

4.5 查看webui

相關推薦