Spark3.0.1各種叢集模式搭建

阿新 • • 發佈：2020-11-22

對於spark前來圍觀的小夥伴應該都有所瞭解，也是現在比較流行的計算框架，基本上是有點規模的公司標配，所以如果有時間也可以補一下短板。

簡單來說Spark作為準實時大資料計算引擎，Spark的執行需要依賴資源排程和任務管理，Spark自帶了standalone模式資源排程和任務管理工具，執行在其他資源管理和任務排程平臺上，如Yarn、Mesos、Kubernates容器等。

spark的搭建和Hadoop差不多，稍微簡單點，本文針對下面幾種部署方式進行詳細描述：

Local：多用於本地測試，如在eclipse，idea中寫程式測試等。
Standalone：Standalone是Spark自帶的一個資源排程框架，它支援完全分散式。
Yarn：Hadoop生態圈裡面的一個資源排程框架，Spark也是可以基於Yarn來計算的。

瞭解一個框架最直接的方式首先要拿來玩玩，玩之前要先搭建，廢話少說，進入正題，搭建spark叢集。

一、環境準備

　　　搭建環境：CentOS7+jdk8+Hadoop2.10.1+Spark3.0.1

機器準備，由於已經搭建過Hadoop，spark叢集也是使用相同叢集（個人電腦資源有限），可以參照Hadoop搭建部落格：centos7中搭建hadoop2.10高可用叢集
需要安裝jdk1.8、Scala2.12.12、hadoop2.10.1、spark3.0.1，其中jdk1.8和Hadoop2.10也都已經安裝完成，這裡只介紹Scala和spark環境配置

機器免密登入，也在Hadoop部署時做過，可以參照Hadoop搭建部落格：centos7中搭建hadoop2.10高可用叢集
下載Scala2.12.12（https://www.scala-lang.org/download/2.12.12.html）、下載spark3.0.1(http://spark.apache.org/downloads.html)

二、配置環境變數

　　1.配置Scala環境　　

tar -zxvf scala-2.12.12.tgz -C /opt/soft/
cd /opt/soft
ln -s scala-2.12.12 scala

vim /etc/profile
新增環境變數

　#SCALA
　export SCALA_HOME=/opt/soft/scala
　export PATH=$PATH:$SCALA_HOME/bin

　source /etc/profile

測試是否正常

正常

　　2.配置spark環境變數

　　由於各個部署方式都需要該步驟，在此單獨配置，各個部署方式不再配置

tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/soft
cd /opt/soft
ln -s spark-3.0.1-bin-hadoop2.7 spark

vim /etc/profile
新增環境變數

　#spark
　export SPARK_HOME=/opt/soft/spark
　export PATH=$PATH:$SPARK_HOME/bin

　source /etc/profile

三、搭建步驟

　　1.本地Local模式

　　上述已經解壓配置好spark環境變數，本地模式不需要配置其他配置檔案，可以直接使用，很簡單吧，先測試一下執行樣例：

cd /opt/soft/spark/bin

run-example SparkPi 10

可以計算出結果

　　測試spark-shell

spark-shell

啟動成功，說明Local模式部署成功

　　2.Standalone模式

　　1>修改Spark的配置檔案spark-env.sh

cd /opt/soft/spark/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh

新增如下配置：

# 主節點機器名稱
export SPARK_MASTER_HOST=s141
# 預設埠號為7077
export SPARK_MASTER_PORT=7077

　　2>修改配置檔案slaves（從節點配置）

cd /opt/soft/spark/conf
cp slaves.template slaves
vim slaves

刪除原有節點，新增從節點主機如下配置：

s142
s143
s144
s145

　　3>將spark目錄傳送到其他機器，可以使用scp一個一個機器複製，這裡使用的是自己寫的批量複製指令碼xrsync.sh（hadoop批量命令指令碼xrsync.sh傳輸指令碼）

xrsync.sh spark-3.0.1-bin-hadoop2.7

　　4>在各個機器中建立spark軟連線，可以進入各個機器的/opt/soft目錄

 ln -s /opt/soft/spark-3.0.1-bin-hadoop2.7 /opt/soft/spark

　　這裡使用的是批量執行命令指令碼xcall.sh（hadoop批量命令指令碼xcall.sh及jps找不到命令解決）

xcall.sh ln -s /opt/soft/spark-3.0.1-bin-hadoop2.7 /opt/soft/spark

　　5>啟動spark叢集

cd /opt/soft/spark/sbin

可以單獨啟動master和slave
./start-master.sh
./start-slaves.sh spark://s141:7077

也可以一鍵啟動master和slave
./start-all.sh

可以看到master和worker程序已經啟動成功

　　6>檢視叢集資源頁面(webUI:http://192.168.30.141:8080/)，如果8080埠查不到可以看一下master啟動日誌，可能是8081埠

　　7>進入叢集shell驗證

cd /opt/soft/spark/bin
./spark-shell –master spark://s141:7077

也是正常的，說明Standalone模式部署成功

　　3.yarn叢集模式

　　1>修改配置檔案spark-env.sh

　　在Standalone模式下搭建yarn叢集模式很簡單，只需要在spark-env.sh配置檔案加入如下內容即可。

# 新增hadoop的配置目錄
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop

　　將spark-env.sh分發到各個機器

　　4>啟動spark叢集

　　先啟動Hadoop的yarn叢集

start-yarn.sh

　　再啟動spark叢集，和Standalone模式一樣有兩種方式

cd /opt/soft/spark/sbin

可以單獨啟動master和slave
./start-master.sh
./start-slaves.sh spark://s141:7077

也可以一鍵啟動master和slave
./start-all.sh

　　檢視master和worker程序正常　

　　5>檢視叢集資源頁面(webUI:http://192.168.30.141:8080/)，如果8080埠查不到可以看一下master啟動日誌，可能是8081埠

　　6>進入叢集shell驗證

cd /opt/soft/spark/bin
./spark-shell –master yarn

啟動也正常

Spark3.0.1各種叢集模式搭建

對於spark前來圍觀的小夥伴應該都有所瞭解，也是現在比較流行的計算框架，基本上是有點規模的公司標配，所以如果有時間也可以補一下短板。簡單來說Spark作為準實時大資料計算引擎，Spark的執行需要依賴資源排程和任務管理，Spark自帶了standalone模式資源排程和任務管理工具，執行在其他資源管理和任

Redis4.0.X 官方叢集方案搭建

1 下載編譯Reids wget http://download.redis.io/releases/redis-4.0.1.tar.gz tar xzf redis-4.0.1.tar.gz

linux redis-3.0.0 偽分散式叢集的搭建

首先需要redis-3.0.0的安裝安裝步驟如下：先將編譯環境搭建好：yum install gcc-c++ 將redis原始碼包上傳至linux 解壓縮redis-3.0.0 編譯。進入redis-3.0.0目錄。 make 安裝。make ins

Centos 7.0 下hadoop叢集模式安裝（以3個節點為例，master,slave1,slave2）超詳細

一、目標：構建由3臺PC機構成的hadoop環境，安裝完成後使用HDFS、Mapreduce、Hbase等完成一些小例子。二、硬體需求： 3臺Centos 7.0 系統PC機，每臺PC機4G記憶

kettle工具-叢集模式搭建過程

一、叢集的原理與優缺點1.1叢集的原理 Kettle叢集是由一個主carte伺服器和多個從carte伺服器組成的，類似於master-slave結構，不同的是’master’處理具體任務，只負責任務的分發和收集執行結果。Master carte結點收到請求後，

james使用（一）：windows環境下james3.0.1版本郵件伺服器搭建及配置

1.介紹james是apache基金會下一款免費的提供pop3、stmp的開源免費郵件伺服器，其最新版本為james sever 3.0,網上充斥著許多2.3版本的配置，3.0使用了spring的架構，配置上有些許不同，在配置過程中爬了很多坑，特此記錄，給小夥伴們指明方向。後

（四）： Flink1.6.1 standalone叢集模式安裝部署，幾個常用引數配置

NameNode檢查點異常安裝flink之前，觀察到一個NameNode檢查點異常：沒去找官方解釋，按照此文的第4點解決了問題： namenode的Cluster ID 與 secondnamenode的Cluster ID 不一致，對比/dfs/nn

zookeeper叢集模式搭建配置（記錄）

單節點，方式比較簡單，簡述略過 1.安裝jdk1.8，這個不會的話可以百度一下很簡單 2.官方下載地址 https:

微服務管理平臺nacos虛擬ip負載均衡叢集模式搭建

一、Nacos簡介 Nacos是用於微服務管理的平臺，其核心功能是服務註冊與發現、服務配置管理。 Nacos作為服務註冊發現元件，可以替換Spring Cloud應用中傳統的服務註冊於發現元件，如：Eureka、consul等，支援服務的健康檢查。 Nacos作為服務配置中心，可以替換Spring Clou

CDH 6.0.1 叢集搭建「Process」

這次搭建我使用的機器 os 是 Centos7.4 RH 系的下面以流的方式紀錄搭建過程以及注意事項 Step1: 配置域名相關，因為只有三臺機器組叢集，所以直接使用了 hosts 的方法：修改主機名 hostnamectl set-hostname ryze-1.bigdata

CDH 6.0.1 叢集搭建「After install」

叢集搭建完成之後其實還有很多配置工作要做，這裡我列舉一些我去做的一些。首先是去把 zk 的角色重新分配一下，不知道是不是我在配置的時候遺漏了什麼在啟動之後就有報警說目前只能檢查到一個節點。去將 zk 角色調整到三個節點。上一張目前的角色圖下面我將分別列出各應用的各個簡寫代表的意義： Hbas

HBase叢集的搭建（版本：2.1.0）

(004)HBase是一個在HDFS上開發的面向列的分散式資料庫。如果需要實時地隨機訪問超大規模資料集，就可以使用HBase這一Hadoop應用了 HBase叢集的搭建前提條件 Hadoop叢集 ZooKeeper叢集 JDK 原料 h

Redis-4.0.1 哨兵模式搭建

1、建立檔案件redis-sentinel，目錄內放置如下檔案： 2、拷貝redis安裝目錄下的redis.conf到7501-7504資料夾下，分別命名，例如redis-7501.conf，分別修改這4個檔案，將裡面的對應選項分別設定 daemonize yes port 75

事無鉅細 Apache Kafka 0.9.0.1 叢集環境搭建

Kafka叢集環境依賴於Zookeeper環境。因此我們的環境搭建實際分為兩部分。Zookeeper環境搭建和Kafka環境搭建。 Zookeeper 3.4.8叢集搭建部署安裝包下載 wget http://mirrors.cn

Redis 4.0.1叢集搭建

一、概述 Redis3.0版本之後支援Cluster.1.1、redis cluster的現狀　　目前redis支援的cluster特性：　　1):節點自動發現　　2):slave->master 選舉,叢集容錯　　3):Hot resharding:線上分片　　4):進群管理:cluster

搭建Hive遠端模式在初始化Hive的時候報錯Access denied for user 'hiveowner'@'127.0.0.1' (using password: YES)

報錯資訊如下： [[email protected] conf]# schematool -dbType mysql -initSchema SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding

kafka完全分散式叢集搭建-kafka_2.11-0.9.0.1

最近在學習分散式的訊息系統kafka，特此記錄搭建kafka叢集過程。環境：機器IP與名稱對應關係如下： 192.168.152.192 master 192.168.152.1

在VM虛擬機器上搭建Hadoop2.7.3+Spark2.1.0完全分散式叢集

1.選取三臺伺服器（CentOS系統64位） 114.55.246.88主節點　　114.55.246.77 從節點　　114.55.246.93 從節點之後的操作如果是用普通使用者操作的話也必須知道root使用者的密碼，因為有些操作是得

elasticsearch6.0.1單機多節點叢集搭建

環境準備 1、準備兩臺伺服器:10.47.227.13 10.47.227.14（預設已安裝java環境） 2、es6.0.1安裝包下載（下載地址：https://www.elastic.co/cn/downloads/past-releases/elasticse

ZK+Kafka+Spark Streaming叢集環境搭建（九）安裝kafka_2.11-1.1.0

安裝kafka的伺服器：192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 slave2 192.168.0.123 slave3備註：只在slave1,slave2,slave3三個節店上安裝zookeepe

Spark3.0.1各種叢集模式搭建

相關推薦