Spark環境搭建（多種模式）

阿新 • • 發佈：2018-11-23

Spark環境的搭建相比於Hadoop叢集的搭建還是比較簡單的，而且跟Hadoop叢集的搭建流程也很相似，只是沒有Hadoop叢集那麼多的配置檔案要修改。本文中，我將詳細介紹Spark的本地模式、Standalone模式（偽分佈）、Standalone模式（全分佈）、Yarn叢集模式的搭建。

搭建環境：CentOS7+jdk8+spark2.3.2+hadoop2.7

Local本地模式

上傳並解壓spark2.3.2到指定目錄
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C apps/
新增軟連結
ln -s spark-2.3.2-bin-hadoop2.7 spark

修改環境變數
vi ~/.bashrc
新增

export SPARK_HOME=/home/hadoop/apps/spark
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$SPARK_HOME/bin:$JAVA_HOME/bin

source ~/.bashrc
注：此處必須要新增JAVA_HOME的路徑，雖然你可能已經在/etc/profile例配置了JAVA_HOME，但是Spark識別不到，後面啟動會報找不到JAVA_HOME的錯誤，所以這裡必須再次新增一下JAVA_HOME的路徑。
4. 測試是否安裝成功
測試執行樣例
run-example SparkPi 10
測試shell
spark-shell
測試spark-submit命令
spark-submit --class org.apache.spark.examples.SparkPi /home/hadoop/apps/spark/examples/jars/spark-examples_2.11-2.3.2.jar 100

Standalone模式（偽分佈）

上傳並解壓spark2.3.2到指定目錄
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C apps/
新增軟連結
ln -s spark-2.3.2-bin-hadoop2.7 spark
修改環境變數
vi ~/.bashrc
新增

export SPARK_HOME=/home/hadoop/apps/spark
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$SPARK_HOME/bin:$JAVA_HOME/bin

source ~/.bashrc
注：此處必須要新增JAVA_HOME的路徑，雖然你可能已經在/etc/profile例配置了JAVA_HOME，但是Spark識別不到，後面啟動會報找不到JAVA_HOME的錯誤，所以這裡必須再次新增一下JAVA_HOME的路徑。
4.

修改配置檔案spark-env.sh
cd /home/hadoop/apps/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在最下面新增

# hadoop1是主節點，即本機的主機名
export SPARK_MASTER_HOST=hadoop1
# 預設埠號為7077
export SPARK_MASTER_PORT=7077

啟動叢集
進入sbin目錄
cd /home/hadoop/apps/spark/sbin
啟動master
./start-master.sh
啟動slave
./start-slave.sh spark://hadoop1:7077
檢視是否啟動成功
jps
檢視叢集資源頁面
開啟網頁hadoop1:8080
進入叢集的shell
spark-shell --master spark://hadoop1:7077

Standalone模式（全分佈）

上傳並解壓spark2.3.2到指定目錄
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C apps/
新增軟連結
ln -s spark-2.3.2-bin-hadoop2.7 spark
修改環境變數
vi ~/.bashrc
新增

export SPARK_HOME=/home/hadoop/apps/spark
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$SPARK_HOME/bin:$JAVA_HOME/bin

source ~/.bashrc
注：此處必須要新增JAVA_HOME的路徑，雖然你可能已經在/etc/profile例配置了JAVA_HOME，但是Spark識別不到，後面啟動會報找不到JAVA_HOME的錯誤，所以這裡必須再次新增一下JAVA_HOME的路徑。
4. 修改配置檔案spark-env.sh
cd /home/hadoop/apps/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在最下面新增

# hadoop1是主節點，即本機的主機名
export SPARK_MASTER_HOST=hadoop1
# 預設埠號為7077
export SPARK_MASTER_PORT=7077

修改配置檔案slaves
cd /home/hadoop/apps/spark/conf
cp slaves.template slaves
vi slaves
刪除原有節點，新增從節點主機名

hadoop2
hadoop3
hadoop4

將整個spark檔案傳送到各個從節點
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop2:/home/hadoop/apps/
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop3:/home/hadoop/apps/
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop4:/home/hadoop/apps/
在各個從節點重複2、3步操作
啟動叢集
進入sbin目錄
cd /home/hadoop/apps/spark/sbin
啟動master
./start-master.sh
啟動slave
./start-slaves.sh spark://hadoop1:7077
檢視是否啟動成功
jps
檢視叢集資源頁面
開啟網頁hadoop1:8080
進入叢集的shell
spark-shell --master spark://hadoop1:7077

Yarn叢集模式

上傳並解壓spark2.3.2到指定目錄
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C apps/
新增軟連結
ln -s spark-2.3.2-bin-hadoop2.7 spark
修改環境變數
vi ~/.bashrc
新增

export SPARK_HOME=/home/hadoop/apps/spark
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$SPARK_HOME/bin:$JAVA_HOME/bin

# hadoop1是主節點，即本機的主機名
export SPARK_MASTER_HOST=hadoop1
# 預設埠號為7077
export SPARK_MASTER_PORT=7077
# 新增hadoop的配置目錄
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.1/etc/hadoop

優化配置-修改spark-defaults.conf
cd /home/hadoop/apps/spark/conf
cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
新增

# 將spark的類庫 jar包上傳到hdfs上，省的每次都上傳
spark.yarn.jars hdfs://hadoop1:9000/sparklib/jars/*

修改配置檔案slaves
cd /home/hadoop/apps/spark/conf
cp slaves.template slaves
vi slaves
刪除原有節點，新增從節點主機名

hadoop2
hadoop3
hadoop4

將整個spark檔案傳送到各個從節點
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop2:/home/hadoop/apps/
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop3:/home/hadoop/apps/
scp -r /home/hadoop/apps/spark-2.3.2-bin-hadoop2.7 hadoop4:/home/hadoop/apps/
在各個從節點重複2.3步操作
啟動hadoop的yarn叢集
start-yarn.sh
啟動spark叢集
進入sbin目錄
cd /home/hadoop/apps/spark/sbin
啟動master
./start-master.sh
啟動slave
./start-slaves.sh spark://hadoop1:7077
檢視是否啟動成功
jps
檢視叢集資源頁面
開啟網頁hadoop1:8080
進入叢集的shell
spark-shell --master yarn

Spark環境搭建（多種模式）

個人部落格原文連結 Spark環境的搭建相比於Hadoop叢集的搭建還是比較簡單的，而且跟Hadoop叢集的搭建流程也很相似，只是沒有Hadoop叢集那麼多的配置檔案要修改。本文中，我將詳細介紹Spark的本地模式、Standalone模式（偽分佈）、Standalone模式（全分佈）、

學習Spark——環境搭建（Mac版）

大資料情結還記得上次跳槽期間，與很多獵頭都有聊過，其中有一個獵頭告訴我，整個IT跳槽都比較頻繁，但是相對來說，做大資料的比較“懶”一些，不太願意動。後來在一篇文中中也證實了這一觀點，分析說大資料領域從業者普遍認為這是一個有前景，有潛力的方向，大多數希望有所積累，所以跳槽意願不是很強烈。 14年的時候開始接觸

Spark環境搭建（四）-----------數據倉庫Hive環境搭建

apr 程序版本擴展 arch 表名數據集 .tar.gz 自定義 Hive產生背景 1）MapReduce的編程不便，需通過Java語言等編寫程序 2） HDFS上的文缺失Schema(在數據庫中的表名列名等)，方便開發者通過SQL的方式處理結構化的數據，而不需

Ubuntu Spark 環境搭建（轉）

vim 能夠 span 有用 var sca 把他要點查看在安裝Spark之前，我們需要在自己的系統當中先安裝上jdk和scala 可以去相應的官網上下載： JDK：http://www.oracle.com/technetwork/java/javase/downl

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十七）待整理

lan post -a 客戶端客戶 struct bsp www get redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark Structur

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十九）待整理

set dstream 搭建 details 編程指南 .com .cn csdn read redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark St

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

ack loss set div top 過程 pan check use 事情經過：之前該topic(M_A)已經存在，而且正常消費了一段時間，後來刪除了topic(M_A)，重新創建了topic（M-B），程序使用新創建的topic（M-B）進行實時統計操作，執行過程中

Spark環境搭建（多種模式）

Local本地模式

Standalone模式（偽分佈）

Standalone模式（全分佈）

Yarn叢集模式

Spark環境搭建（多種模式）

學習Spark——環境搭建（Mac版）

Spark環境搭建（四）-----------數據倉庫Hive環境搭建

Ubuntu Spark 環境搭建（轉）

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十七）待整理

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十九）待整理

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

【Linux】LAMP環境搭建（簡易版）

微信小程序的開發環境搭建（Windows版本）

Appium環境搭建（MAC版）

阿裏雲centos7.2 centos 超全lamp 環境搭建（各種拼接:)）

Docker 基於centos7 的LAMP環境搭建（實驗一）

Docker 環境搭建（RedHat 7）

[Flutter] Windows平臺Flutter開發環境搭建（Andorid Studio）

Hibernate框架環境搭建（詳解）

Appium測試環境搭建（Win7+java）

java開發環境搭建（jdk安裝）和經常出現問題的探討

LAMP 環境搭建（論壇建立）

【Spark】Ubuntu16.04 spark 叢集安裝（standalone模式）

一步一步瞭解Cocos2dx 3.0 正式版本開發環境搭建（Win32/Android）

Spark環境搭建（多種模式）

Local本地模式

Standalone模式（偽分佈）

Standalone模式（全分佈）

Yarn叢集模式

相關推薦