1. 程式人生 > 其它 >Spark 完全分散式搭建

Spark 完全分散式搭建

1. scala 安裝

1、準備工作

2、安裝

// 將 scala-2.13.6.tar.gz 拷貝到 /home/hadoop/apps 解壓

cd /home/hadoop/apps
tar -zxvf scala-2.13.6.tar.gz 

// 環境變數配置
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
export PATH=$PATH:$SCALA_HOME/bin

source ~/.bashrc

2. spark 安裝

2.1 準備工作

  • 下載地址,用的包版本:spark-2.2.0-bin-hadoop2.7.tgz

叢集規劃

Master Worker
hadoop1: 192.168.131.137 1 1
hadoop2: 192.168.131.138 1
hadoop3: 192.168.131.139 1

2.2 詳細步驟

1、解壓

cd /home/hadoop/apps
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

// 修改名稱(名字太長)
mv spark-2.2.0-bin-hadoop2.7.tgz spark-2.2.0

2、修改配置檔案

修改 spark-env.sh

cd spark-2.2.0/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh 

// 新增以下內容
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_261
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop

// 設定Master的主機名
export SPARK_MASTER_HOST=hadoop1
// 提交Application的埠,預設就是這個,萬一要改呢,改這裡
export SPARK_MASTER_PORT=7077
// 每一個Worker最多可以使用的cpu core的個數,我虛擬機器就一個...
// 真實伺服器如果有32個,你可以設定為32個
export SPARK_WORKER_CORES=1
// 每一個Worker最多可以使用的記憶體,我的虛擬機器就2g
// 真實伺服器如果有128G,你可以設定為100G
export SPARK_WORKER_MEMORY=1g
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6

修改 slaves

mv slaves.template slaves
vim slaves

// 新增以下內容,配置 Worker 節點
#localhost
hadoop1
hadoop2
hadoop3

3、重新命名 SPARK_HOME/sbin下的start-all.shstop-all.sh,防止與 hadoop/sbin 中的衝突

cd spark-2.2.0/sbin
mv start-all.sh start-spark-all.sh
mv stop-all.sh stop-spark-all.sh

4、配置環境變數

vim ~/.bashrc
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin

source ~/.bashrc

5、分發到其他節點

sh xscp.sh spark-2.2.0/

6、啟動 Spark 叢集

cd spark-2.2.0/sbin/

// 啟動
start-spark-all.sh

// 停止
stop-spark-all.sh

7、WebUIhttp://192.168.131.137:8080/

2.3 參考文章