Spark 完全分散式搭建
阿新 • • 發佈:2021-10-10
1. scala 安裝
1、準備工作
scala
:scala-2.13.6.tar.gz
2、安裝
// 將 scala-2.13.6.tar.gz 拷貝到 /home/hadoop/apps 解壓
cd /home/hadoop/apps
tar -zxvf scala-2.13.6.tar.gz
// 環境變數配置
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
export PATH=$PATH:$SCALA_HOME/bin
source ~/.bashrc
2. spark 安裝
2.1 準備工作
- 下載地址,用的包版本:
spark-2.2.0-bin-hadoop2.7.tgz
叢集規劃
Master | Worker | |
---|---|---|
hadoop1: 192.168.131.137 | 1 | 1 |
hadoop2: 192.168.131.138 | 1 | |
hadoop3: 192.168.131.139 | 1 |
2.2 詳細步驟
1、解壓
cd /home/hadoop/apps
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
// 修改名稱(名字太長)
mv spark-2.2.0-bin-hadoop2.7.tgz spark-2.2.0
2、修改配置檔案
修改 spark-env.sh
cd spark-2.2.0/conf mv spark-env.sh.template spark-env.sh vim spark-env.sh // 新增以下內容 export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_261 export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop // 設定Master的主機名 export SPARK_MASTER_HOST=hadoop1 // 提交Application的埠,預設就是這個,萬一要改呢,改這裡 export SPARK_MASTER_PORT=7077 // 每一個Worker最多可以使用的cpu core的個數,我虛擬機器就一個... // 真實伺服器如果有32個,你可以設定為32個 export SPARK_WORKER_CORES=1 // 每一個Worker最多可以使用的記憶體,我的虛擬機器就2g // 真實伺服器如果有128G,你可以設定為100G export SPARK_WORKER_MEMORY=1g export SPARK_HOME=/home/hadoop/apps/spark-2.2.0 export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5 export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
修改 slaves
mv slaves.template slaves
vim slaves
// 新增以下內容,配置 Worker 節點
#localhost
hadoop1
hadoop2
hadoop3
3、重新命名 SPARK_HOME/sbin
下的start-all.sh
和stop-all.sh
,防止與 hadoop/sbin
中的衝突
cd spark-2.2.0/sbin
mv start-all.sh start-spark-all.sh
mv stop-all.sh stop-spark-all.sh
4、配置環境變數
vim ~/.bashrc export SPARK_HOME=/home/hadoop/apps/spark-2.2.0 export PATH=$PATH:$SPARK_HOME/bin source ~/.bashrc
5、分發到其他節點
sh xscp.sh spark-2.2.0/
6、啟動 Spark
叢集
cd spark-2.2.0/sbin/
// 啟動
start-spark-all.sh
// 停止
stop-spark-all.sh
7、WebUI
:http://192.168.131.137:8080/