1. 程式人生 > 其它 >spark | ubuntu16.20安裝spark-2.1.0

spark | ubuntu16.20安裝spark-2.1.0

下載 spark

1、進入官網下載spark

官網

可能並沒有顯示想要的版本 ➡ spark-2.1.0-bin-without-hadoop.tgz 直鏈

⚠️ 此時環境是安裝了Hadoop的,這個without就是表示「Hadoop free」,這樣下載spark可以應用到任意版本的hadoop

2、spark模式簡介

Spark部署模式主要有四種:Local模式(單機模式)、Standalone模式(使用Spark自帶的簡單叢集管理器)、YARN模式(使用YARN作為叢集管理器)和Mesos模式(使用Mesos作為叢集管理器)。

配置 spark

1、進行基本的配置設定

# 將下載好的spark解壓到 /usr/local/下            [解壓]
sudo tar -zxf ./spark-2.1.0-bin-without-hadoop.tgz -C /usr/local
# 切換到/usr/local目錄
cd /usr/local
# 將spark-2.1.0xxx 改名為 spark                 [改名]
sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark
# 增加spark目錄 hadoop使用者許可權                   [賦許可權]
sudo chown -R hadoop:hadoop ./spark

2、安裝後,還需要修改Spark的配置檔案spark-env.sh

#  /usr/local/spark
cd /usr/local/spark/ # 切換至 spark
# 複製一份spark-env.sh (/usr/local/spark)
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

3、編輯spark-env.sh檔案(vim ./conf/spark-env.sh),在第一行新增以下配置資訊:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

Q: 上述匯入命名作用是什麼?

有了上面的配置資訊以後,Spark就可以把資料儲存到Hadoop分散式檔案系統HDFS中,也可以從HDFS中讀取資料。如果沒有配置上面資訊,Spark就只能讀寫本地資料,無法讀寫HDFS資料。
配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。

4、通過執行Spark自帶的示例,驗證Spark是否安裝成功。

(配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。)

cd /usr/local/spark
bin/run-example SparkPi

執行時會輸出非常多的執行資訊,輸出結果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的資訊都輸出到 stdout 中,否則由於輸出日誌的性質,還是會輸出到螢幕中):

bin/run-example SparkPi 2>&1 | grep "Pi is"

這裡涉及到Linux Shell中管道的知識,詳情可以參考Linux Shell中的管道命令
過濾後的執行結果如下圖示,可以得到π 的 5 位小數近似值:

到此 spark2.1.0安裝成功 !

相關文章

  1. Spark2.1.0入門:Spark的安裝和使用
  2. Ubuntu下搭建spark2.2環境(單機版)