spark | ubuntu16.20安裝spark-2.1.0
下載 spark
1、進入官網下載spark
可能並沒有顯示想要的版本 ➡ spark-2.1.0-bin-without-hadoop.tgz 直鏈
⚠️ 此時環境是安裝了Hadoop的,這個
without
就是表示「Hadoop free」,這樣下載spark可以應用到任意版本的hadoop
2、spark模式簡介
Spark部署模式主要有四種:Local模式(單機模式)、Standalone模式(使用Spark自帶的簡單叢集管理器)、YARN模式(使用YARN作為叢集管理器)和Mesos模式(使用Mesos作為叢集管理器)。
配置 spark
1、進行基本的配置設定
# 將下載好的spark解壓到 /usr/local/下 [解壓] sudo tar -zxf ./spark-2.1.0-bin-without-hadoop.tgz -C /usr/local # 切換到/usr/local目錄 cd /usr/local # 將spark-2.1.0xxx 改名為 spark [改名] sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark # 增加spark目錄 hadoop使用者許可權 [賦許可權] sudo chown -R hadoop:hadoop ./spark
2、安裝後,還需要修改Spark的配置檔案spark-env.sh
# /usr/local/spark
cd /usr/local/spark/ # 切換至 spark
# 複製一份spark-env.sh (/usr/local/spark)
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
3、編輯spark-env.sh檔案(vim ./conf/spark-env.sh),在第一行新增以下配置資訊:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
Q: 上述匯入命名作用是什麼?
有了上面的配置資訊以後,Spark就可以把資料儲存到Hadoop分散式檔案系統HDFS中,也可以從HDFS中讀取資料。如果沒有配置上面資訊,Spark就只能讀寫本地資料,無法讀寫HDFS資料。
配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。
4、通過執行Spark自帶的示例,驗證Spark是否安裝成功。
(配置完成後就可以直接使用,不需要像Hadoop執行啟動命令。)
cd /usr/local/spark
bin/run-example SparkPi
執行時會輸出非常多的執行資訊,輸出結果不容易找到,可以通過 grep
命令進行過濾(命令中的 2>&1 可以將所有的資訊都輸出到 stdout 中,否則由於輸出日誌的性質,還是會輸出到螢幕中):
bin/run-example SparkPi 2>&1 | grep "Pi is"
這裡涉及到Linux Shell中管道的知識,詳情可以參考Linux Shell中的管道命令
過濾後的執行結果如下圖示,可以得到π 的 5 位小數近似值:
到此 spark2.1.0安裝成功 !
相關文章