Spark專案實戰-Spark客戶端安裝
阿新 • • 發佈:2019-02-08
一 下載
從官網下載對應版本的spark,博主下載的是spark-1.5.1-bin-hadoop2.4.tgz。
二 安裝
1、安裝之前我們用WinSCP工具,將剛下載的tgz檔案上傳到Linux的/usr/local目錄下。
2、解壓tgz檔案。
三 配置環境變數
四 修改spark-env.sh檔案
進入spark/conf目錄,然後我們用cp命令將spark-env.sh.template複製為spark-env.sh。然後vi編輯spark-env.sh。
五 yarn-client模式提交spark作業
至此,spark客戶端安裝成功。我們用yarn-client模式提交spark自帶的一個示例。在/usr/local下建立spark-study目錄,並建立一個yarn-client-example.sh檔案。
# yarn-client-example.sh檔案內容
/usr/local/spark/bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \
--master yarn-client \
--num-executors 1 \
--driver-memory 10m \
--executor-memory 10m \
--executor-cores 1 \
/usr/local/spark/lib/spark-examples-1.5.1-hadoop2.4.0.jar \
執行yarn-client-example.sh指令碼檔案,但在執行之前我們可能需要使用chmod命令修改下許可權。
# 修改許可權
chmod 777 yarn-client-example.sh
# 在/usr/local/spark-study下執行
./yarn-client-example.sh
博主在這裡執行失敗,丟擲一個記憶體溢位的錯誤,但是這樣的一個示例是沒有任何問題的,小夥伴們可以在自己機器上嘗試一下哦。
六 yarn-cluster模式提交spark作業
該樣例同yarn-client模式,我們先建立yarn-cluster-example.sh,然後使用chmod修改許可權,然後執行即可。只是把執行檔案中的master修改為yarn-cluster。具體如下:
/usr/local/spark/bin/spark-submit \ --class org.apache.spark.examples.JavaSparkPi \ --master yarn-cluster \ --num-executors 1 \ --driver-memory 10m \ --executor-memory 10m \ --executor-cores 1 \ /usr/local/spark/lib/spark-examples-1.5.1-hadoop2.4.0.jar \
yarn-cluster模式下提交spark作業,我們可以看到如下資訊。