spark安裝簡要指南
阿新 • • 發佈:2019-02-19
這裡記錄一下spark安裝的步驟。
首先安裝好hadoop,然後下載spark on hadoop,解壓縮到namenode上。將spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh.template改為spark-env.sh,然後新增:
export JAVA_HOME =/usr/java/jdk1.8.0_66 export HADOOP_HOME =/root/hadoop-2.8.0 export HADOOP_CONF_DIR =$HADOOP_HOME/etc/hadoop export SPARK_HOME = /root/spark-2.3.1-bin-hadoop2.7 export SPARK_MASTER_IP =namenode export SPARK_EXECUTOR_MEMORY =4G
然後將spark拷貝到各個節點,真的是簡單到不行。
在namenode的sbin目錄下使用如下命令來啟動python環境的spark,引數根據自己叢集的情況進行修改。
pyspark --master yarn --deploy-mode client --num-executors 10 --driver-memory 8g --executor-memory 16g --executor-cores 4 --conf “spark.driver.host=namenode”
可以使用8080檢視spark叢集情況,用4040檢視spark任務。
為了方便使用,可以修改/etc/profile:
export HADOOP_HOME=/root/hadoop-2.8.0 export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export SPARK_HOME=/root/spark-2.3.1-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH