Spark開發環境的配置

軟體版本：Spark 0.9

配置Spark開發環境，其實分為三個層次，一種是針對運維人員，把Spark安裝部署到叢集；一種是針對普通開發者，引入Spark的jar包，呼叫Spark提供的介面，編寫分散式程式，寫好後編譯成jar，就可以提交到Spark叢集去運行了；第三種是針對Spark開發者，為了給Spark貢獻程式碼，需要git clone Spark的程式碼，然後匯入IDE，為Spark開發程式碼。

1 部署Spark叢集

這種是運維人員在生產環境下，搭建起一個Spark叢集。

（可選）建立新使用者 Spark

一般我傾向於把需要啟動daemon程序，對外提供服務的程式，即伺服器類的程式，安裝在單獨的使用者下面。這樣可以做到隔離，運維方面，安全性也提高了。

建立一個新的group,

$ sudo groupadd spark

建立一個新的使用者，並加入group,

$ sudo useradd -g spark spark

給新使用者設定密碼，

$ sudo passwd spark

在每臺機器上建立 spark 新使用者，並配置好SSH無密碼，參考我的另一篇部落格，SSH無密碼登入的配置

假設有三臺機器，hostname分別是 master, worker01, worker02。

1.1 下載 Spark 預編譯好的二進位制包

如果你需要用到HDFS，則要針對Hadoop 1.x 和Hadoop 2.x 選擇不同的版本。這裡我選擇 Hadoop 2.x 版。

[email protected] $ wget http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating-bin-hadoop1.tgz
[email protected] $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt

1.2 將tgz壓縮包scp到所有機器，解壓到相同的路徑

[email protected] $ scp spark-0.9.0-incubating-bin-hadoop1.tgz [email protected] 
:~
[email protected] $ ssh worker01
[email protected] $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
[email protected] $ exit
[email protected] $ scp spark-0.9.0-incubating-bin-hadoop1.tgz [email protected]:~
[email protected] $ ssh worker02
[email protected] $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
[email protected] $ exit

1.3 修改配置檔案

Spark 0.9 以後，配置檔案簡單多了，只有一個必須要配置，就是 conf/slaves 這個檔案。在這個檔案裡新增slave的hostname。

1.4 拷貝配置檔案到所有slave

[email protected] $ [email protected] $ scp ./conf/slaves [email protected]:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf
[email protected] $ [email protected] $ scp ./conf/slaves [email protected]:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf

1.5 啟動Spark叢集

[email protected] $ ./sbin/start-all.sh

也可以一臺一臺啟動，先啟動 master

[email protected] $ ./sbin/start-master.sh

啟動兩臺 slave，

[email protected] $ ./sbin/start-slave.sh 1 spark://master:7077
[email protected] $ ./sbin/start-slave.sh 2 spark://master:7077

其中，1, 2 是 worker的編號，可以是任意數字，只要不重複即可，spark://master:7077 是 master 的地址。以後向叢集提交作業的時候，也需要這個地址。

1.6 測試一下，向叢集提交一個作業

[email protected] $ ./bin/run-example org.apache.spark.examples.SparkPi spark://master:7077

2 配置普通開發環境

TODO

3 配置Spark開發環境

當你需要修改Spark的程式碼，或給Spark新增程式碼，就需要閱讀本節了。

3.1 git clone 程式碼

git clone [email protected]:apache/incubator-spark.git

3.2 編譯

Spark指令碼會自動下載對應版本的sbt和scala編譯器，因此機器事先不需要安裝sbt和scala

按照 github 官方repo首頁的文件，輸入如下一行命令即可開始編譯，

./sbt/sbt assembly

3.3 執行一個例子

./run-example org.apache.spark.examples.SparkPi local

說明安裝成功了。

3.4 試用 spark shell

./spark-shell

會出現scala>提示符號，可見spark指令碼自動下載了scala編譯器，其實就是一個jar，例如scala-compiler-2.10.3.jar。

3.5 安裝scala

開發Spark的時候，由於Intellij Idea 需要呼叫外部的sbt和scala，因此機器上還是需要安裝scala和sbt。

開啟 projects/SparkBuild.scala，搜尋scalaVersion，獲得spark所使用的scala編譯器版本，然後去scala官網http://www.scala-lang.org/，下載該版本的scala編譯器，並設定SCALA_HOME環境變數，將bin目錄加入PATH。例如下載scala-2.10.3.tgz，解壓到/opt，設定環境變數如下：

sudo vim /etc/profile
export SCALA_HOME=/opt/scala-2.10.3
export PATH=$PATH:$SCALA_HOME/bin

3.6 安裝sbt

開啟projects/build.properties，可以看到spark所使用的sbt版本號，去官網http://www.scala-sbt.org/下載該版本的sbt，雙擊安裝。並設定SBT_HOME環境變數，將bin目錄加入PATH。

3.7 下載並安裝idea

Spark核心團隊的hashjoin曾在我部落格上留言，說他們都使用idea在開發spark，我用過Scala IDE和idea，兩者各有優劣，總的來說，idea要好用一些，雖然我是老牌eclipse使用者，但我還是轉向了idea。

去idea官網下載idea的tar.gz包，解壓就行。執行idea，安裝scala外掛。

3.8 生成idea專案檔案

在原始碼根目錄，使用如下命令

./sbt/sbt gen-idea

就生成了idea專案檔案。

3.9 Open Project

使用 idea，點選File->Open project，瀏覽到 incubator-spark資料夾，開啟專案，就可以修改Spark程式碼了。

spark版本：spark-0.9.1-bin-hadoop2  下載地址http://spark.apache.org/downloads.html
這裡的spark有三個版本：

    For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
    For CDH4: find an Apache mirror or direct file download
    For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop2.2.0的，所以下載的是for hadoop2

關於spark的介紹可以參看http://spark.apache.org/
Apache Spark is a fast and general engine for large-scale data processing.

spark執行時需要scala環境，這裡下載最新版本的scala  http://www.scala-lang.org/

scala是一種可伸縮的語言是一種多正規化的程式語言，一種類似java的程式設計，設計初衷是要整合面向物件程式設計和函數語言程式設計的各種特性。Scala是在JVM上執行，Scala是一種純粹的面向物件程式語言，而又無縫地結合了命令式和函式式的程式設計風格

ok 開始配置spark：

我是在hadoop的安裝使用者下面安裝的，所以這裡直接編輯/home/hadoop/.bashrc

[[email protected] ~]$ cat .bashrc
# .bashrc

# Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi

# User specific aliases and functions
export HADOOP_HOME=/home/hadoop/hadoop
export HBASE_HOME=/home/hadoop/hbase
export HIVE_HOME=/home/hadoop/hive
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_HOME=/etc/home/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark

export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
export CLASSPATH=$CLASSPATH:$HADOOP/lib:$HBASE_HOME/lib

1.scala安裝：
將scala解壓到hadoop根目錄下
ln -ls scala-2.11.0 scala#建立軟連結
lrwxrwxrwx.  1 hadoop hadoop        12 May 21 09:15 scala -> scala-2.11.0
drwxrwxr-x.  6 hadoop hadoop      4096 Apr 17 16:10 scala-2.11.0

編輯.bashrc  加入  export SCALA_HOME=/home/hadoop/scala
export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
儲存並使環境變數生效  source  .bashrc
驗證安裝：
[[email protected] ~]$ scala -version
Scala code runner version 2.11.0 -- Copyright 2002-2013, LAMP/EPFL
能夠正常顯示版本說明安裝成功

2：spark配置：
tar -xzvf  spark-0.9.1-bin-hadoop2.tgz
ln -s spark-0.9.1-bin-hadoop2 spark
然後配置.bashrc
export SPARK_HOME=/home/hadoop/spark
export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

編輯完成source .bashrc 使環境變數生效

spark-env.sh配置：
spark-env.sh是不存在的需要從 cat spark-env.sh.template >> spark-env.sh 生成

然後編輯spark-env.sh

加入一下內容
export SCALA_HOME=/home/hadoop/scala
export JAVA_HOME=/usr/java/jdk
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export HADOOP_HOME=/home/hadoop/hadoop
export SPARK_HOME=/home/hadoop/spark
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

儲存退出

3.啟動spark
跟hadoop的目錄結構相似在spark下面的sbin裡邊放了啟動和關閉的shell檔案
-rwxrwxr-x. 1 hadoop hadoop 2504 Mar 27 13:44 slaves.sh
-rwxrwxr-x. 1 hadoop hadoop 1403 Mar 27 13:44 spark-config.sh
-rwxrwxr-x. 1 hadoop hadoop 4503 Mar 27 13:44 spark-daemon.sh
-rwxrwxr-x. 1 hadoop hadoop 1176 Mar 27 13:44 spark-daemons.sh
-rwxrwxr-x. 1 hadoop hadoop  965 Mar 27 13:44 spark-executor
-rwxrwxr-x. 1 hadoop hadoop 1263 Mar 27 13:44 start-all.sh
-rwxrwxr-x. 1 hadoop hadoop 2384 Mar 27 13:44 start-master.sh
-rwxrwxr-x. 1 hadoop hadoop 1520 Mar 27 13:44 start-slave.sh
-rwxrwxr-x. 1 hadoop hadoop 2258 Mar 27 13:44 start-slaves.sh
-rwxrwxr-x. 1 hadoop hadoop 1047 Mar 27 13:44 stop-all.sh
-rwxrwxr-x. 1 hadoop hadoop 1124 Mar 27 13:44 stop-master.sh
-rwxrwxr-x. 1 hadoop hadoop 1427 Mar 27 13:44 stop-slaves.sh
[[email protected] sbin]$ pwd
/home/hadoop/spark/sbin

這裡只需要執行start-all就可以了～～～
[[email protected] sbin]$ ./start-all.sh
rsync from localhost
rsync: change_dir "/home/hadoop/spark-0.9.1-bin-hadoop2/sbin/localhost" failed: No such file or directory (2)
rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1039) [sender=3.0.6]
starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-localhost.out
localhost: rsync from localhost
localhost: rsync: change_dir "/home/hadoop/spark-0.9.1-bin-hadoop2/localhost" failed: No such file or directory (2)
localhost: rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1039) [sender=3.0.6]
localhost: starting org.apache.spark.deploy.worker.Worker, logging to /home/hadoop/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-localhost.out

通過jps檢視啟動是否成功：
[[email protected] sbin]$ jps
4706 Jps
3692 DataNode
3876 SecondaryNameNode
4637 Worker
4137 NodeManager
4517 Master
4026 ResourceManager
3587 NameNode

可以看到有一個Master跟Worker程序說明啟動成功
可以通過http://localhost:8080/檢視spark叢集狀況

4 執行spark自帶的程式
首先需要進入spark下面的bin目錄：
[[email protected] sbin]$ ll ../bin/
total 56
-rw-rw-r--. 1 hadoop hadoop 2601 Mar 27 13:44 compute-classpath.cmd
-rwxrwxr-x. 1 hadoop hadoop 3330 Mar 27 13:44 compute-classpath.sh
-rwxrwxr-x. 1 hadoop hadoop 2070 Mar 27 13:44 pyspark

Spark開發環境的配置

1 部署Spark叢集

（可選）建立新使用者 Spark

1.1 下載 Spark 預編譯好的二進位制包

1.2 將tgz壓縮包scp到所有機器，解壓到相同的路徑

1.3 修改配置檔案

1.4 拷貝配置檔案到所有slave

1.5 啟動Spark叢集

1.6 測試一下，向叢集提交一個作業

2 配置普通開發環境

3 配置Spark開發環境

3.1 git clone 程式碼

3.2 編譯

3.3 執行一個例子

3.4 試用 spark shell

3.5 安裝scala

3.6 安裝sbt

3.7 下載並安裝idea

3.8 生成idea專案檔案

3.9 Open Project

學習筆記:從0開始學習大資料-13. Eclipse+Scala+Maven Spark開發環境配置

Spark開發環境配置(windows/Intellij IDEA 篇)

Spark教程(3)-開發環境配置及單詞計數

Spark本地開發環境配置(windows/Intellij IDEA 篇)

idea配置spark開發環境時產生的錯誤總結

eclipse配置spark開發環境

Mac上配置maven+eclipse+spark開發環境

spark+hive win7開發環境配置

Spark開發環境的配置

Laravel for Windows 開發環境配置

Hibernate單表映射學習筆記之一——hibernalnate開發環境配置

eclipse開發環境配置

二維碼解碼器Zbar+VS2010開發環境配置（使用opencv庫）

Java 開發環境配置

Kinect開發筆記之三Kinect開發環境配置具體解釋

Java開發環境配置

OpenCV2.4.13+VS2013開發環境配置

WIN10下java8的開發環境配置

PHP 開發環境配置：WampServer+ZendStudio+XDebug

Intellij Idea搭建Spark開發環境

Spark開發環境的配置

1 部署Spark叢集

（可選）建立新使用者 Spark

1.1 下載 Spark 預編譯好的二進位制包

1.2 將tgz壓縮包scp到所有機器，解壓到相同的路徑

1.3 修改配置檔案

1.4 拷貝配置檔案到所有slave

1.5 啟動Spark叢集

1.6 測試一下，向叢集提交一個作業

2 配置普通開發環境

3 配置Spark開發環境

3.1 git clone 程式碼

3.2 編譯

3.3 執行一個例子

3.4 試用 spark shell

3.5 安裝scala

3.6 安裝sbt

3.7 下載並安裝idea

3.8 生成idea專案檔案

3.9 Open Project

相關推薦