Ubuntu下搭建spark叢集開發環境

阿新 • • 發佈：2019-01-06

之前在windows下搭建了一個spark的開發環境，但是後來發現如果想要搞spark streaming的例子的話在Linux下使用更方便，於是在Ubuntu下面搭建一下spark開發環境，記錄以做備忘之用。

2 .
.

3 .之後利用XSheel5將下載的壓縮包傳遞到linux的主節點的目錄下，這裡我的主節點的ip為192.168.71.128

4 .之後切換到目錄下，用tar -zxvf命令進行解壓縮，解壓縮後得到去掉字尾的資料夾

5 .之後進入 sudo vi /etc/profile,修改配置檔案，新增spark的相關內容，見下圖，之後退出用source/etc/profile進行儲存

6 .接下來修改之前解壓縮目錄下的conf下的spark-env.sh檔案，通過cp命令複製一下模板 cp spark-env.sh.template spark-env.sh

7 .之後通過sudo vispark-env.sh進入，在末尾新增這些東西見下圖，最後一個是主節點的ip地址，根據實際情況改成自己的:加入如下：

exportJAVA_HOME=/usr/local/java/jdk1.8.0_11

exportSCALA_HOME=/usr/local/hadoop/spark/scala-2.10.6

SPARK_MASTER_IP=192.168.71.128 #根據自己的master

主節點ip修改

8 .在這之前先在任何一個位置輸入spark-shell，測試一下環境變數是否配置成功，如果出現下面這個圖表明成功

9 .接下來修改spark下的conf下面的slaves檔案，新增子節點的ip地址，如果這裡沒有這個檔案，可以通過cp命令進行復制slaves模板得到，我這裡有三個子節點，根據自己的實際情況進行修改即可 sudo vi slaves

10 .將上面這個儲存，到此主節點的spark的相關配置已經完成，接下來只需要將該配置分發到其他子節點即可，之前已經配置了免密登入，如果這裡有問題，可以參考我之前寫的免密登入的相關內容，我這裡有三個子節點，全部拷貝到相同目錄下即可

使用scp /conf slave1: /usr/local/hadoop/spark/spark-2.2.0-bin-hadoop2.7/

11 .之後先啟動hadoop，分別呼叫start-dfs.sh和start-yarn.sh,之後進入spark的sbin目錄啟動start-master.sh和start-slaves.sh，

如果出現如下問題：

啟動命令改為：./start-master.sh和./start-slaves.sh即可

如果執行hadoop的start-dfs.sh不動了，則需要輸入密碼，因為我的master端沒有配置好自己免密碼登入ssh，所以需要輸入master的密碼，尷尬。。。。

啟動完畢後在主節點和子節點分別呼叫jps檢視程序如下圖

12 .之後登入8080檢視spark的管理介面，出現下圖說明叢集搭建成功暫時告一段落，這裡根據自己的主節點的ip地址進行修改即可。

13 .接下里就可以進行實操了，