1. 程式人生 > >Ubuntu下搭建spark叢集開發環境

Ubuntu下搭建spark叢集開發環境

之前在windows下搭建了一個spark的開發環境,但是後來發現如果想要搞spark streaming的例子的話在Linux下使用更方便,於是在Ubuntu下面搭建一下spark開發環境,記錄以做備忘之用。

2 . 
.

3 .之後利用XSheel5將下載的壓縮包傳遞到linux的主節點的目錄下,這裡我的主節點的ip192.168.71.128


4 .之後切換到目錄下,用tar -zxvf命令進行解壓縮,解壓縮後得到去掉字尾的資料夾


5 .之後進入 sudo vi /etc/profile,修改配置檔案,新增spark的相關內容,見下圖,之後退出用source/etc/profile進行儲存


6 .接下來修改之前解壓縮目錄下的conf下的spark-env.sh檔案,通過cp命令複製一下模板  cp spark-env.sh.template spark-env.sh


7 .之後通過sudo vispark-env.sh進入,在末尾新增這些東西見下圖,最後一個是主節點的ip地址,根據實際情況改成自己的:加入如下:

exportJAVA_HOME=/usr/local/java/jdk1.8.0_11

exportSCALA_HOME=/usr/local/hadoop/spark/scala-2.10.6

SPARK_MASTER_IP=192.168.71.128     #根據自己的master

主節點ip修改


8 .在這之前先在任何一個位置輸入spark-shell,測試一下環境變數是否配置成功,如果出現下面這個圖表明成功


9 .接下來修改spark下的conf下面的slaves檔案,新增子節點的ip地址,如果這裡沒有這個檔案,可以通過cp命令進行復制slaves模板得到,我這裡有三個子節點,根據自己的實際情況進行修改即可 sudo vi slaves


10 .將上面這個儲存,到此主節點的spark的相關配置已經完成,接下來只需要將該配置分發到其他子節點即可,之前已經配置了免密登入,如果這裡有問題,可以參考我之前寫的免密登入的相關內容,我這裡有三個子節點,全部拷貝到相同目錄下即可

 使用scp /conf  slave1: /usr/local/hadoop/spark/spark-2.2.0-bin-hadoop2.7/

11 .之後先啟動hadoop,分別呼叫start-dfs.shstart-yarn.sh,之後進入sparksbin目錄啟動start-master.shstart-slaves.sh

如果出現如下問題:

啟動命令改為:./start-master.sh./start-slaves.sh即可

 如果執行hadoop的start-dfs.sh不動了,則需要輸入密碼,因為我的master端沒有配置好自己免密碼登入ssh,所以需要輸入master的密碼,尷尬。。。。

啟動完畢後在主節點和子節點分別呼叫jps檢視程序如下圖


 

12 .之後登入8080檢視spark的管理介面,出現下圖說明叢集搭建成功暫時告一段落,這裡根據自己的主節點的ip地址進行修改即可。

 

13 .接下里就可以進行實操了,