1. 程式人生 > >spark叢集安裝與配置

spark叢集安裝與配置

Spark有三種執行模式,分別為:

local模式-只執行在本地,相當於偽分散式

standalone模式-這種模式只需要安裝Spark即可,使用自帶的資源管理器

Spark on yarn/mesos模式-這種模式Spark將使用yarn/mesos作為資源管理器

一般來說,standalone適合只想體驗一把Spark叢集的人,如果想將Spark應用於生產環境,還需要藉助第三方的資源排程模組來優化Spark的資源管理。

Spark以哪一種模式執行可以在執行spark-shell或者spark-submit命令時通過指定 --master引數來設定,如果不設定預設以local方式單機執行。

本次記錄的是Spark 的安裝與配置,使用的是基本的配置選項,如果想了解Spark的更多配置選項來優化Spark叢集的效能可以參閱官方文件或者關注後續文章。

由於我想在Spark安裝完成後執行在yarn之上,所以在配置過程中添加了一些hadoop的配置,如果想使用Spark on yarn需要安裝Hadoop2.0以及以上版本。本例是在Hadoop2.4.0平臺搭建,當然,如果僅是做學習體驗用只使用local或standalone模式可以不用安裝Hadoop。

本次在上述雙節點Hadoop叢集的基礎上安裝Spark。兩個節點分別為:
master 192.168.1.131
slave1 192.168.1.125

一、安裝Scala

Spark是由Scala語言編寫的,所以要想在機器上執行Spark就必須先安裝Scala。下載地址:http://www.scala-lang.org/download/

使用者需要根據所要安裝的Spark版本選擇對應的Scala版本。這點在Spark官網上會有說明。這次安裝的是Spark1.6.1版本,下載的Scala版本為2.10.4
下載完成後將Scala-2.10.4.tgz上傳至linux主機中
解壓:
tar -zxvf Scala-2.10.4.tgz -C /cloud/
配置環境變數:
在/etc/profile檔案中新增:
export SCALA_HOME=/cloud/scala-2.10.4
export PATH=${SCALA_HOME}/bin:$PATH

儲存退出,記得 source /etc/profile

二、安裝Spark

進入官網下載Spark程式包,下載地址:
http://spark.apache.org/downloads.html

本次示例以Spark1.6.1版本為例:
下載spark-1.6.1-bin-hadoop2.tgz
解壓:
tar-zxvf spark-1.6.1-bin-hadoop2.tgz -C /cloud

接下來修改Spark的配置檔案,這裡對Spark進行簡單配置,其他更詳細的配置可以參考:http://spark.apache.org/docs/1.6.1/configuration.html
1、修改conf/spark-env.sh,在檔案中新增以下引數:
export SCALA_HOME=/cloud/scala-2.10.4
export JAVA_HOME=/cloud/jdk1.7.0_80
export SPARK_WORKER_MEMORY=6g
export SPARK_MASTER_IP=192.168.1.131
export MASTER=spark://192.168.1.131:7077

說明:
引數SPARK_WORKER_MEMORY用於指定在worker可用最大記憶體。這裡分配了6GB,讀者可以根據自己機器的配置自行分配,但是要為作業系統和其它服務預留足記憶體。
引數SPARK_MASTER_IP和MASTER根據自己主機的ip修改即可。
2、修改conf/slaves檔案:
本次示例叢集有兩個節點,一個master節點和一個slave1節點。所以在slaves檔案中只需要新增:
slave1

說明:
slave1為節點名,也可以填worker節點的ip地址。


接下來同步至slave節點:
首先,同步scala。
scp -r /cloud/[email protected]:/cloud

然後是spark:
scp -r /cloud/spark-1.6.1-bin-hadoop2/ [email protected]:/cloud/

最後修改slave1上的 /etc/profile 檔案和master節點一致。記得source /etc/profile。
如果有多個從節點,這樣同步會很麻煩,可以參考:http://blog.csdn.net/u013468917/article/details/50977666用pssh批量操作。


三、啟動Spark

如果需要使用Spark on yarn,需要在啟動spark之前確保hadoop已經啟動。
spark啟動命令在Spark根目錄下的sbin目錄下。
cd /cloud/spark-1.6.1-bin-hadoop2/sbin
./start-all.sh

正常情況下,master節點會出現master程序,可以用jps檢視:
#jps
23526 Jps
2112 Master
7235 NameNode
7598 SecondaryNameNode
7569 ResourceManager
worker節點會有worker程序:
#jps
23489 Jps
1258 Worker
1364 DataNode
24587 NodeManager


四、關閉Spark
在Master節點:
/cloud/spark-1.6.1-bin-hadoop2/sbin/stop-all.sh



問題記錄:
初次安裝hadoop時參考網上文章,沒有提到要配置HADOOP_CONF_DIR或者YARN_CONF_DIR變數。如果沒有配置這兩個變數,hadoop可以正常執行,hadoop上的hive也可以執行。但是spark會報錯。所以需要確認添加了HADOOP_CONF_DIR或者YARN_CONF_DIR環境變數。配置示例:$HADOOP_HOME/etc/hadoop

相關推薦

spark叢集安裝配置

Spark有三種執行模式,分別為: local模式-只執行在本地,相當於偽分散式 standalone模式-這種模式只需要安裝Spark即可,使用自帶的資源管理器 Spark on yarn/mesos模式-這種模式Spark將使用yarn/mesos作為資源管理器 一般來

Kubernetes學習系列之簡單叢集安裝配置

環境配置 CentOS Linux release 7.3.1611 (Core)  etcd-v3.2.6 docker-ce-17.03.2.ce kubernetes-v1.6.9 192.168.108.128 節點1 192.168.108.129 節點2 19

MySQL Galera 叢集安裝配置

galera 叢集概述與搭建 Galera replication原理 從客戶端看整體的流程 其中對應的角色分為2個:協調者和參與者 協調者: 1、 接收客戶端請求 2、 廣播請求到其他參與者(包括自己) 3、 作為參與者進行資料更新 4、 更新失敗

windows下spark安裝配置教程

一、安裝Scala  下載地址:http://www.scala-lang.org/download/all.html 進入頁面後選擇一個Scala版本進行下載,我選擇的是Scala2.12.0版本。特別注意的是看帖子又的說Scala版本與Spark版本之間是有一定關聯

ZooKeeper叢集安裝配置(ZooKeeper3.4.6)

環境 同時需要在/etc/profile檔案中增加 export JAVA_HOME=/usr/java/jdk1.8.0_65 export CLASSPATH=.:$JAVA_HOM

Linux下基於Hadoop的大資料環境搭建步驟詳解(Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark安裝配置

Linux下基於Hadoop的大資料環境搭建步驟詳解(Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark等安裝與配置) 系統說明 搭建步驟詳述 一、節點基礎配置 二、H

Kafka_2.10-0.10.0.0叢集安裝配置

     上文已經講過如何安裝Zookeeper叢集,因為Kafka叢集需要依賴Zookeeper服務,雖然Kafka有內建Zookeeper,但是還是建議獨立安裝Zookeeper叢集服務,此處不再贅述      kafka叢集還是安裝在10.10.16.170  、

Kubernetes叢集安裝配置

注:本文系統環境為centos7,master:10.1.1.1,node1:10.1.1.2 etcd安裝與配置 使用yum install etcd或者官網下載etcd進行安裝,copy etcd和etcdctl到/usr/bin目錄下 設定syste

kafka+zookeeper叢集安裝配置(CENTOS7環境)及開發中遇到的問題解決

kafka+zookeeper叢集安裝與配置及問題解決(CENTOS)ZOOKEEPER 叢集主要配置(zoo.cfg) :tickTime=2000 initLimit=10 syncLimit=5 dataDir=/home/hadoop/spark/zookeeper-3.4.6/zkdata data

Spark本地安裝配置

  由於Spark是用Scala來寫的,所以Spark對Scala肯定是原生態支援的,因此這裡以Scala為主來介紹Spark環境的搭建,主要包括四個步驟,分別是:JDK的安裝,Scala的安裝,Spark的安裝,Hadoop的下載和配置。為了突出”From Scrat

Spark 2.2.0 安裝配置

mem p s template .sh org uri 文件 圖片 with 下載Spark 解壓並移動到/software目錄: tar -zxvf spark-2.2.0-bin-without-hadoop.tgz mv spark-2.2.0-bin-withou

Hadoop叢集安裝配置

一.準備Linux環境(虛擬機器)   1.先將虛擬機器的網路模式選為NAT   2.修改主機名   vi /etc/sysconfig/network       NETWORKING=yes HOSTNAME=hdp-node-01   

雲伺服器環境安裝配置:kafka叢集

本文詳細說明kafka叢集安裝和命令列的基本使用 環境 zk叢集:192.168.31.201、192.168.31.202、192.168.31.203 Centos7 三臺 對齊

分散式Web應用----Linux環境下zookeeper叢集環境的安裝配置

寫在前面 zookeeper在分散式應用中運用的比較廣泛,瞭解zookeeper的原理對理解分佈架構的應用具有很大的幫助,學會安裝zookeeper是學習zookeeper的前提,自己剛剛學習zookeeper,記錄一下安裝過程,增加自己印象,方便其它人學習。

ELK叢集-Filebeat安裝配置(二)

filebeat是一個ELK官方推出的輕量級日誌收集工具,用go語言編寫,相比logstash佔用資源更少,安裝也更方便,可以通過包管理直接安裝,缺點是不具備logstash的filter filebeat下載地址 安裝 tar -zxvf filebeat-6

hadoop-2.2.0偽分散式(全分佈叢集安裝配置續,很詳細的哦~)

         hadoop-2.2.0偽分散式與(全分佈叢集安裝於配置續) hadoop-2.2.0全分佈叢集安裝於配置點選開啟連結 一、偽分佈模式 1、前提說明 我這裡配置hadoop叢集均是在虛擬機器上配置的,使用的安裝環境說明如下:       (1) 宿主機wi

Spark單機叢集安裝簡單命令列使用

參考自書籍《Hadoop+Spark 大資料巨量分析與機器學習》 環境依賴: jdk 1.7 scala 2.11.6 spark 2.1.2 1 安裝scala $ wget https://www.scala-lang.org/files/archiv

ZooKeeper叢集環境安裝配置

ZooKeeper版本:3.4.5約定:3臺虛擬機器ZooKeeper官網:http://zookeeper.apache.org/1.下載解壓# wget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.5

Zookeeper叢集安裝配置

Zookeeper叢集的安裝配置實際上非常簡單,只需編輯幾個配置檔案即可。 有一點需要注意的,Zookeeper叢集中Zookeeper服務的數量儘量是奇數個,因為Zookeeper的仲裁機制要求超過半數的服務正常才可以,所以如果是4個的話,那兩個正常是無法工作的,必須要3

CentOS下torque叢集配置(一)-torque安裝配置

一、Centos7系統的安裝及設定 1、給兩臺電腦安裝CentOS7.0,光碟啟動路徑修改為:/dev/cdrom 修改主機名稱 # hostnamectl set-hostname <host-name> 2、設定ip地址 # vi /etc/sysco