Spark叢集安裝

阿新 • • 發佈：2019-04-13

Spark的版本1.6.0，Scala的版本2.12，jdk版本1.8。最近使用spark，在這裡記錄下。

一個master和三個worker，同時Hadoop-2.7.7叢集，namdenode在master上，倆個datanode在worker1和worker2上。

List-1

192.168.33.30  worker1  master
192.168.33.31  worker2
192.168.33.32  worker3

修改master機器的hostname為master，修改worker2機器的hostname為node1，修改worker2機器的hostname為node2。

將spark放置於/opt下，如下List-2所示，三臺機器上的都一樣：

List-2

[root@master opt]# ll
total 20
drwxr-xr-x  2 root root   22 4月  13 13:51 applog
drwxr-xr-x 11 root root 4096 4月  11 16:31 hadoop-2.7.7
drwxr-xr-x  8 root root 4096 4月  11 14:52 jdk1.8
drwxr-xr-x  6 root root   46 4月  13 13:35 scala2.12
drwxr-xr-x 14 root root 4096 4月  13 13:27 spark-1.6.0-bin-hadoop2.6

master到倆個node的ssh面密就可以了，即在master上ssh node1/node2都可以面密碼。

/etc/profile如下List-3，在master這樣就可以了。

List-3

#spark
export SPARK_HOME=/opt/spark-1.6.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

最重要的是spark的conf下的配置檔案，在master上，如下描述：

1、spark-env.sh

cp spark-env.sh.template spark-env.sh，之後修改spark-env.sh的內容，如下，之後用這個檔案替換node1和node2的spark-env.sh。

List-4

export JAVA_HOME=/opt/jdk1.8
export HADOOP_HOME=/opt/hadoop-2.7.7
export SCALA_HOME=/opt/scala2.12
export HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKDER_CORES=4
export SPARK_WORKER_MEMORY=1024m
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.7.7/bin/hadoop classpath);

2、spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf，之後修改spark-defaults.conf，如下List-5。此外要手動在hdfs中建/opt/applogs/spark-eventlog目錄，用於儲存spark的event日誌。之後用這個檔案替換node1和node2的spark-defaults.conf。

List-5

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/opt/applogs/spark-eventlog

3、log4j.properties

cp log4j.properties.template log4j.properties，修改log4j.properties，內容如下List-6。最後用這個檔案替換node1和node2的此檔案。

log4j.rootCategory的值最後加上", FILE"。
加入List-7中的內容，最終結果是List-6所示。

List-6

log4j.rootCategory=INFO, console,FILE
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark-project.jetty=WARN
log4j.logger.org.spark-project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender
log4j.appender.FILE.Threshold=INFO
log4j.appender.FILE.file=/opt/applog/spark.log
log4j.appender.logFile.Encoding = UTF-8
log4j.appender.FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-dd HH:mm:ss}] [%C{1}:%M:%L] %m%n

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

List-7 通過實際實踐發現/opt/applog/spark.log這個目錄最終在宿主機上，而非在hdfs上

log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender
log4j.appender.FILE.Threshold=INFO
log4j.appender.FILE.file=/opt/applog/spark.log
log4j.appender.logFile.Encoding = UTF-8
log4j.appender.FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-dd HH:mm:ss}] [%C{1}:%M:%L] %m%n

4、slaves

cp slaves.template slaves，修改slaves檔案，如下List-8。最後用這個檔案替換node1和node2上的此檔案。

List-8 這個檔案裡面的host上，都會啟動spark worker

master
node1
node2

在master上執行List-9中的start-all.sh，之後在master上用jps命令檢視會看到有個master和worker，在node1/node2上用jps命令可以看到worker。

List-9

[root@node1 spark-1.6.0-bin-hadoop2.6]# pwd
/opt/spark-1.6.0-bin-hadoop2.6
[root@node1 spark-1.6.0-bin-hadoop2.6]# sbin/start-all.sh

在瀏覽器中輸入http://192.168.33.30:8080/，看到如下

圖1

Reference:

https://www.jianshu.com/p

Spark叢集安裝搭建

1.下載Spark Spark是一個獨立的記憶體計算框架，如果不考慮儲存的話，可以完全獨立執行，因此這裡就只安裝Spark叢集 Spark下載地址： http://spark.apache.org/downloads.html 選

【Spark】Ubuntu16.04 spark 叢集安裝（standalone模式）

一、前言目前 Apache Spark 支援三種分散式部署方式，分別是： standalone spark on mesos spark on YARN 其中，第一種類似於MapReduce 1.0所採用的模式，內部實現了容錯性和資源管理，後兩種則是未來發

hadoop3節點叢集安裝，spark叢集安裝

一：修改機器名 1. 修改3臺機器的機器名，注意名字不要帶下劃線修改機器名命令： hostnamectl set-hostname xxxx 然後退出shell重新登陸修改3臺機器的hosts檔案 vim /etc/hosts 新增以下內容 192.107.53.157 had

Spark叢集安裝和WordCount編寫

一、Spark概述官網：http://spark.apache.org/ Apache Spark™是用於大規模資料處理的統一分析引擎。為大資料處理而設計的快速通用的計算引擎。 Spark加州大學伯克利分校AMP實驗室。不同於mapreduce的是一個Sp

Spark叢集安裝及Streaming除錯

安裝前置條件 1. 系統需要安裝the Oracle Java Development Kit(not OpenJDK),安裝jdk1.7以上，下載目錄：http://www.oracle.com/technetwork/java/javase/downlo

Hadoop+Spark叢集安裝步驟詳解

一、環境：作業系統版本：SUSE Linux Enterprise Server 11 (x86_64) SP3主機名：192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13

spark叢集安裝與配置

Spark有三種執行模式，分別為： local模式-只執行在本地，相當於偽分散式 standalone模式-這種模式只需要安裝Spark即可，使用自帶的資源管理器 Spark on yarn/mesos模式-這種模式Spark將使用yarn/mesos作為資源管理器一般來

Spark叢集安裝和使用

本文主要記錄 CDH5 叢集中 Spark 叢集模式的安裝過程配置過程並測試 Spark 的一些基本使用方法。安裝環境如下：作業系統：CentOs 6.5Hadoop 版本：cdh-5.3.0Spark 版本：cdh5-1.2.0_5.3.0關於 yum 源的配置以及 Hadoop 叢集的安裝，請參考

Spark叢集安裝

Spark的版本1.6.0，Scala的版本2.12，jdk版本1.8。最近使用spark，在這裡記錄

Spark叢集安裝方式2

環境: jdk1.8、hadoop-2.7、spark-1.6、三臺centos7(如下List-1所

Linux下安裝spark叢集

1、安裝scala 2、安裝Spark 3、配置Spark 修改配置檔案spark-env.sh，在解壓spark下的conf檔案中將模板檔案複製出來 cp spark-env.sh.template spark-env.sh cp slave.template sl

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

大資料篇：叢集 Spark的安裝

叢集安裝Spark 這裡採用3臺機器（節點）作為例項來演示如何搭建Spark叢集，其中1臺機器（節點）作為Master節點，另外兩臺機器（節點）作為Slave節點（即作為Worker節點），主機名分別為Slave1和Slave2。在Master節點機器上，訪問Spark官方下載地址

Spark高可用叢集安裝

在之前的文章Spark叢集安裝中，已經詳細的介紹了Spark分散式叢集的安裝方法 Spark叢集啟動後執行jps命令，主節點上有Master程序，其他子節點上有Work進行，但是有一個很大的問題，那就是Master節點存在單點故障，要解決此問題，就要藉助zookeeper，並且啟動至少兩個Mas

Spark的低成本安裝（win） and 三節點叢集安裝（linux）

我這裡給出兩種安裝spark的方式，一種是在win上安裝另一種就是在linux叢集上安裝，前一種安裝方式是一種低成本的安裝沒有shell介面，非常適合入過門的小白練習自己對spark的業務處理能力，而且這種安裝方式能對電腦省去一大筆的cpu所以個人比較喜歡，第二種安裝方式就是和之前安裝hadoo

spark-2.2.0 叢集安裝部署以及hadoop叢集部署

Spark在生產環境中，主要部署在安裝Linux系統的叢集中。在linux系統中安裝Spark需要預先安裝JDK、Scala等所需要的依賴。由於Spark是計算框架，所以需要預先在叢集內有搭建好儲存資料的持久化層，如HDFS、Hive、Cassandra等，最後可以通過啟動指令碼執行應用。

Spark學習筆記（1）—— Spark 介紹，叢集安裝

1 Spark 介紹 Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個

Spark-2.3叢集安裝

1、下載 2、解壓安裝上傳至master伺服器解壓至/opt/目錄 $ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/ $ mv spark-2.3.0-bin-hadoop2.7 spark-2.3.0 3、

安裝Spark叢集(簡述)

前提: 已經安裝好hadoop叢集和zookeeper,功能正常 1.上傳安裝包(所有節點)(略) 2.解壓(略) 3.修改配置檔案 cd /apps/spark-2.2.0-bin-hadoop2.7/conf/ 1. vi spark-env.sh

Docker下安裝Hadoop和Spark叢集

Docker下Spark分散式叢集搭建本教程使用docker模擬3臺主機搭建分散式Spark叢集，屬於偽分散式： 1、Docker安裝 2、下載已經配置好的Spark叢集映象檔案 3、新建3個容器，分別命名為cloud8，cloud9，cloud10 4

Spark叢集安裝

Reference:

相關推薦