Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

阿新 • • 發佈：2018-04-24

大數據 Spark

[TOC]

spark單機安裝部署

1.安裝scala
解壓：tar -zxvf soft/scala-2.10.5.tgz -C app/
重命名：mv scala-2.10.5/ scala
配置到環境變量：
export SCALA_HOME=/home/uplooking/app/scala
export PATH=$PATH:$SCALA_HOME/bin
# 雖然spark本身自帶scala，但還是建議安裝

2.安裝單機版spark
解壓：tar -zxvf soft/spark-1.6.2-bin-hadoop2.6.tgz -C app/
重命名：mv spark-1.6.2-bin-hadoop2.6/ spark
配置到環境變量：
export SPARK_HOME=/home/uplooking/app/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
測試：
運行一個簡單的spark程序
spark-shell
sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)

完全分布式安裝

修改spark-env.sh
    1、cd /home/uplooking/app/spark/conf
    2、cp spark-env.sh.template spark-env.sh
    3、vi spark-env.sh
    export JAVA_HOME=/opt/jdk
    export SCALA_HOME=/home/uplooking/app/scala
    export SPARK_MASTER_IP=uplooking01
    export SPARK_MASTER_PORT=7077
    export SPARK_WORKER_CORES=1
    export SPARK_WORKER_INSTANCES=1
    export SPARK_WORKER_MEMORY=1g
    export HADOOP_CONF_DIR=/home/uplooking/app/hadoop/etc/hadoop
修改slaves配置文件
    添加兩行記錄
    uplooking02
    uplooking03
部署到uplooking02和uplooking03這兩臺機器上(這兩臺機器需要提前安裝scala)
    scp -r /home/uplooking/app/scala uplooking@uplooking02:/home/uplooking/app
    scp -r /home/uplooking/app/scala uplooking@uplooking03:/home/uplooking/app
    ----
    scp -r /home/uplooking/app/spark uplooking@uplooking02:/home/uplooking/app
    scp -r /home/uplooking/app/spark uplooking@uplooking03:/home/uplooking/app
    ---在uplooking02和uplooking03上加載好環境變量,需要source生效
    scp /home/uplooking/.bash_profile uplooking@uplooking02:/home/uplooking
    scp /home/uplooking/.bash_profile uplooking@uplooking03:/home/uplooking
啟動
    修改事宜
        為了避免和hadoop中的start/stop-all.sh腳本發生沖突，將spark/sbin/start/stop-all.sh重命名
        mv start-all.sh start-spark-all.sh
        mv stop-all.sh stop-spark-all.sh
    啟動
        sbin/start-spark-all.sh
        會在我們配置的主節點uplooking01上啟動一個進程Master
        會在我們配置的從節點uplooking02上啟動一個進程Worker
        會在我們配置的從節點uplooking03上啟動一個進程Worker
    簡單的驗證
        啟動spark-shell
        bin/spark-shell
        scala> sc.textFile("hdfs://ns1/data/hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
        我們發現spark非常快速的執行了這個程序，計算出我們想要的結果

    一個端口:8080/4040
        8080-->spark集群的訪問端口，類似於hadoop中的50070和8088的綜合
        4040-->sparkUI的訪問地址
        7077-->hadoop中的9000端口

基於zookeeper的HA配置

最好在集群停止的時候來做
第一件事
    註釋掉spark-env.sh中兩行內容
        #export SPARK_MASTER_IP=uplooking01
        #export SPARK_MASTER_PORT=7077
第二件事
    在spark-env.sh中加一行內容
        export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=uplooking01:2181,uplooking02:2181,uplooking03:2181 -Dspark.deploy.zookeeper.dir=/spark"
    解釋
        spark.deploy.recoveryMode設置成 ZOOKEEPER
        spark.deploy.zookeeper.urlZooKeeper URL
        spark.deploy.zookeeper.dir ZooKeeper 保存恢復狀態的目錄，缺省為 /spark
重啟集群
    在任何一臺spark節點上啟動start-spark-all.sh
    手動在集群中其他從節點上再啟動master進程：sbin/start-master.sh -->在uplooking02
通過瀏覽器方法 uplooking01:8080 /uplooking02:8080-->Status: STANDBY Status: ALIVE
    驗證HA，只需要手動停掉master上spark進程Master，等一會slave01上的進程Master狀態會從STANDBY編程ALIVE

# 註意，如果在uplooking02上啟動，此時uplooking02也會是master，而uplooking01則都不是，
# 因為配置文件中並沒有指定master，只指定了slave
# spark-start-all.sh也包括了start-master.sh的操作，所以才會在該臺機器上也啟動master.

Spark源碼編譯

安裝好maven後，並且配置好本地的spark倉庫（不然編譯時依賴從網上下載會很慢），
然後就可以在spark源碼目錄執行下面的命令：
mvn -Pyarn -Dhadoop.version=2.6.4 -Dyarn.version=2.6.4 -DskipTests clean package

編譯成功後輸出如下：

......
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary:
[INFO] 
[INFO] Spark Project Parent POM ........................... SUCCESS [  3.617 s]
[INFO] Spark Project Test Tags ............................ SUCCESS [ 17.419 s]
[INFO] Spark Project Launcher ............................. SUCCESS [ 12.102 s]
[INFO] Spark Project Networking ........................... SUCCESS [ 11.878 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [  7.324 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [ 16.326 s]
[INFO] Spark Project Core ................................. SUCCESS [04:31 min]
[INFO] Spark Project Bagel ................................ SUCCESS [ 11.671 s]
[INFO] Spark Project GraphX ............................... SUCCESS [ 55.420 s]
[INFO] Spark Project Streaming ............................ SUCCESS [02:03 min]
[INFO] Spark Project Catalyst ............................. SUCCESS [02:40 min]
[INFO] Spark Project SQL .................................. SUCCESS [03:38 min]
[INFO] Spark Project ML Library ........................... SUCCESS [03:56 min]
[INFO] Spark Project Tools ................................ SUCCESS [ 15.726 s]
[INFO] Spark Project Hive ................................. SUCCESS [02:30 min]
[INFO] Spark Project Docker Integration Tests ............. SUCCESS [ 11.961 s]
[INFO] Spark Project REPL ................................. SUCCESS [ 42.913 s]
[INFO] Spark Project YARN Shuffle Service ................. SUCCESS [  8.391 s]
[INFO] Spark Project YARN ................................. SUCCESS [ 42.013 s]
[INFO] Spark Project Assembly ............................. SUCCESS [02:06 min]
[INFO] Spark Project External Twitter ..................... SUCCESS [ 19.155 s]
[INFO] Spark Project External Flume Sink .................. SUCCESS [ 22.164 s]
[INFO] Spark Project External Flume ....................... SUCCESS [ 26.228 s]
[INFO] Spark Project External Flume Assembly .............. SUCCESS [  3.838 s]
[INFO] Spark Project External MQTT ........................ SUCCESS [ 33.132 s]
[INFO] Spark Project External MQTT Assembly ............... SUCCESS [  7.937 s]
[INFO] Spark Project External ZeroMQ ...................... SUCCESS [ 17.900 s]
[INFO] Spark Project External Kafka ....................... SUCCESS [ 37.597 s]
[INFO] Spark Project Examples ............................. SUCCESS [02:39 min]
[INFO] Spark Project External Kafka Assembly .............. SUCCESS [ 10.556 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 31:22 min
[INFO] Finished at: 2018-04-24T18:33:58+08:00
[INFO] Final Memory: 89M/1440M
[INFO] ------------------------------------------------------------------------

然後就可以在下面的目錄中看到編譯成功的文件：

[uplooking@uplooking01 scala-2.10]$ pwd
/home/uplooking/compile/spark-1.6.2/assembly/target/scala-2.10
[uplooking@uplooking01 scala-2.10]$ ls -lh
總用量 135M
-rw-rw-r-- 1 uplooking uplooking 135M 4月  24 18:28 spark-assembly-1.6.2-hadoop2.6.4.jar

在已經安裝的spark的lib目錄下也可以看到該文件：

[uplooking@uplooking01 lib]$ ls -lh
總用量 291M
-rw-r--r-- 1 uplooking uplooking 332K 6月  22 2016 datanucleus-api-jdo-3.2.6.jar
-rw-r--r-- 1 uplooking uplooking 1.9M 6月  22 2016 datanucleus-core-3.2.10.jar
-rw-r--r-- 1 uplooking uplooking 1.8M 6月  22 2016 datanucleus-rdbms-3.2.9.jar
-rw-r--r-- 1 uplooking uplooking 6.6M 6月  22 2016 spark-1.6.2-yarn-shuffle.jar
-rw-r--r-- 1 uplooking uplooking 173M 6月  22 2016 spark-assembly-1.6.2-hadoop2.6.0.jar
-rw-r--r-- 1 uplooking uplooking 108M 6月  22 2016 spark-examples-1.6.2-hadoop2.6.0.jar

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

大數據 Spark [TOC] spark單機安裝部署 1.安裝scala 解壓：tar -zxvf soft/scala-2.10.5.tgz -C app/ 重命名：mv scala-2.10.5/ scala 配置到環境變量： export SCALA_HOME=/home/uplooking

Flink（二）CentOS7.5搭建Flink1.6.1分布式集群

驗證 sin yarn paths sla dash eight specified oca 一. Flink的下載安裝包下載地址：http://flink.apache.org/downloads.html ，選擇對應Hadoop的Flink版本下載 [a

Spark筆記整理（三）：Spark WC開發與應用部署

大數據 Spark [TOC] Spark WordCount開發創建的是maven工程，使用的依賴如下： <dependency> <groupId>org.scala-lang</groupId> <artifactId>scal

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器

大數據 Spark [TOC] Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一個功能特性就是可以將RDD持久化在內存中。當對RDD執行持久化操作時，每個節點都會將自己操作的RDD的partition持久化到內存中，並且在之後對該RDD的反復使用中，直接使用內存緩存的parti

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

才會不執行分享綠色做的 specified ffffff cto 最好 [TOC] 1 前言其實在之前的文章《Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器》中也有類似的測試，不過當時做的測試僅僅是在本地跑代碼，並以Java/Scala代碼

Redis筆記整理（一）：Redis安裝配置與數據類型操作

數據庫 NoSQL Redis [TOC] Redis筆記整理（一）：Redis安裝配置與數據類型操作 Redis簡介 Redis是一個開源（BSD許可），內存存儲的數據結構服務器，可用作數據庫，高速緩存和消息隊列代理。它支持字符串、哈希表、列表、集合、有序集合，位圖，hyperloglo

ElasticSearch筆記整理（一）：簡介、REST與安裝配置

大數據 ElasticSearch ELK [TOC] ElasticSearch簡介 ElasticSearch是一款基於Apache Lucene構建的開源搜索引擎，它采用Java編寫並使用Lucene構建索引、提供搜索功能，ElasticSearch的目標是讓全文搜索變得簡單，開發者可以通

Storm筆記整理（一）：簡介與設計思想

大數據實時計算 Storm [TOC] 實時計算概述有別於傳統的離線批處理操作(對很多數據的集合進行的操作)，實時處理，說白就是針對一條一條的數據/記錄進行操作，所有的這些操作進行一個匯總(截止到目前為止的所有的統計總和)。實時計算與離線計算比較 Bounded：有界離線計算面臨

Scala筆記整理（一）：scala基本知識

大數據 Scala [TOC] Scala簡介 Scala是一門多範式（multi-paradigm）的編程語言，設計初衷是要集成面向對象編程和函數式編程的各種特性。 Scala運行在Java虛擬機上，並兼容現有的Java程序。 Scala源代碼被編譯成Java字節碼，所以它可以運行於JVM之上，並

Spark Streaming筆記整理（三）：DS的transformation與output操作

job watermark number 這樣的格式 current fix work eat DStream的各種transformation Transformation Meaning map(func) 對DStream中的各個元素進行func函數操作，然後

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Hive筆記整理（一）

大數據 Hive [TOC] Hive筆記整理（一） Hive Hive由facebook貢獻給Apache，是一款建立在Hadoop之上的數據倉庫的基礎框架。數據倉庫特點——關於存放在數據倉庫中的數據的說明：是能夠為企業的各個級別的決策提供數據支撐的數據其實說白了，就是一個存放數據

HBase筆記整理（一）

大數據 HBase [TOC] HBase筆記整理（一）行列式數據庫行式數據庫：可以簡單的理解為類似傳統的rdbmspaint這些數據，存放的數據都是結構化的數據。行式數據庫，是有利於全表數據的掃描，不利於只查詢個別字段列式數據庫：對行式數據庫的一個改進，將部分列(或者說有關聯的一些列)

Kafka筆記整理（一）

大數據消息隊列消息訂閱系統 Kafka [TOC] Kafka筆記整理（一） Kafka簡介消息隊列（Message Queue）消息 Message 網絡中的兩臺計算機或者兩個通訊設備之間傳遞的數據。例如說：文本、音樂、視頻等內容。隊列 Queue 一種特殊的線性表（

Kafka筆記整理（二）：Kafka Java API使用

大數據 Kafka Java [TOC] Kafka筆記整理（二）：Kafka Java API使用下面的測試代碼使用的都是下面的topic： $ kafka-topics.sh --describe hadoop --zookeeper uplooking01:2181,uplooking0

Kafka筆記整理（三）：消費形式驗證與性能測試

大數據 Kafka 性能測試 [TOC] Kafka筆記整理（三）：消費形式驗證與性能測試 Kafka消費形式驗證前面的《Kafka筆記整理（一）》中有提到消費者的消費形式，說明如下： 1、每個consumer屬於一個consumer group，可以指定組id。group.id 2、消費形

Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建

數據庫 NoSQL Redis [TOC] Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建 Redis Java API使用（一）：單機版本Redis API使用 Redis的Java API通過Jedis來進行操作，因此首先需要Jedis的第三方庫，因為使用的是M

Redis筆記整理（三）：進階操作與高級部分

數據庫 NoSQL Redis [TOC] Redis筆記整理（三）：進階操作與高級部分 Redis發布訂閱 Redis發布訂閱（pub/sub）是一種消息通信模式：發送者(pub)發送消息，訂閱者(sub)接收消息。 Redis客戶端可以訂閱任意數量的頻道。下圖展示了頻道channel1，以

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

spark單機安裝部署

完全分布式安裝

基於zookeeper的HA配置

Spark源碼編譯

相關推薦