Spark on Yarn with Hive實戰案例與常見問題解決

阿新 • • 發佈：2018-10-09

ast spa dfs img 運維 base kcon 運維人員來看

[TOC]

1 場景

在實際過程中，遇到這樣的場景：

日誌數據打到HDFS中，運維人員將HDFS的數據做ETL之後加載到hive中，之後需要使用Spark來對日誌做分析處理，Spark的部署方式是Spark on Yarn的方式。

從場景來看，需要在我們的Spark程序中通過HiveContext來加載hive中的數據。

如果希望自己做測試，環境的配置可以參考我之前的文章，主要有下面的需要配置：

1.Hadoop環境
- Hadoop環境的配置可以參考之前寫的文章；
2.Spark環境
- Spark環境只需要在提交job的節點上進行配置即可，因為使用的是Spark on Yarn的方式；
3.Hive環境
- 需要配置好Hive環境，因為在提交Spark任務時，需要連同hive-site.xml文件一起提交，因為只有這樣才能夠識別已有的hive環境的元數據信息；
- 所以其實中Spark on Yarn的部署模式中，需要的只是hive的配置文件，以讓HiveContext能夠讀取存儲在mysql中的元數據信息以及存儲在HDFS上的hive表數據；
- hive環境的配置可以參考之前的文章；

其實之前已經有寫過Spark Standalone with Hive的文章，可以參考：《Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數》。

2 編寫程序與打包

作為一個測試案例，這裏的測試代碼比較簡單，如下：

package cn.xpleaf.spark.scala.sql.p2

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author xpleaf
  */
object _01HiveContextOps {

    def main(args: Array[String]): Unit = {
        Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
        val conf = new SparkConf()
//            .setMaster("local[2]")
            .setAppName(s"${_01HiveContextOps.getClass.getSimpleName}")

        val sc = new SparkContext(conf)
        val hiveContext = new HiveContext(sc)

        hiveContext.sql("show databases").show()

        hiveContext.sql("use mydb1")
        // 創建teacher_info表
        val sql1 = "create table teacher_info(\n" + "name string,\n" + "height double)\n" + "row format delimited\n" + "fields terminated by ‘,‘"
        hiveContext.sql(sql1)

        // 創建teacher_basic表
        val sql2 = "create table teacher_basic(\n" + "name string,\n" + "age int,\n" + "married boolean,\n" + "children int)\n" + "row format delimited\n" + "fields terminated by ‘,‘"
        hiveContext.sql(sql2)

        // 向表中加載數據
        hiveContext.sql("load data inpath ‘hdfs://ns1/data/hive/teacher_info.txt‘ into table teacher_info")
        hiveContext.sql("load data inpath ‘hdfs://ns1/data/hive/teacher_basic.txt‘ into table teacher_basic")

        // 第二步操作：計算兩張表的關聯數據
        val sql3 = "select\n" + "b.name,\n" + "b.age,\n" + "if(b.married,‘已婚‘,‘未婚‘) as married,\n" + "b.children,\n" + "i.height\n" + "from teacher_info i\n" + "inner join teacher_basic b on i.name=b.name"
        val joinDF:DataFrame = hiveContext.sql(sql3)

        val joinRDD = joinDF.rdd
        joinRDD.collect().foreach(println)

        joinDF.write.saveAsTable("teacher")

        sc.stop()
    }

}

可以看到其實只是簡單的在hive中建表、加載數據、關聯數據與保存數據到hive表中。

編寫完成之後打包就可以了，註意不需要將依賴一起打包。之後就可以把jar包上傳到我們的環境中了。

3 部署

編寫submit腳本，如下：

[hadoop@hadoop01 jars]$ cat spark-submit-yarn.sh 
/home/hadoop/app/spark/bin/spark-submit --class $2 --master yarn --deploy-mode cluster --executor-memory 1G --num-executors 1 --files $SPARK_HOME/conf/hive-site.xml --jars $SPARK_HOME/lib/mysql-connector-java-5.1.39.jar,$SPARK_HOME/lib/datanucleus-api-jdo-3.2.6.jar,$SPARK_HOME/lib/datanucleus-core-3.2.10.jar,$SPARK_HOME/lib/datanucleus-rdbms-3.2.9.jar $1 \

註意其中非常關鍵的--files和--jars，說明如下：

--files $HIVE_HOME/conf/hive-site.xml    //將Hive的配置文件添加到Driver和Executor的classpath中
--jars $HIVE_HOME/lib/mysql-connector-java-5.1.39.jar,….    //將Hive依賴的jar包添加到Driver和Executor的classpath中

之後就可以執行腳本，將任務提交到Yarn上：

[hadoop@hadoop01 jars]$ ./spark-submit-yarn.sh spark-process-1.0-SNAPSHOT.jar cn.xpleaf.spark.scala.sql.p2._01HiveContextOps

4 查看結果

需要說明的是，如果需要對執行過程進行監控，就需要進行配置historyServer（mr的jobHistoryServer和spark的historyServer），可以參考我之前寫的文章。

4.1 Yarn UI

技術分享圖片

4.2 Spark UI

技術分享圖片

4.3 Hive

可以啟動hive，然後查看我們的spark程序加載的數據：

hive (mydb1)> 
            > 
            > 
            > show tables;
OK
t1
t2
t3_arr
t4_map
t5_struct
t6_emp
t7_external
t8_partition
t8_partition_1
t8_partition_copy
t9
t9_bucket
teacher
teacher_basic
teacher_info
test
tid
Time taken: 0.057 seconds, Fetched: 17 row(s)
hive (mydb1)> select *
            > from teacher_info;
OK
zhangsan        175.0
lisi    180.0
wangwu  175.0
zhaoliu 195.0
zhouqi  165.0
weiba   185.0
Time taken: 1.717 seconds, Fetched: 6 row(s)
hive (mydb1)> select *
            > from teacher_basic;
OK
zhangsan        23      false   0
lisi    24      false   0
wangwu  25      false   0
zhaoliu 26      true    1
zhouqi  27      true    2
weiba   28      true    3
Time taken: 0.115 seconds, Fetched: 6 row(s)
hive (mydb1)> select *
            > from teacher;
OK
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
zhangsan        23      未婚    0       175.0
lisi    24      未婚    0       180.0
wangwu  25      未婚    0       175.0
zhaoliu 26      已婚    1       195.0
zhouqi  27      已婚    2       165.0
weiba   28      已婚    3       185.0
Time taken: 0.134 seconds, Fetched: 6 row(s)

5 問題與解決

1.User class threw exception: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

註意我們的Spark部署模式是Yarn，yarn上面是沒有相關spark和hive的相關依賴的，所以在提交任務時，必須要指定要上傳的jar包依賴：

--jars $SPARK_HOME/lib/mysql-connector-java-5.1.39.jar,$SPARK_HOME/lib/datanucleus-api-jdo-3.2.6.jar,$SPARK_HOME/lib/datanucleus-core-3.2.10.jar,$SPARK_HOME/lib/datanucleus-rdbms-3.2.9.jar \

其實在提交任務時，註意觀察控制臺的輸出：

18/10/09 10:57:44 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/lib/spark-assembly-1.6.2-hadoop2.6.0.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/spark-assembly-1.6.2-hadoop2.6.0.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/jars/spark-process-1.0-SNAPSHOT.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/spark-process-1.0-SNAPSHOT.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/lib/mysql-connector-java-5.1.39.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/mysql-connector-java-5.1.39.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/lib/datanucleus-api-jdo-3.2.6.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/datanucleus-api-jdo-3.2.6.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/lib/datanucleus-core-3.2.10.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/datanucleus-core-3.2.10.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/lib/datanucleus-rdbms-3.2.9.jar -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/datanucleus-rdbms-3.2.9.jar
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/home/hadoop/app/spark/conf/hive-site.xml -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/hive-site.xml
18/10/09 10:57:47 INFO yarn.Client: Uploading resource file:/tmp/spark-6f582e5c-3eef-4646-b8c7-0719877434d8/__spark_conf__103916311924336720.zip -> hdfs://ns1/user/hadoop/.sparkStaging/application_1538989570769_0023/__spark_conf__103916311924336720.zip

也可以看到，其會將相關spark相關的jar包上傳到yarn的環境也就是hdfs上，之後再執行相關的任務。

2.User class threw exception: org.apache.spark.sql.execution.QueryExecutionException: FAILED: SemanticException [Error 10072]: Database does not exist: mydb1

mydb1不存在，說明沒有讀取到我們已有的hive環境的元數據信息，那是因為在提交任務時沒有指定把hive-site.xml配置文件一並提交，如下：

--files $SPARK_HOME/conf/hive-site.xml \

Spark on Yarn with Hive實戰案例與常見問題解決

ast spa dfs img 運維 base kcon 運維人員來看 [TOC] 1 場景在實際過程中，遇到這樣的場景：日誌數據打到HDFS中，運維人員將HDFS的數據做ETL之後加載到hive中，之後需要使用Spark來對日誌做分析處理，Spark的部署方式是

Spark on Yarn遇到的幾個問題及解決思路

1 概述 Spark on Yarn模式，其資源分配是交給Yarn的ResourceManager來進行管理的，但是目前的Spark版本，Application日誌的檢視，只能通過Yarn的yarn logs命令實現。在部署和執行Spark Applica

spark2.1.0 on yarn with CDH5.8.0 安裝實戰

Spark 版本釋出很快，CDH整合最新Spark版本需要一定時間，並且CDH 整合的Spark版本不支援Spark-sql。本文件的目的在目前cdh平臺整合最新spark，方便測試和使用最新功能。 spark-env.sh #HADOOP_CONF_DIR ha

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

關鍵字: orc、index、row group index、bloom filter index之前的文章《更高的壓縮比，更好的效能–使用ORC檔案格式優化Hive》中介紹了Hive的ORC檔案格式，它不但有著很高的壓縮比，節省儲存和計算資源之外，還通過一個內建的輕量級索引

Spark on YARN簡介與執行wordcount（master、slave1和slave2）（博主推薦）

前期部落格 Spark On YARN模式　　這是一種很有前景的部署模式。但限於YARN自身的發展，目前僅支援粗粒度模式（Coarse-grained Mode）。這是由於YARN上的Container資源是不可以動態伸縮的，一旦Container啟動之後，可使用

Spark Standalone與Spark on YARN的幾種提交方式

　　不多說，直接上乾貨！ Spark Standalone的幾種提交方式別忘了先啟動spark叢集！！！ spark-shell用於除錯，spark-submit用於生產。 1.spark-shell client [[email protected] spark-1

Mark ：Hive使用Spark on Yarn作為執行引擎

原文：http://lxw1234.com/archives/2016/05/673.htmHive從1.1之後，支援使用Spark作為執行引擎，配置使用Spark On Yarn作為Hive的執行引擎，首先需要注意以下兩個問題：Hive的版本和Spark的版本要匹配；具體來

自己的HADOOP平臺（三）：Mysql+hive遠端模式+Spark on Yarn

Spark和hive配置較為簡單，為了方便Spark對資料的使用與測試，因此在搭建Spark on Yarn模式的同時，也把Mysql + Hive一起搭建完成，並且配置Hive對Spark的支援，讓Spark也能像Hive一樣操作資料。前期準備

Spark on Yarn遇到的幾個問題

添加 shuffle tasks pil 生產當前 lis file 被拒 1 概述 Spark的on Yarn模式。其資源分配是交給Yarn的ResourceManager來進行管理的。可是眼下的Spark版本號，Application日誌的查看，僅僅

Spark on yarn的兩種模式 yarn-cluster 和 yarn-client

然而技術負責 blog 作業 mage 申請 .com contain 從深層次的含義講，yarn-cluster和yarn-client模式的區別其實就是Application Master進程的區別，yarn-cluster模式下，driver運行在AM(Appli

spark on yarn詳解

.sh 提交 cut com blog sta clu ... client模式 1、參考文檔： spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.html spark-1.6.0：http://s

Spark記錄-Spark on Yarn框架

ive 變量進程 app shuf backend 性能操作 spi 一、客戶端進行操作 1、根據yarnConf來初始化yarnClient，並啟動yarnClient2、創建客戶端Application，並獲取Application的ID，進一步判斷集群中的資源是

基礎概念之 Spark on Yarn

資源兩個 htm 底層兩種 nta 一起 () 所在先拋出問題：Spark on Yarn有cluster和client兩種模式，它們有什麽區別？用Jupyter寫Spark時，只能使用client模式，為什麽？寫一篇文章，搞清楚 Spark on Yarn 的運

Spark-on-YARN

stdout 資源 val running apach add cin 一般來說 mysq 1.官方文檔 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安裝 1.安裝hadoop：需要安

Spark on Yarn作業運行架構原理解析

狀態區別通訊含義啟動應用 follow 關於 containe yar [TOC] 0 前言可以先參考之前寫的《Yarn流程、Yarn與MapReduce 1相比》，之後再參考《Spark作業運行架構原理解析》，然後再閱讀下面的內容，就很容易理解了。下面內容參

spark on yarn模式下內存資源管理（筆記2）

warn 計算 nta 堆內存註意 layout led -o exc 1.spark 2.2內存占用計算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn內存分配*

spark on yarn任務提交緩慢解決

1.為什麼要讓執行時Jar可以從yarn端訪問spark2以後，原有lib目錄下的大JAR包被分散成多個小JAR包，原來的spark-assembly-*.jar已經不存在每一次我們執行的時候，如果沒有指定 spark.yarn.archive or spark.yarn.jars Spark將在安裝路徑

kerberos體系下的應用(yarn,spark on yarn)

kerberos 介紹閱讀本文之前建議先預讀下面這篇部落格kerberos認證原理---講的非常細緻，易懂 Kerberos實際上一個基於Ticket的認證方式。Client想要獲取Server端的資源，先得通過Server的認證；而認證的先決條件是Client向Server

Spark專案學習-慕課網日誌分析-days5-Spark on Yarn

1. 概述（1）在Spark中，支援4種執行模式： 1）local:開發時使用 2）standalone：是Spark自帶的，如果一個叢集是Standalone的話，那就需要在多臺機器上同時部署Spa

Spark08——Spark on yarn

配置安裝需要提前配置好hadoop叢集，以及Spark。之前均已安裝。之後啟動HDFS及yarn叢集。配置指向HADOOP_CONF_DIR或YARN_CONF_DIR的指向Hadoop叢集的（客戶端）配置檔案的目錄。執行模式 Spark on yarn

Spark on Yarn with Hive實戰案例與常見問題解決

1 場景

2 編寫程序與打包

3 部署

4 查看結果

4.1 Yarn UI

4.2 Spark UI

4.3 Hive

5 問題與解決

相關推薦