執行spark sql 遇到的問題

阿新 • • 發佈：2019-02-05

執行環境：

用圖形更直觀點。

在 spark cluster 和 yarn cluster 兩種方式執行spark sql，操作hive中的資料，另外，hive 是獨立的，可以直接執行hive處理資料。

spark sql的程式比較好寫，直接看spark的example的例子HiveFromSpark ，很容易理解

首先，在spark cluster上執行：

將hive的 hive-site.xml 配置檔案放到 ${SPARK_HOME}/conf 目錄下

#!/bin/bash

cd $SPARK_HOME
./bin/spark-submit \
  --class com.datateam.spark.sql.HotelHive \
  --master spark://192.168.44.80:8070 \
  --executor-memory 2G \
  --total-executor-cores 10 \
  /home/q/spark/spark-1.1.1-SNAPSHOT-bin-2.2.0/jobs/spark-jobs-20141023.jar \

執行指令碼，遇到下面的錯誤：

Exception in thread "main" org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table dw_hotel_price_log
        at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:958)
        at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:924)
……
Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONECP" plugin to create a ConnectionPool gave an error : 
The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. 
Please check your CLASSPATH specification, and the name of the driver.
        at org.datanucleus.store.rdbms.ConnectionFactoryImpl.generateDataSources(ConnectionFactoryImpl.java:237)
        at org.datanucleus.store.rdbms.ConnectionFactoryImpl.initialiseDataSources(ConnectionFactoryImpl.java:110)
        at org.datanucleus.store.rdbms.ConnectionFactoryImpl.<init>(ConnectionFactoryImpl.java:82)
        ... 127 more
Caused by: org.datanucleus.store.rdbms.datasource.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not
 found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.
        at org.datanucleus.store.rdbms.datasource.AbstractDataSourceFactory.loadDriver(AbstractDataSourceFactory.java:58)
        at org.datanucleus.store.rdbms.datasource.BoneCPDataSourceFactory.makePooledDataSource(BoneCPDataSourceFactory.java:61)
        at org.datanucleus.store.rdbms.ConnectionFactoryImpl.generateDataSources(ConnectionFactoryImpl.java:217)

意思是找不到 jdbc 的 connector，解決辦法：

在提交任務的腳本里加入下面的配置語句即可：

    --driver-class-path /home/q/spark/spark-1.1.1-SNAPSHOT-bin-2.2.0/lib/mysql-connector-java-5.1.22-bin.jar \

spark cluster 遇到的問題不多，主要在yarn cluster上遇到幾個問題。

在spark cluster上呼叫hive的資料，需要將 hive-site.xml 檔案放到spark的conf 目錄下，那在yarn上執行該將hive的配置檔案放到哪裡才能被 spark sql 識別呢？

在提交任務的時候加上：

--files /home/q/spark/spark-1.1.1-SNAPSHOT-bin-2.2.0/conf/hive-site.xml \

這裡用到的是 --files ，而不是 --conf

先看一下提交任務的指令碼：

cd $SPARK_HOME
./bin/spark-submit --class com.qunar.datateam.spark.sql.HotelHive \
  --master yarn-cluster \
  --num-executors 10 \
  --driver-memory 4g \
  --executor-memory 2g \
  --executor-cores 2 \
  --files /home/q/spark/spark-1.1.1-SNAPSHOT-bin-2.2.0/conf/hive-site.xml \
  /home/q/spark/spark-1.1.1-SNAPSHOT-bin-2.2.0/jobs/spark-jobs-20141023.jar \

ok，我們這裡同樣需要將mysql connector的jar包新增進去，如何進行？

--jars mysql-connectorpath

但是會出現下面的問題：

Exception in thread "Driver" java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:162)
……

 Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table tablename
        at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:958)
        at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:924)
Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
        at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1212)
        at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<init>(RetryingMetaStoreClient.java:62)
        at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:72)
        at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:2372)
        at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:2383)
        at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:950)
        ... 68 more
Caused by: java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1210)
        ... 73 more
Caused by: javax.jdo.JDOFatalUserException: Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found.
NestedThrowables:
java.lang.ClassNotFoundException: org.datanucleus.api.jdo.JDOPersistenceManagerFactory
……
Caused by: java.lang.ClassNotFoundException: org.datanucleus.api.jdo.JDOPersistenceManagerFactory
        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:270)
        at javax.jdo.JDOHelper$18.run(JDOHelper.java:2018)
        at javax.jdo.JDOHelper$18.run(JDOHelper.java:2016)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.jdo.JDOHelper.forName(JDOHelper.java:2015)
        at javax.jdo.JDOHelper.invokeGetPersistenceManagerFactoryOnImplementation(JDOHelper.java:1162)
        ... 97 more

於是將

datanucleus-api-jdo-3.2.1.jar, datanucleus-core-3.2.2.jar, datanucleus-rdbms-3.2.1.jar

都加到 --jars 裡，但是還是出問題：

Exception in thread "Driver" java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:162)
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 6 in stage 2.0 failed 4 times, most recent failure: 
Lost task 6.3 in stage 2.0 (TID 34, l-hbase72.data.cn8
): java.io.FileNotFoundException: ./datanucleus-core-3.2.2.jar (Permission denied)
        java.io.FileOutputStream.open(Native Method)
        java.io.FileOutputStream.<init>(FileOutputStream.java:221)
        com.google.common.io.Files$FileByteSink.openStream(Files.java:223)
        com.google.common.io.Files$FileByteSink.openStream(Files.java:211)
        com.google.common.io.ByteSource.copyTo(ByteSource.java:203)
        com.google.common.io.Files.copy(Files.java:436)

經過不斷嘗試，將 --jars 後面的配置的jar包都用 --archives 的方式打到執行jar中:

--archives mysql-connector.jar,datanucleus-api-jdo-3.2.1.jar, datanucleus-core-3.2.2.jar, datanucleus-rdbms-3.2.1.jar

另外還要注意一點：

spark sql 中不認“；”，所以只能在sql中指明database，不能用 use database ；這樣的hive sql 語句指定database

執行Spark SQL報The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.

想啟動spark-sql，結果報了 Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundExcept

程式設計的兩種方式執行Spark SQL查詢（方式一）

現在我們來實現在自定義程式中編寫Spark SQL查詢程式。實現查詢的方式有兩種：方式一：通過反射推斷schema。方式二：通過structtype直接指定schema。我們先用方式一來實現自定義查詢。首先建立一個team.txt檔案，內容有5列，分別是id，球隊

程式設計的兩種方式執行Spark SQL查詢（方式二）

現在我們來實現在自定義程式中編寫Spark SQL查詢程式。實現查詢的方式有兩種：方式一：通過反射推斷schema。方式二：通過structtype直接指定schema。這次我們用方式二來實現自定義查詢。具體程式如下： package cn.allengao.s

CDH5.5.0中配置執行Spark SQL的Thrift Server

CDH5.5.0裡面閹割了spark-sql和sparkR，目錄裡面都沒有start-thriftserver.sh，哪怕是spark Standalone部署。前面帖子講到，CDH5.5.0 spark-sql沒有的情況下，在一個節點部署外面社群版的spark1.5.

執行spark sql 遇到的問題

執行環境：用圖形更直觀點。在 spark cluster 和 yarn cluster 兩種方式執行spark sql，操作hive中的資料，另外，hive 是獨立的，可以直接執行hive處理資料。 spark sql的程式比較好寫，直接看spark的example

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark SQL在100TB上的自適應執行實踐（轉載）

測試好的 output 一個 weight 結構化數據 mage 多次 cor Spark SQL是Apache Spark最廣泛使用的一個組件，它提供了非常友好的接口來分布式處理結構化數據，在很多應用領域都有成功的生產實踐，但是在超大規模集群和數據集上，Spark SQ

shell中spark-sql語句除錯、執行方式

1.命令方式執行sparksql查詢 SQL="use mydatatable;;select count(1) from tab_videousr_onlne where p_regiion=101 and p_date='2017-04-05' and p_hour=21;" /home

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合呼叫hive

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Spark修煉之道（進階篇）——Spark入門到精通：第九節 Spark SQL執行流程解析

1.整體執行流程使用下列程式碼對SparkSQL流程進行分析，讓大家明白LogicalPlan的幾種狀態，理解SparkSQL整體執行流程 // sc is an existing SparkContext. val sqlContext = new or

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

Spark SQL CLI 執行

1：執行 ./bin/spark-sql需要先把hive-site.xml 負責到spark的conf目錄下 [[email protected] spark-1.2.0-bin-2.4.1]$ ./bin/spark-sql Spark asse

spark SQL 執行過程

1、程式碼實現 import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} //case class一定要放到外面 case class Person(i

SparkSQL（5）——Spark SQL程式設計方式執行查詢

編寫Spark SQL程式實現RDD轉換成DataFrame Spark官網提供了兩種方法來實現從RDD轉換得到DataFrame，第一種方法是利用反射機制，推導包含某種型別的RDD，通過反射將其轉換為指定型別的DataFrame，適用於提前知道RDD的sche

spark-sql 集合hive查詢資料執行日誌

[[email protected] spark]# spark-sql --master spark://hadoop1:7077,hadoop2:7077 --executor-memory 1g --total-executor-cores 2 --driv

spark sql 執行計劃生成案例

前言一個SQL從詞法解析、語法解析、邏輯執行計劃、物理執行計劃最終轉換為可以執行的RDD，中間經歷了很多的步驟和流程。其中詞法分析和語法分析均有ANTLR4完成，可以進一步學習ANTLR4的相關知識做進一步瞭解。本篇文章主要對一個簡單的SQL生成的邏

Spark SQL原始碼解析（五）SparkPlan準備和執行階段

Spark SQL原理解析前言： [Spark SQL原始碼剖析（一）SQL解析框架Catalyst流程概述](https://www.cnblogs.com/listenfwind/p/12724381.html) [Spark SQL原始碼解析（二）Antlr4解析Sql並生成樹](https://w

Spark-Sql之DataFrame實戰詳解

集合 case 編程方式優化所表 register 操作數 print ava 1、DataFrame簡介：在Spark中，DataFrame是一種以RDD為基礎的分布式數據據集，類似於傳統數據庫聽二維表格，DataFrame帶有Schema元信息，即DataFram

Spark SQL編程指南（Python）【轉】

res 平臺 per 它的 split 執行文件的分組不同轉自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關系型查詢。它的核

執行spark sql 遇到的問題

相關推薦