spark hive hbase 結合

阿新 • • 發佈：2019-01-02

spark hive hbase 結合

業務需求，需要整合需要讀取hive資料匯入hbase中，一下是環境配置流程以及中間遇到的問題

1.spark讀hive

需要copy hive-site和hdfs-site 等配置檔案到專案資源包下

object hivesql {

  case class Record(key: Int, value: String)

  def main(args: Array[String]): Unit = {

    // warehouseLocation points to the default location for managed databases and tables 

    val warehouseLocation = "spark-warehouse"

    val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .master("local[2]")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()

    import spark.implicits._
    import 
 spark.sql

//    sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
//    sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

    // Queries are expressed in HiveQL
    sql("SELECT * FROM test limit 10").show()

問題1

Caused by: org.datanucleus.exceptions.NucleusException 
: Attempt to invoke the "BONECP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.
    at org.datanucleus.store.rdbms.ConnectionFactoryImpl.generateDataSources(ConnectionFactoryImpl.java:259)
    at org.datanucleus.store.rdbms.ConnectionFactoryImpl.initialiseDataSources(ConnectionFactoryImpl.java:131)
    at org.datanucleus.store.rdbms.ConnectionFactoryImpl.<init>(ConnectionFactoryImpl.java:85)
    ... 98 more
Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.
    at org.datanucleus.store.rdbms.connectionpool.AbstractConnectionPoolFactory.loadDriver(AbstractConnectionPoolFactory.java:58)
    at org.datanucleus.store.rdbms.connectionpool.BoneCPConnectionPoolFactory.createConnectionPool(BoneCPConnectionPoolFactory.java:54)
    at org.datanucleus.store.rdbms.ConnectionFactoryImpl.generateDataSources(ConnectionFactoryImpl.java:238)
    ... 100 more

原因是hive沒有啟動metastore 服務
在hive-site.xml 中新增

<property>
        <name>hive.metastore.uris</name>
        <value>thrift://ip:9083</value>
        <description>IP address (or fully-qualified domain name) and port of the metastore host</description>
    </property>

hive –service metastore 啟動

再次run 程式報一下錯誤

    at hivesql.main(hivesql.scala)
Caused by: MetaException(message:java.lang.ClassNotFoundException Class org.openx.data.jsonserde.JsonSerDe not found)
    at org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:399)
    at org.apache.hadoop.hive.ql.metadata.Table.getDeserializerFromMetaStore(Table.java:276)
    ... 66 more
Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: org.openx.data.jsonserde.JsonSerDe
    at org.apache.hadoop.hive.ql.plan.TableDesc.getDeserializerClass(TableDesc.java:74)
    at org.apache.spark.sql.hive.execution.HiveTableScanExec.addColumnMetadataToConf(HiveTableScanExec.scala:99)
    at org.apache.spark.sql.hive.execution.HiveTableScanExec.<init>(HiveTableScanExec.scala:82)
    at org.apache.spark.sql.hive.HiveStrategies$HiveTableScans$$anonfun$4.apply(HiveStrategies.scala:99)
    at org.apache.spark.sql.hive.HiveStrategies$HiveTableScans$$anonfun$4.apply(HiveStrategies.scala:99)
    at org.apache.spark.sql.execution.SparkPlanner.pruneFilterProject(SparkPlanner.scala:93)
    at org.apache.spark.sql.hive.HiveStrategies$HiveTableScans$.apply(HiveStrategies.scala:95)
    at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$1.apply(QueryPlanner.scala:62)
	at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$1.apply(QueryPlanner.scala:62)
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
	at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:439)
	at org.apache.spark.sql.catalyst.planning.QueryPlanner.plan(QueryPlanner.scala:92)
	at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$2$$anonfun$apply$2.apply(QueryPlanner.scala:77)
    at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$2$$anonfun$apply$2.apply(QueryPlanner.scala:74)
    at scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)
	at scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157)
    at scala.collection.AbstractIterator.foldLeft(Iterator.scala:1336)
    at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$2.apply(QueryPlanner.scala:74)
	at org.apache.spark.sql.catalyst.planning.QueryPlanner$$anonfun$2.apply(QueryPlanner.scala:66)
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
	at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
    at org.apache.spark.sql.catalyst.planning.QueryPlanner.plan(QueryPlanner.scala:92)
    at org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:79)
    at org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:75)
    at org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:84)
    at org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:84)
    at org.apache.spark.sql.Dataset.withTypedCallback(Dataset.scala:2791)
    at org.apache.spark.sql.Dataset.head(Dataset.scala:2112)
    at org.apache.spark.sql.Dataset.take(Dataset.scala:2327)
    at org.apache.spark.sql.Dataset.showString(Dataset.scala:248)
    at org.apache.spark.sql.Dataset.show(Dataset.scala:636)
    at org.apache.spark.sql.Dataset.show(Dataset.scala:595)
    at org.apache.spark.sql.Dataset.show(Dataset.scala:604)
    at hivesql$.main(hivesql.scala:33)
    at hivesql.main(hivesql.scala)
Caused by: java.lang.ClassNotFoundException: org.openx.data.jsonserde.JsonSerDe
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.hive.ql.plan.TableDesc.getDeserializerClass(TableDesc.java:71)
    ... 38 more

這是由於我們使用第三放jar 解析json檔案導致的
需要將其加入到你專案中可以直接copy jar 到專案add libary
或者新增到mvn中應用

mvn install:install-file -Dfile=/Users/zenmen/Documents/json-serde-1.3.8-jar-with-dependencies.jar -DgroupId=com.hive.jsonserde -DartifactId=json-serde -Dversion=1.3.8 -Dpackaging=jar

[INFO] Scanning for projects...
[INFO] 
[INFO] ------------------------------------------------------------------------
[INFO] Building Maven Stub Project (No POM) 1
[INFO] ------------------------------------------------------------------------
[INFO] 
[INFO] --- maven-install-plugin:2.4:install-file (default-cli) @ standalone-pom ---
[INFO] Installing /Users/zenmen/Documents/json-serde-1.3.8-jar-with-dependencies.jar to /Users/zenmen/.m2/repository/com/wifi/jsonserde/json-serde/1.3.8/json-serde-1.3.8.jar
[INFO] Installing /var/folders/r7/mr4qcrzn6r73wkcwv01c_5f80000gn/T/mvninstall4253829782020752562.pom to /Users/zenmen/.m2/repository/com/hive/jsonserde/json-serde/1.3.8/json-serde-1.3.8.pom
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 0.412 s
[INFO] Finished at: 2018-01-17T10:34:23+08:00
[INFO] Final Memory: 6M/155M
[INFO] ------------------------------------------------------------------------

pom 中配置如下

<dependency>
        <groupId>com.hive.jsonserde</groupId>
        <artifactId>json-serde</artifactId>
        <version>1.3.8</version>
    </dependency>

發現還缺少 hadoop lzo code
同樣的方式找到hadoop-lzo包自己新增，或者新增對應的mvn依賴即可解決

問題2：

java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path

copy hadoop native 下的lib庫檔案後發現還是不行
查詢官網
http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/NativeLibraries.html

The native hadoop library is supported on *nix platforms only. The library does not to work with Cygwin or the Mac OS X platform.

我 … native library 不適用於mac os x。發現不支援，難不成還有自己編譯，雖然本地查詢hive已經沒有問題，但作為程式設計師這是不完美的，時間原因,後續研究吧，
windows 對應的Hadoop lib
https://github.com/steveloughran/winutils

發現一下文章也談及到
http://blog.csdn.net/tterminator/article/details/51779689

spark hive hbase 結合

spark hive hbase 結合業務需求，需要整合需要讀取hive資料匯入hbase中，一下是環境配置流程以及中間遇到的問題 1.spark讀hive 需要copy hive-site和hdfs-site 等配置檔案到專案資源包下 object hivesql {

hive 與 hbase 結合

next pos jobs maven int info XP .com .org 一、hive與hbase的結合Hive會經常和Hbase結合使用，把Hbase作為Hive的存儲路徑，所以Hive整合Hbase尤其重要。使用Hive讀取Hbase中的數據，可以使用HQL語

大數據學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

pat 修改配置文件防止聲明 mir rac detail jre_home true 引言在之前的大數據學習系列中，搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話，我開始學習大數據的時候，搭建的就是集群，並不是單機模式和

Hadoop+HBase+Spark+Hive環境搭建

eight 基礎計算 oracle keygen 結構化文字 l命令密鑰楊赟快跑簡書作者 2018-09-24 10:24 打開App 摘要：大數據門檻較高，僅僅環境的搭建可能就要耗費我們大量的精力，本文總結了作者是如何搭建大數據環境的（單機版和集

Spark SQL與hive hbase mysql整合

虛擬機器環境：centos7 一、Spark SQL 與Hive整合（spark-shell） 1.需要配置的專案 1）將hive的配置檔案hive-site.xml拷貝到spark conf目錄，同時新增metastore的url配置。執行

大資料學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive叢集搭建圖文詳解

引言在之前的大資料學習系列中，搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話，我開始學習大資料的時候，搭建的就是叢集，並不是單機模式和偽分散式。至於為什麼先寫單機的搭建，是因為作為個人學習的話，單機已足以，好吧，

hadoop、spark、Hbase、Hive、hdfs，是什麼

這些都是“大資料”相關的概念，即和關係型資料庫，相比較而產生的新技術。即j2ee的web開發中，資料庫部分（如傳統的關係型資料庫的oracle），的內容 1Hbase：是一個nosql資料庫，和mongodb類似。 2hdfs：hadoop distribut file

Hadoop Hive HBase Spark Storm概念解釋

HadoopHadoop是什麼？答：一個分散式系統基礎架構。 Hadoop解決了什麼問題？答：解決了大資料（大到一臺計算機無法進行儲存，一臺計算機無法在要求的時間內進行處理）的可靠儲存(HDFS)和處理(MapReduce)。 HiveHive是什麼？答：Hive是建立在Hadoop之上的，使用Ha

Mac 安裝 hadoop+hive+hbase+spark

本人剛接觸大資料，在除錯安裝的的過程中，有些bug沒有記錄，有些bug的處理方法也不太記得清了，如下述流程有誤，歡迎批評指正一、 hadoop 1. 安裝JDK和Hadoop mac自帶jdk，用homebrew安裝hadoop，注意brew

Spark-sql與hive的結合環境配置

轉：zx老師 ######################################## alter database hive character set latin1; ALTER TABLE hive.* DEFAULT CHARACTER SET latin1

Spark Hive 匯入資料到 HBase

導讀：如何使用MapReduce將textfile、rcfile格式的Hive表資料匯入到HBase，上一篇部落格中已經做了介紹 MapReduce Hive 匯入資料到 HBase，MR這種方式有兩個缺點，一是當資料量特別大的時候，執行較慢

Sqoop_具體總結使用Sqoop將HDFS/Hive/HBase與MySQL/Oracle中的數據相互導入、導出

能夠 mes south ase form html 技術 popu 沒有一、使用Sqoop將MySQL中的數據導入到HDFS/Hive/HBase 二、使用Sqoop將HDFS/Hive/HBase中的數據導出到MySQL 2.3 HBase中的數據

[Spark][Hive]外部文件導入到Hive的例子

xtree rain limited load mapreduce custom apr cli and 外部文件導入到Hive的例子： [[email protected] ~]$ cd ~[[email protected] ~]$ pwd/hom

IDEA中 Spark 讀Hbase 報錯處理：

ado htable client ets rim ogg expec zookeep ati SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 17/11/19 14:25:57 E

Hive/Hbase/Sqoop的安裝教程

啟動 get Coding 如果 path master 安裝教程 targe name Hive/Hbase/Sqoop的安裝教程 HIVE INSTALL 1.下載安裝包：https://mirrors.tuna.tsinghua.edu.cn/apache/hiv

sparksql\hive on spark\hive on mr

Hive on Mapreduce Hive的原理大家可以參考這篇大資料時代的技術hive：hive介紹，實際的一些操作可以看這篇筆記：新手的Hive指南，至於還有興趣看Hive優化方法可以看看我總結的這篇Hive效能優化上的一些總結 Hive on Mapreduce執行流程

ElasticSearch與HBASE結合案例

建立 curl -XPOST 'http://192.168.0.131:9200/tv1' -d @tvcount.json 檢查 curl -XGET http://192.168.0.131:9200/tv1_se

Spark和hbase整合遇到的一些問題

1.Spark計算都轉移到了一個節點上，即只有一個節點在計算。搭建好的spark叢集，進行計算的時候發現，所有的slave節點上的task生成後，快速退出，並且生成好多task。檢視spark ui上發現，只有主節點上有正常task執行，其他的

spark讀取hbase(NewHadoopAPI 例子)

package cn.piesat.controllerimport java.text.{DecimalFormat, SimpleDateFormat}import java.utilimport java.util.concurrent.{CountDownLatch, Executors, Futur

k8s叢集中 spark訪問hbase中資料

首先我們需要對hbase的訪問原理非常清除.可以參考:https://blog.csdn.net/luanpeng825485697/article/details/80319552 我們這裡已經在k8s中部署了hdfs和zookeeper以及hbase.部署可以參考: https:

spark hive hbase 結合

spark hive hbase 結合

相關推薦