Spark SQL 整合Hive的使用

阿新 • • 發佈：2019-02-13

Spark SQL官方釋義

Spark SQL is Apache Spark's module 
for working with structured data.

一、使用Spark SQL訪問Hive需要將$HIVE_HOME/conf下的hive-site.xml拷貝到$SPARK_HOME/conf下,如果叢集沒有安裝hive那麼就在$SPARK_HOME/conf 下建立一個hive-site.xml，再配置一下可以訪問metadata即可

二、啟動spark訪問hive
1、HDFS必須保證啟動了
2、如果報錯說找不到mysql驅動，那麼在啟動spark時通過–jars指定mysql驅動

3、啟動命令

./spark-shell --master local[2]

4、列出hive的表

scala> spark.sql("show tables").show
+--------+-------------------+-----------+
|database|          tableName|isTemporary|
+--------+-------------------+-----------+
| default|                emp|      false|
| default|testhivedrivertable|      false|
+--------+-------------------+-----------+

5、檢視emp表內容

scala> spark.sql("select * from emp").show
+-----+------+---------+----+----------+-------+------+------+
|empno| ename|      job| mgr|  hiredate|    sal|  comm|deptno|
+-----+------+---------+----+----------+-------+------+------+
| 7369| SMITH|    CLERK|7902|1980-12-17|  800.0|  null|    20 
|
| 7499| ALLEN| SALESMAN|7698| 1981-2-20| 1600.0| 300.0|    30|
| 7521|  WARD| SALESMAN|7698| 1981-2-22| 1250.0| 500.0|    30|
| 7566| JONES|  MANAGER|7839|  1981-4-2| 2975.0|  null|    20|
| 7654|MARTIN| SALESMAN|7698| 1981-9-28| 1250.0|1400.0|    30|
| 7698| BLAKE|  MANAGER|7839|  1981-5-1| 2850.0|  null|    30|
| 7782| CLARK|  MANAGER|7839|  1981-6-9| 2450.0|  null|    10|
| 7788| SCOTT|  ANALYST|7566| 1987-4-19| 3000.0|  null|    20|
| 7839|  KING|PRESIDENT|null|1981-11-17| 5000.0|  null|    10|
| 7844|TURNER| SALESMAN|7698|  1981-9-8| 1500.0|   0.0|    30|
| 7876| ADAMS|    CLERK|7788| 1987-5-23| 1100.0|  null|    20|
| 7900| JAMES|    CLERK|7698| 1981-12-3|  950.0|  null|    30|
| 7902|  FORD|  ANALYST|7566| 1981-12-3| 3000.0|  null|    20|
| 7934|MILLER|    CLERK|7782| 1982-1-23| 1300.0|  null|    10|
| 8888|  HIVE|  PROGRAM|7839| 1988-1-23|10300.0|  null|  null|
| 9999| Spark|    Clerk|9999| 1988-2-23|10993.0|  20.0|  null|
+-----+------+---------+----+----------+-------+------+------+

6、下面方式同樣可以查看錶內容

scala> spark.table("emp").show

7、啟動Spark SQL來訪問

 ./spark-sql --master local[2]

檢視所有表

spark-sql (default)> show tables;
17/11/21 16:40:18 INFO SparkSqlParser: Parsing command: show tables
17/11/21 16:40:25 INFO HiveMetaStore: 0: get_database: default
17/11/21 16:40:25 INFO audit: ugi=root  ip=unknown-ip-addr      cmd=get_database: default
17/11/21 16:40:25 INFO HiveMetaStore: 0: get_database: default
17/11/21 16:40:25 INFO audit: ugi=root  ip=unknown-ip-addr      cmd=get_database: default
17/11/21 16:40:25 INFO HiveMetaStore: 0: get_tables: db=default pat=*
17/11/21 16:40:25 INFO audit: ugi=root  ip=unknown-ip-addr      cmd=get_tables: db=default pat=*
17/11/21 16:40:28 INFO CodeGenerator: Code generated in 679.481418 ms
database        tableName       isTemporary
default dept    false
default emp     false
default testhivedrivertable     false
Time taken: 10.403 seconds, Fetched 3 row(s)
17/11/21 16:40:28 INFO CliDriver: Time taken: 10.403 seconds, Fetched 3 row(s)

三、join操作

spark-sql (default)> select a.ename,a.sal,b.deptno,b.dname from emp a join dept b on a.deptno=b.deptno;
ename   sal     deptno  dname
SMITH   800.0   20      眼科
SMITH   800.0   20      病案科室
JONES   2975.0  20      眼科
JONES   2975.0  20      病案科室
CLARK   2450.0  10      腫瘤科
SCOTT   3000.0  20      眼科
SCOTT   3000.0  20      病案科室
KING    5000.0  10      腫瘤科
ADAMS   1100.0  20      眼科
ADAMS   1100.0  20      病案科室
FORD    3000.0  20      眼科
FORD    3000.0  20      病案科室
MILLER  1300.0  10      腫瘤科
Time taken: 14.438 seconds, Fetched 13 row(s)

我們把兩張表放到memory裡面去，因為spark-sql支援cache操作

spark-sql (default)> cache table emp;
spark-sql (default)> cache table dept;

這裡寫圖片描述

此時我們再來進行join操作

spark-sql (default)> select a.ename,a.sal,b.deptno,b.dname from emp a join dept b on a.deptno=b.deptno;
ename   sal     deptno  dname
SMITH   800.0   20      眼科
SMITH   800.0   20      病案科室
JONES   2975.0  20      眼科
JONES   2975.0  20      病案科室
CLARK   2450.0  10      腫瘤科
SCOTT   3000.0  20      眼科
SCOTT   3000.0  20      病案科室
KING    5000.0  10      腫瘤科
ADAMS   1100.0  20      眼科
ADAMS   1100.0  20      病案科室
FORD    3000.0  20      眼科
FORD    3000.0  20      病案科室
MILLER  1300.0  10      腫瘤科
Time taken: 1.081 seconds, Fetched 13 row(s)

對比兩次的Time taken會發現做了cache後速度提高了很多，如果你的資料量大就越明顯。

取消cache

uncache table emp;

注意：spark-core裡面的cache是lazy的，而Spark SQL中的cache是eager的

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合呼叫hive

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Spark SQL 整合Hive的使用

Spark SQL官方釋義 Spark SQL is Apache Spark's module for working with structured data. 一、使用Spark SQL訪問Hive需要將$HIVE_HOME/conf下的hive

spark sql整合hive步驟

SPARK ON HIVE：讓spark sql通過sql的方式去讀取hive當中的資料HIVE ON SPARK：讓hive的計算引擎由MapReduce改為SPARK1、先按官網的參考程式碼，構建val conf = new SparkConf().setMaste

Spark SQL與hive hbase mysql整合

虛擬機器環境：centos7 一、Spark SQL 與Hive整合（spark-shell） 1.需要配置的專案 1）將hive的配置檔案hive-site.xml拷貝到spark conf目錄，同時新增metastore的url配置。執行

spark sql 查詢hive表並寫入到PG中

clas sel append nec pro 增加 word postgres erro import java.sql.DriverManager import java.util.Properties import com.zhaopin.tools.{DateU

Spark SQL 訪問hive 出現異常：org.datanucleus.exceptions.NucleusDataStoreException

異常： org.datanucleus.exceptions.NucleusDataStoreException: Exception thrown obtaining schema column information from datastore 出現問題原因： 1、hi

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

第四天 – Accumulator累加器 – Spark SQL – DataFrame – Hive on Spark 文章目錄第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

Spark sql操作Hive

這裡說的是最簡便的方法，通過Spark sql直接操作hive。前提是hive-site.xml等配置檔案已經在Spark叢集配置好。 val logger = LoggerFactory.getLogger(SevsSpark4.getClass) def main(args:

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

Spark SQL 與 Hive 的第一場會師

“你好，一杯熱美式，加 2 份shot, 1 份焦糖，謝謝” L 跨進匯智國際中心大廈的 Starbucks, 拿著 iPhone 對著點餐機輕輕一掃，對黑帶服務員小妹丟擲一個笑臉。 “ L 先生，您的熱美式” “謝謝” 最近 1 禮拜，無論雙休還是工作日，L 每天基本都是同一時間，在早上 Starbucks

spark sql: 操作hive表

目標：實現類似於navicat的功能=> 寫hql語句，在idea下使用spark sql 一鍵執行，而不用到shell視窗下執行命令步驟：寫sql檔案 (resources目錄)—> 讀取內容 --> 以 ‘;’ 解析每條命令 --

第69課：Spark SQL通過Hive資料來源實戰

內容： 1.Spark SQL操作Hive解析 2.SparkSQL操作Hive實戰一、Spark SQL操作Hive解析 1.在目前企業級大資料Spark開發的時候，

spark sql 訪問Hive資料表

測試環境 hadoop版本：2.6.5 spark版本：2.3.0 hive版本：1.2.2 master主機：192.168.11.170 slave1主機：192.168.11.171 程式碼實現針對Hive表的sql語句會轉化為MR程式，一般執行起來會比較耗時，spar

通過spark sql建立HIVE的分割槽表

今天需要通過匯入文字中的資料到HIVE資料庫，而且因為預設該表的資料會比較大，所以採用分割槽表的設計方案。將表按地區和日期分割槽。在這個過程出現過一些BUG，記錄以便後期檢視。 spark.sql("use oracledb") spark.sql("CREATE TABL

Spark SQL相容Hive及擴充套件

前言相比於Shark對Hive的過渡依賴，Spark SQL在Hive相容層面僅依賴HQL Parser、Hive Metastore和Hive SerDes。也就是說，從HQL被解析成抽象語法樹(AST)起，就全部由Spark SQL接管了，執行計劃生成和優

Spark-sql與hive的結合環境配置

轉：zx老師 ######################################## alter database hive character set latin1; ALTER TABLE hive.* DEFAULT CHARACTER SET latin1

spark從入門到放棄三十三:Spark Sql(6)hive sql 案例查詢分數大於80分的同學

DROP TABLE IF EXISTS student_info"); sqlContext.sql("CREATE TABLE IF NOT EXISTS student_info (name STRING ,age INT)"); System.out.println(

spark從入門到放棄三十二:Spark Sql(5)hive sql 簡述

1 簡述 Spark Sql 支援對Hive 中儲存的資料進行讀寫。操作Hive中的資料時，可以建立HiveContext,而不是SqlContext.HiveContext 繼承自SqlContext,但是增加了在Hive元資料庫中查詢表，以及用Hi

spark-sql 集合hive查詢資料執行日誌

[[email protected] spark]# spark-sql --master spark://hadoop1:7077,hadoop2:7077 --executor-memory 1g --total-executor-cores 2 --driv

Spark SQL 整合Hive的使用

相關推薦