1. 程式人生 > 資料庫 >SparkSQL和IDEA整合Hive詳解

SparkSQL和IDEA整合Hive詳解

簡介: 程式碼誰都會敲,關鍵是要邏輯要清楚

  • 1-為什麼出現SparkOnHive(SparkSQL)?
    • 1-本質上SparkOnHive為了解決Hive計算的速度慢的問題
    • 2-現在在工業場景中更多的離線分析都是基於Hive+Spark的整合
  • 2-注意:
  • SparkOnHive僅僅使用了Hive的元資料的資訊,其他都是用spark的技術
  • 需要將hive的hive-site.xml拷貝到spark/conf中實現spark知曉hive的元資料資訊、
  • 3-步驟:
  • 1-原理:需要整合Hive的元資料的資訊,啟動metastor的服務
    在這裡插入圖片描述

1. SparkSQL 整合Hive

第一步:將hive-site.xml拷貝到spark安裝路徑conf目錄

因為Hive僅僅只是一個操作MapReduce的一個客戶端工具,所以我就在我的第三臺主機上安裝了Hive

在node3執行以下命令來拷貝hive-site.xml到所有的spark安裝伺服器上面去

cd /export/server/hive/conf
cp hive-site.xml /export/server/spark/conf/
scp hive-site.xml root@node2:/export/server/spark/conf/
scp hive-site.xml root@node1:/export/server/spark/conf/

第二步:將mysql的連線驅動包拷貝到spark的jars目錄下

node3執行以下命令將連線驅動包拷貝到spark的jars目錄下,三臺機器都要進行拷貝
cd /export/server/hive/lib
cp mysql-connector-java-5.1.38.jar  /export/server/spark/jars/
scp mysql-connector-java-5.1.38.jar  root@node2:/export/server/spark/jars/
scp mysql-connector-java-5.1.38.jar  root@node1:/export/server/spark/jars/

第三步:Hive開啟MetaStore服務

1: 修改 hive/conf/hive-site.xml 新增如下配置
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
      <name>hive.metastore.warehouse.dir</name>
      <value>/user/hive/warehouse</value>
    </property>
    <property>
      <name>hive.metastore.local</name>
      <value>false</value>
    </property>
    <property>
      <name>hive.metastore.uris</name>
      <value>thrift://node3:9083</value>
    </property>
 </configuration>

2: 後臺啟動 Hive MetaStore服務
nohup /export/server/hive/bin/hive --service metastore &
或者
nohup /export/server/hive/bin/hive --service metastore 2>&1 >> /var/log.log &

在這裡插入圖片描述
第四步:測試Sparksql整合Hive是否成功

先啟動hadoop叢集,在啟動spark叢集,確保啟動成功之後node01執行命令:

Spark-Shell方式啟動:
bin/spark-shell --master local[3]
spark.sql("show databases").show

看到資料的結果,說明sparksql整合hive成功!
日誌太多,我們可以修改spark的日誌輸出級別(conf/log4j.properties)

在這裡插入圖片描述
Hive中建立的表可以在Spark shell中看見

2. IDEA整合Hive

1.準備:
在這裡插入圖片描述
2. 配置檔案中解釋
在這裡插入圖片描述
3-注意 設定sql的shuffle的引數
spark.default.parallieize只能用於sparkcore的rdd的shuffle中
官網截圖
在這裡插入圖片描述

4-程式碼

/**
 * @author liu a fu
 * @date 2021/1/18 0018
 * @version 1.0
 * @DESC: 整合Hive和SparkSQL
 *      1-準備SparkSession的環境
 *      2-使用spark.sql(hive的建立資料庫的語句)
 *      3-使用spark.sql(hive的建立表的語句)
 *      4-使用spark.sql(hive的展示資料庫表的語句)
 *      5-使用spark.sql(hive的載入本地檔案的資料)
 *      6-使用spark.sql查詢
 *      7-停止sparksession
 */
object SparkToHive {
  def main(args: Array[String]): Unit = {
    //1-準備SparkSession的環境
    val spark: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[4]")
      .enableHiveSupport()
      .config("spark.sql.shuffle.partitions", "4")//預設200
      //元資料的資訊放在那裡
      //thrift的地址是哪個
      //指定hive元資料在hdfs上的位置
      .config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse")
      // 指定Hive MetaStore服務地址,客戶端連線metastore服務,metastore再去連線MySQL資料庫來存取元資料有了metastore服務,就可以有多個客戶端同時連線,而且這些客戶端不需要知道MySQL資料庫的使用者名稱和密碼,只需要連線metastore 服務即可。 
      .config("hive.metastore.uris", "thrift://node3:9083")   //Hive安裝的位置
      // TODO: 告訴Spark要整合Hive,讀取Hive表的資料
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")


    //2-使用spark.sql(hive的建立資料庫的語句)
    spark.sql("show databases")
    spark.sql("use sparkhive")
    //3-使用spark.sql(hive的建立表的語句)
    spark.sql("create table student(id  int,name String,age int) row format delimited fields terminated by \",\"")
    //4-使用spark.sql(hive的展示資料庫表的語句)
    spark.sql("load data local inpath 'data/input/sql/hive/student.csv' overwrite into table student")

    //5-使用spark.sql(hive的載入本地檔案的資料)
    //6-使用spark.sql查詢
    spark.sql("desc student").show()
    spark.sql("select * from student").show()

    //7-停止sparksession
    spark.stop()
  }

}

在這裡插入圖片描述