SparkSQL配置(HIVE作為資料來源)

阿新 • • 發佈：2019-02-12

HIVE的配置（以mysql做為元資料的儲存，hdfs作為資料的儲存）：

1.修改 hive-env.sh （可以從hive-default.xml.template拷貝修改）

#hadoop的主目錄

export HADOOP_HOME=/usr/local/hadoop
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/usr/local/hive/conf
# Folder containing extra ibraries required for hive compilation/execution can be controlled by:
export HIVE_AUX_JARS_PATH=/usr/local/hive/lib

2.修改 hive-site.xml(可以參考hive-default.xml.template修改)

#此處主要配置與mysql相關資訊

  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>youpassword</value>
    <description>password to use against metastore database</description>
  </property>

 <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <description>Username to use against metastore database</description>
  </property>

<span style="font-family: Arial, Helvetica, sans-serif;">至此hive基本配置完畢</span>

<span style="font-family: Arial, Helvetica, sans-serif;">然後啟動./HIVE_HOME/bin/hive 看是否能啟動成功！</span>

<span style="font-family: Arial, Helvetica, sans-serif;">-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</span>

配置spark

1.修改spark-env.sh

#記憶體根據自己的機器配置，注意：太配置小了，執行會出現no resource。。。。。。，

export SCALA_HOME=/usr/local/spark
export JAVA_HOME=/usr/local/jdk1.8.0
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=800m
export SPARK_EXECUTOR_MEMORY=800m
export SPARK_DRIVER_MEMORY=800m
export SPARK_WORKER_CORES=4

export MASTER=spark://master:7077

2.配置spark-defaults.conf

spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two thr"
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/historyserverforSpark

#可以用來檢視spark的歷史執行任務 web UI
spark.yarn.historyServer.address        master:18080

spark.history.fs.logDirectory   hdfs://master:9000/historyserverforSpark

3.配置slaves（配置了兩個work節點）

slave1
slave2

-------------------------------------------------------

在spark/conf中配置新增hive-site.xml,內容如下

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<configuration>
<property>
<name>hive.metastore.uris</name>  
    <value>thrift://master:9083</value>  
    <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description> 
</property>


</configuration>

4.啟動 hive的元資料

 hive --servie meatastore

5. 啟動sparkSQL

./bin/spark-bin

SparkSQL配置(HIVE作為資料來源)

HIVE的配置（以mysql做為元資料的儲存，hdfs作為資料的儲存）： 1.修改 hive-env.sh （可以從hive-default.xml.template拷貝修改） #hadoop的主目錄export HADOOP_HOME=/usr/local/hadoop

大資料BigData之如何配置hive連線mysql，把mysql作為元資料庫？

如何配置hive連線mysql，把mysql作為元資料庫？文章目錄 1.增加mysql資料庫的連線配置 2.修改臨時資料夾的路徑 3.修改 hive-config.sh 4.下載MySQL JDBC驅動 5.在HDFS中建立目錄和設定許可權

配置sparksql讀hive，dataframe和RDD，將RDD轉換成Dataframe，檢視，withcolumn

文章目錄退出spark-shell 使用spark自帶檔案建立dataframe 退出安全模式配置spark讀hive 1.pom檔案增加 2.resource下加檔案 3.修改h

Ubuntu下安裝hive，並配置mysql作為元資料庫

一、安裝hive 1.下載並解壓hive源程式 sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local # 解壓到/usr/local中 cd /usr/local/ sudo mv apa

Hive作為Mondrian的資料來源

專案中的報表系統使用開源的mondrian和saiku作為工具實現的，現在自己又不得不去熟悉OLAP這一塊的東西，首先要面對的就是mondrian這一座大山，聽他們之前的開發人員介紹說mondrian裡面會有很多坑，尤其是效能問題，在之前自己的測試過程中自己也遇到了一些問題，但是當時沒怎麼記錄過了

Mac單機Hadoop2.7下安裝Spark2.2+配置SparkSQL查詢Hive表+spark-sql CLI 查詢

下面簡單記錄mac單機spark安裝測試的過程單機Mac安裝spark並做簡單yarn模式shell測試配置SparkSQL查詢Hive spark-sql CLI 查詢Hive 一、安裝Spark 1-下載安裝scala 移動至

Linux下安裝Python3的django並配置mysql作為django默認數據庫（轉載）

make lba del log pri ica www src rim 我的操作系統為centos6.5 1 首先選擇django要使用什麽數據庫。django1.10默認數據庫為sqlite3，本人想使用mysql數據庫，但為了測試方便順便要安裝一下sqlite開發

SparkSQL與Hive的整合

cto home 添加 usr onf cal apach local -c 其他的配置hive基本配置就不記錄了！！ 1. 拷貝$HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/2. 在$SPARK_HOME/conf/目錄

SparkSQL與Hive on Spark的比較

.cn local 順序沒有針對 ast custom spark manager 簡要介紹了SparkSQL與Hive on Spark的區別與聯系一、關於Spark簡介在Hadoop的整個生態系統中，Spark和MapReduce在同一個層級，即主要解決分布式計算框

hive on spark VS SparkSQL VS hive on tez

dir csdn cluster 並且 http 緩沖快速 bsp pos http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details

CoreDNS配置kubernetes作為後端

err through 打印 system 啟動默認優勢目前 rom 概述 coredns之所以如此名聲大噪，就是因為從kubernetes1.9開始引入，作為kubernetes內部服務發現的默認dns。毫無疑問kubernetes是coredns的後端之一，所以我

hive記錄-cdh配置hive和sentry

組件讀寫 groupadd 測試 mys user 開啟訪問 show 1.cdh添加組件-sentry-選擇主機-配置數據庫 2.配置數據庫 1）mysql -uroot -p 2) create database sentry DEFAULT CHARSET utf

3.sparkSQL整合Hive

mys defaults lang 命令 apach java_home default 概念進行　　spark SQL經常需要訪問Hive metastore，Spark SQL可以通過Hive metastore獲取Hive表的元數據。從Spark 1.4.0開始，

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料學習之路92-sparkSQL整合hive

我們知道sparkSQL跟hive是相容的，他支援hive的元資料庫，sql語法，多種型別的UDF，而且還支援hive的序列化和反序列化方式，意思就是hive寫的自定義函式，spark拿過來就能用。最重要的就是MetaStore元資料庫，以後一旦我們使用hive的Meta

sparksql寫入hive合併小檔案

今天主要來說一下sparksql寫入hive後小檔案太多,影響查詢效能的問題.在另外一篇部落格裡面也稍微提到了一下,但還是感覺要單獨說一下,首先我們要知道hive裡面檔案的數量=executor-cores*num-executors*job數,所以如果我們batchDuration的設定的比較

Hortonwork Ambari配置Hive整合Hbase的java開發maven配置

叢集環境 ambari 2.7.3 hdp/hortonwork 2.6.0.3 maven 1 <dependency> 2 <groupId>org.apache.hive</groupId> 3 <ar

[課本10.1.4]JDBC資料庫連線池- C3P0資料來源--通過構造方法建立資料來源物件--通過配置檔案建立資料來源物件[推薦]

JDBC- C3P0資料來源 1 /*重點提醒*/ 2 連線資料庫的較低的jar包版本會與較高版本的mysql版本有衝突; 3 通過把mysql 8.0的版本降到5.5, jar包仍使用較高的 mysql-connector-java-5.1.7-bin.jar, 完美解決衝突.

Springbooot 配置資料庫多資料來源

前言　　在實際專案中，我們可能會碰到在一個專案中會訪問多個數據庫的情況。針對這種情況，我們就需要配置動態的資料來源了。一般按照以下步驟即可一、在啟動類上添加註解二、在application.properties檔案中 #預設資料來源 spring.datasource.driver-cla

SparkSQL和hive on Spark

SparkSQL簡介 SparkSQL的前身是Shark，給熟悉RDBMS但又不理解MapReduce的技術人員提供快速上手的工具，hive應運而生，它是當時唯一執行在Hadoop上的SQL-on-hadoop工具。但是MapReduce計算過程中大量的中間磁碟落地過程消耗了大量的I/O，降低的執行效率，為

SparkSQL配置(HIVE作為資料來源)

相關推薦