Spark訪問與HBase關聯的Hive表

阿新 • • 發佈：2017-10-03

刪除 sql 也會影響 ron ble lec lang nbsp

知識點1：創建關聯Hbase的Hive表

知識點2：Spark訪問Hive

知識點3：Spark訪問與Hbase關聯的Hive表

知識點1：創建關聯Hbase的Hive表

兩種方式創建，內部表和外部表

內部表，如果刪除hive表，hbase表也會刪除；不建議使用這種方式，大多數都是關聯進行查詢操作

外部表，如果刪除hive表，hbase表不受影響；

hive使用的還是存儲在hbase中的數據。

這裏創建外部表。

CREATE EXTERNAL TABLE tdatafromhbase(key string, id string, info map<STRING,STRING> )
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key, cf1:id, cf2:")
TBLPROPERTIES("hbase.table.name" = "userinfo");

Hbase中的表名為userinfo;

Hive中的表名為tdatafromhbase,字段為key, id, info<>;

由於在使用hbase的時候列名會很多且未知，這裏使用了map數據類型存儲列族cf2的內容。針對已知的列名可以直接指定，這裏id就是列族cf1的字段id；

知識點2：spark訪問hive

import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Edward on 2017/9/19.
   
*/
object HiveSql {
  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("sql-hive")
    val sc =new SparkContext(conf)

    val hiveContext = new HiveContext(sc)

    hiveContext.sql("select key, id, info from tdatafromhbase").collect().foreach(println)

    sc.stop()

  }
}

知識點3：Spark訪問與Hbase關聯的Hive表

直接調用hive沒什麽差別，需要註意的就是，需要引用jar包，不然會報錯

2017-10-03 01:55:36,817 ERROR [main] hive.log: error in initSerDe: java.lang.ClassNotFoundException Class org.apache.hadoop.hive.hbase.HBaseSerDe not found
java.lang.ClassNotFoundException: Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

在spark-submit的時候添加參數，使用hive的庫hive-hbase-handler-1.1.0-cdh5.10.0.jar

--jars /home/hadoop/app/hive-1.1.0-cdh5.10.0/lib/hive-hbase-handler-1.1.0-cdh5.10.0.jar

應用場景，spark操作hive,當然spark也可以直接操作hbase, 這裏使用spark通過hive訪問hbase,有點繞。

根據自己的實際需求，和性能要求進行調整。

Spark訪問與HBase關聯的Hive表

刪除 sql 也會影響 ron ble lec lang nbsp 知識點1：創建關聯Hbase的Hive表知識點2：Spark訪問Hive 知識點3：Spark訪問與Hbase關聯的Hive表知識點1：創建關聯Hbase的Hive表兩種方式創建，內部表和外部表

Spark訪問與HBase關聯的Hive表

Spark訪問與HBase關聯的Hive表

hive與hbase關聯表的創建，外表方式

ELK搭建與hbase關聯

把kafka資料從hbase遷移到hdfs，並按天載入到hive表(hbase與hadoop為不同叢集)

hive 表關聯hbase表命令和總結

SparkSQL（二）spark-shell和spark-sql以及thriftserver&beeline訪問hive表

Spark SQL與hive hbase mysql整合

HBase學習之一: 建立hive和hbase關聯表

hive中與hbase外部表join時記憶體溢位（hive處理mapjoin的優化器機制）

Hadoop（HDFS、YARN、HBase、Hive和Spark等）預設埠表

使用spark對hive表中的多列數據判重

hive 表的創建的操作與測試

hive與hbase

spark sql 查詢hive表並寫入到PG中

全網最詳細的hive-site.xml配置文件裏如何添加達到Hive與HBase的集成，即Hive通過這些參數去連接HBase（圖文詳解）

hive 與 hbase 結合

Spark DataFrame vector 類型存儲到Hive表

hadoop--Hadoop生態上幾個技術的關系與區別：hive、pig、hbase 關系與區別

[Windows10]記一次修復註冊表相關血案：該文件沒有與之關聯的應用來執行該操作。請安裝應用，若已經安裝應用，請在“默認應用設置”頁面中創建關聯。

HIVE表數據的導入與導出（load data&insert overwrite）

Spark訪問與HBase關聯的Hive表

相關推薦