Hbase基礎（十五）：與Hive的整合

阿新 • • 發佈：2020-11-27

1.1HBase與Hive的對比

1．Hive

(1) 資料倉庫

Hive的本質其實就相當於將HDFS中已經儲存的檔案在Mysql中做了一個雙射關係，以方便使用HQL去管理查詢。

(2) 用於資料分析、清洗

Hive適用於離線的資料分析和清洗，延遲較高。

(3) 基於HDFS、MapReduce

Hive儲存的資料依舊在DataNode上，編寫的HQL語句終將是轉換為MapReduce程式碼執行。

2．HBase

(1) 資料庫

是一種面向列族儲存的非關係型資料庫。

(2) 用於儲存結構化和非結構化的資料

適用於單表非關係型資料的儲存，不適合做關聯查詢，類似JOIN等操作。

(3) 基於HDFS

資料持久化儲存的體現形式是HFile，存放於DataNode中，被ResionServer以region的形式進行管理。

(4) 延遲較低，接入線上業務使用

面對大量的企業資料，HBase可以直線單表大量資料的儲存，同時提供了高效的資料訪問速度。

1.2HBase與Hive整合使用

尖叫提示：HBase與Hive的整合在最新的兩個版本中無法相容。所以，我們只能含著淚勇敢的重新編譯：hive-hbase-handler-1.2.2.jar！！好氣！！

環境準備

因為我們後續可能會在操作Hive的同時對HBase也會產生影響，所以Hive需要持有操作HBase的Jar，那麼接下來拷貝Hive所依賴的Jar包（或者使用軟連線的形式）。

export HBASE_HOME=/opt/module/hbase
export HIVE_HOME=/opt/module/hive
ln -s $HBASE_HOME/lib/hbase-common-1.3.1.jar  $HIVE_HOME/lib/hbase-common-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-server-1.3.1.jar $HIVE_HOME/lib/hbase-server-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-client-1.3.1.jar $HIVE_HOME/lib/hbase-client-1.3.1.jar
ln  
-s $HBASE_HOME/lib/hbase-protocol-1.3.1.jar $HIVE_HOME/lib/hbase-protocol-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-it-1.3.1.jar $HIVE_HOME/lib/hbase-it-1.3.1.jar
ln -s $HBASE_HOME/lib/htrace-core-3.1.0-incubating.jar $HIVE_HOME/lib/htrace-core-3.1.0-incubating.jar
ln -s $HBASE_HOME/lib/hbase-hadoop2-compat-1.3.1.jar $HIVE_HOME/lib/hbase-hadoop2-compat-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-hadoop-compat-1.3.1.jar $HIVE_HOME/lib/hbase-hadoop-compat-1.3.1.jar

同時在hive-site.xml中修改zookeeper的屬性，如下：

<property>
  <name>hive.zookeeper.quorum</name>
  <value>hadoop102,hadoop103,hadoop104</value>
  <description>The list of ZooKeeper servers to talk to. This is only needed for read/write locks.</description>
</property>
<property>
  <name>hive.zookeeper.client.port</name>
  <value>2181</value>
  <description>The port of ZooKeeper servers to talk to. This is only needed for read/write locks.</description>
</property>

1．案例一

目標：建立Hive表，關聯HBase表，插入資料到Hive表的同時能夠影響HBase表。

分步實現：

(1) 在Hive中建立表同時關聯HBase

CREATE TABLE hive_hbase_emp_table(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:comm,info:deptno")
TBLPROPERTIES ("hbase.table.name" = "hbase_emp_table");

提示：完成之後，可以分別進入Hive和HBase檢視，都生成了對應的表

(2) 在Hive中建立臨時中間表，用於load檔案中的資料

提示：不能將資料直接load進Hive所關聯HBase的那張表中

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';

(3) 向Hive中間表中load資料

hive> load data local inpath '/home/admin/softwares/data/emp.txt' into table emp;

(4) 通過insert命令將中間表中的資料匯入到Hive關聯Hbase的那張表中

hive> insert into table hive_hbase_emp_table select * from emp;

(5) 檢視Hive以及關聯的HBase表中是否已經成功的同步插入了資料

Hive：

hive> select * from hive_hbase_emp_table;

HBase：

Hbase> scan ‘hbase_emp_table’

2．案例二

目標：在HBase中已經儲存了某一張表hbase_emp_table，然後在Hive中建立一個外部表來關聯HBase中的hbase_emp_table這張表，使之可以藉助Hive來分析HBase這張表中的資料。

注：該案例2緊跟案例1的腳步，所以完成此案例前，請先完成案例1。

分步實現：

(1) 在Hive中建立外部表

CREATE EXTERNAL TABLE relevance_hbase_emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = 
":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:comm,info:deptno") 
TBLPROPERTIES ("hbase.table.name" = "hbase_emp_table");

(2) 關聯後就可以使用Hive函式進行一些分析操作了

hive (default)> select * from relevance_hbase_emp;

Hbase基礎（十五）：與Hive的整合

1.1HBase與Hive的對比 1．Hive (1) 資料倉庫 Hive的本質其實就相當於將HDFS中已經儲存的檔案在Mysql中做了一個雙射關係，以方便使用HQL去管理查詢。

Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 本節題目為：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐，首先需要了解如何快速插入MySQL。

Hbase基礎（十七）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（一）環境搭建

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 1.導語大家好，我是光城，下面是我之前在gitchat上釋出的一個資料，今天全部開源！原始碼全部存放在本人github倉庫，地址：https://github.c

Hbase基礎（十九）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（三）同步利器

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 4.1 簡單粗暴Sqoop 首先來回顧一下Sqoop架構圖：

Hbase基礎（十二）：Kylin視覺化

可以與Kylin結合使用的視覺化工具很多，例如： ODBC：與Tableau、Excel、PowerBI等工具整合

Flink基礎（十五）：Table API 和 Flink SQL（四）視窗（Windows）

　　時間語義，要配合視窗操作才能發揮作用。最主要的用途，當然就是開視窗、根據時間段做計算了。下面我們就來看看 Table API 和 SQL 中，怎麼利用時間欄位做視窗操作。

Hive基礎（十五）：Hive 執行過程例項分析

一、Hive 執行過程概述 1、概述（1） Hive 將 HQL 轉換成一組操作符（Operator），比如 GroupByOperator, JoinOperator 等

Java SE基礎鞏固（十五）：lambda表示式

1 概述 Java8據說是Java誕生以來最大的一次演進，說實話，對我個人來說沒有什麼特別大的感受，因為我學Java也就最近一兩年的事，Java8在2014年3月18日釋出，新增的特性確實非常驚豔，在語言特性層面上新增了lambda，

C#資料結構與算法系列（十五）：排序演演算法（SortAlgorithm）

1.介紹排序是將一組資料，以指定的順序進行排序的過程 2.分類內部排序法：指將需要處理的所有資料都載入到內部儲存器中進行排序

Flink基礎（十六）：Table API 和 Flink SQL（五）函式（Functions）

1 系統內建函式　　Flink Table API 和 SQL 為使用者提供了一組用於資料轉換的內建函式。SQL 中支援的很多函式，Table API 和 SQL 都已經做了實現，其它還在快速開發擴充套件中。

Flink實戰（八十五）：flink-sql使用（十二）Flink 與 hive 結合使用（四）Hive Read & Write

0 簡介 Using the HiveCatalog and Flink’s connector to Hive, Flink can read and write from Hive data as an alternative to Hive’s batch engine. Be sure to follow the instructions to include the co

Java 多執行緒基礎（十二）生產者與消費者

Java 多執行緒基礎（十二）生產者與消費者一、生產者與消費者模型生產者與消費者問題是個非常典型的多執行緒問題，涉及到的物件包括“生產者”、“消費者”、“倉庫”和“產品

Scala 基礎（十四）：Scala 模式匹配（二）

1匹配陣列 1）Array(0) 匹配只有一個元素且為0的陣列。 2）Array(x,y) 匹配陣列有兩個元素，並將兩個元素賦值為x和y。當然可以依次類推Array(x,y,z) 匹配陣列有3個元素的等等....

Quartz.Net系列（十五）：Quartz.Net四種修改配置的方式

案例：修改預設執行緒個數 1.NameValueCollection System.Collections.Specialized.NameValueCollection collection = new System.Collections.Specialized.NameValueCollection();