kettle6.1讀寫hive on hbase記錄

阿新 • • 發佈：2019-02-10

版本

kettle 6.1
hbase 1.2.6
hive 2.2.0
hadoop 2.6.5

資料架構

業務資料通過kafka流向業務資料處理引擎，過濾後的資料寫入hbase，kettle job定期執行作業，讀取hive運算結果寫入業務mysql庫中，提供給前端展示。

實現

1、hive on hbase

hive與hbase資料互通，這點利用hive自帶的hive-hbase-handler-2.2.0.jar即可。

1.1 、首先拷貝hbase的相關包到$HIVE_HOME/lib下覆蓋原先的包（記得備份）

hbase-annotations-1.1.1.jar
hbase-client-1.1.1.jar
hbase-common-1.1.1.jar
hbase-common-1.1.1-tests.jar
hbase-hadoop2-compat-1.1.1.jar
hbase-hadoop2-compat-1.1.1-tests.jar
hbase-hadoop-compat-1.1.1.jar
hbase-prefix-tree-1.1.1.jar
hbase-procedure-1.1.1.jar
hbase-protocol-1.1.1.jar
hbase-server-1.1.1.jar

（經過測試發現hbase1.2.6可以不用覆蓋1.1.1的jar，也能做基礎CR操作）

1.2、 hbase建立庫表

在hbase中根據業務需求建立自己所需要的庫表。

create 'h_test',{NAME => 'test1', VERSIONS => 3},{NAME => 'test2', VERSIONS => 3}

put 'h_test','1000','test1:col1','firstvalue'

put 'h_test','1000','test2:col2','secondvalue'

1.3、hive中建立擴充套件表

啟動服務不要忘了

nohup hive –service hiveserver2 &

建立擴充套件表

create external table hive_test(rowkey string, col1 string,col2 string)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
 with serdeproperties("hbase.columns.mapping" = ":key,test1:col1,test2:col2")
 tblproperties("hbase.table.name"="h_test" 
);

1.4、執行select語句測試是否正常

（網上一些教程執行MR時會出現異常，我在執行過程中倒是沒有碰到，且hive2.0後不建議再使用hadoop MR，

Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.

可以使用hive on spark on yarn，如果spark版本為2.0.0加，則需要使用hive2.3.0否則會報sparkListener not found異常，本例為測試環境，未配置hive on spark）。

2、kettle配置

2.1、進入kettle6.1的

$KETTLE_HOME\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations
複製cdh55目錄為hdp26
替換hdp26\lib內的如下檔案

替換檔案

2.2、啟動kettle6.1

啟動kettle，在工具->hadoop distribute中選擇hdp26並確定。

2.3、配置連線

配置hive的連線資訊和mysql的連線資訊
hive
這裡寫圖片描述

2.4、轉換編寫

demo實現hive讀入結果寫入mysql
這裡寫圖片描述

kettle6.1讀寫hive on hbase記錄

版本 kettle 6.1 hbase 1.2.6 hive 2.2.0 hadoop 2.6.5 資料架構業務資料通過kafka流向業務資料處理引擎，過濾後的資料寫入hbase，kettle job定期執行作業，讀取hive運算結果寫入業務mys

Python檔案&IO處理技巧(1): 讀寫、重定向、間隔符、路徑、存在性與檔案列表

1. 文字資料的讀寫 open() & write() ： rt模式的重新整理模式當我們需要讀寫各種不同編碼的文字資料(如ASCII，UTF-8或UTF-16編碼等), 可以直接使用帶rt模式的open()內建函式。如果需要將文字內容寫入到一個檔案中，就要使用帶有 w

Python檔案&IO處理技巧(1): 讀寫、重定向、間隔符、路徑、存在性與檔案列表

1. 文字資料的讀寫 open() & write() ： rt模式的重新整理模式當我們需要讀寫各種不同編碼的文字資料(如ASCII，UTF-8或UTF-16編碼等), 可以直接使用帶rt模式的open()內建函式。如果需要將文字內容寫入到一個檔案中，就要使用帶有

C#中npoi操作Excel[版本2.0.1讀寫2003、2007格式]

public static void test1() { NpoiHelper np = new NpoiHelper(); DataTable dt1 = np.ReadExcel(AppDoma

PP保護1:讀寫程序記憶體

與眾多保護一樣,PP保護也是禁止遊戲程序被開啟的,像OpenProcess與Read/WriteProcessMemory核心的函式也是處理過的. 這幾個函式是ssdt hook. 用windbg開啟NtOpenProcess的hook,可以看到:

【Spark系列7】Spark如何讀寫hive

hive資料表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."） 1）寫入hive表 case class Person(name:String,col1:Int,col2:String) val sc = ne

Spark簡單讀寫Hive

Spark版本：1.6.0 語言：Python 2.7 使用Spark寫入Hive表 # --coding=utf-8-- from pyspark import SparkContext

Hive On HBase實戰

1.概述 HBase是一款非關係型、分散式的KV儲存資料庫。用來儲存海量的資料，用於鍵值對操作。目前HBase是原生是不包含SQL操作，雖然說Apache Phoenix可以用來操作HBase表，但是需要整合對應的Phoenix依賴包到HBase叢集中，同時需要編寫對應的Schema才能實現SQL操作HBa

Hive整合HBase 通過Hive讀/寫HBase中的表

寫在前面一：本文將Hive與HBase整合在一起，使Hive可以讀取HBase中的資料，讓Hadoop生態系統中最為常用的兩大框架互相結合，相得益彰。寫在前面二：使用軟體說明約定所有軟體的存放目錄： /home/yujianxin 一、Hive整合HBase原理

Mysql讀寫分離方案－MySQL Proxy環境部署記錄

round back 通過 and http 意思同時主從角色 Mysql的讀寫分離可以使用MySQL Proxy和Amoeba實現，其實也可以使用MySQL-MMM實現讀寫分離的自動切換。MySQL Proxy有一項強大功能是實現"讀寫分離"，基本原理是讓主數據

hbase讀寫流程

ems 服務 region flush 以及 hba 表數據 new 剛才 HBase讀數據流程 1) HRegionServer保存著meta表以及表數據，要訪問表數據，首先Client先去訪問zookeeper，從zookeeper裏面獲取meta表所在的位置信息，即找

Python學習筆記__9.1章文件讀寫

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、概覽讀寫文件是最常見的IO操作。Python內置了讀寫文件的函數，用法和C是兼容的。在磁盤上讀寫文件的功能都是由操作系統提供的，現代操作系統不允許普通的程序直接操作磁盤，所以，讀寫文件就是請求操作系統打開一個文件對象（通常稱為

Mycat讀寫分離以及拆庫拆表綜合實驗1：主從復制與多源復制

mycat mysql 讀寫分離拆庫拆表主從復制數據規劃： Haproxy 集群 haproxy01 node127 192.168.31.127 haproxy02 node128 192.168.31.128 Mycat集群 mycat01 node119 192.168.31.

HBase 數據模型及讀寫操作

稀疏 tor 標識刪除定位兩個超過 idt 表示一、HBase數據模型　　HBase是一個類似於BigTable的分布式數據庫，它是一個稀疏的長期存儲的（存在HDFS上）、多維度的、排序的映射表。這張表的索引是行關鍵字、列關鍵字和時間戳。HBase的數據都是字符串

讀寫分離-延時問題-1

記錄 reat 需要 turn exception int 解決辦法獲取 log日誌代碼主要邏輯如下： 1 public void createCoupons(ReqCreateAndBindCouponDTO request) { 2 // 1.

關於HBase讀寫數據的方法

cep tin return ces n) .get eof tab exceptio 目前我這邊有兩種方案讀寫HBase數據 1.將對象直接序列化然後存儲到HBase;2.將對象利用反射，一個Field對應一個列進行存儲第一種方法 private Connection

Android FileOutputStream FileInputStream 讀寫問題記錄

問題描述在使用 FileOutputStream 和 FileInputStream 進行檔案讀寫時發現大概率出現把檔案清空的情況，非常費解！檔案的讀取和寫入程式碼大體如下： try { input = new FileInputStream(dataF

F() 表示式，這裡的F我理解是fast的意思，用它能節省讀寫資料庫的時間，在資料庫sql語言層面對欄位進行自增（+= 1）操作

1、F() 表示式，F我理解是fast的意思，用它能節省讀寫資料庫的時間，在資料庫sql語言層面對欄位進行自增（+= 1）操作，在Query Expressions章節介紹，這章沒讀過，趕緊收藏。 https://docs.djangoproject.com/en/2.1/ref/models/

18-09-20 關於Xlwings讀寫基礎1

一利用xlwings 讀取Excel 的讀取修改資料 import xlwings as xw""" # 1. 讀一個已存在的Excel檔案：利用xlwings 讀取Excel中的一個單元格並且修改 app=xw.App(visible=False,add_book=False)app.display_a

node——1-node 的初始化及檔案讀寫

node 初始化（helloworld）新建 helloworld.js 檔案，內容如下： var foo = 'hello world!'; console.log(foo); // 在 node 中，採用 EcmaScript 進行編碼 // 沒有 BOM、DOM，和瀏覽

kettle6.1讀寫hive on hbase記錄

版本

資料架構

實現

1、hive on hbase

1.1 、首先拷貝hbase的相關包到$HIVE_HOME/lib下覆蓋原先的包（記得備份）

1.2、 hbase建立庫表

1.3、hive中建立擴充套件表

1.4、執行select語句測試是否正常

2、kettle配置

2.1、進入kettle6.1的

2.2、啟動kettle6.1

2.3、配置連線

2.4、轉換編寫

相關推薦