udf開發——解hive外表中的pb二進位制資料

阿新 • • 發佈：2019-01-27

目標：hbase中有一張表，為了提高儲存效率使用pb的二進位制方式儲存；現在hive上建了一個外表，需要寫一個udf解pb的二進位制資料。

一、hbase中儲存的資料先用pb生成二進位制，轉成string後再使用base64編碼：

1、在hive中建立外表，結構如下：

create external table ext_toutiao_feed_incr (f_id string,tagPb string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = ":key,data:tagPb" 
)TBLPROPERTIES ("hbase.table.name" = "toutiao_feed_incr");

hive> desc ext_toutiao_feed_incr;
OK
f_id                	string              	from deserializer   
tagpb               	string              	from deserializer

1）hbase檢視一條內容：檢視一條資料：

hbase(main):003:0> get 'toutiao_feed_incr',10000000570
COLUMN                         CELL                                                                                  
 data:tagPb                    timestamp=1482862346773, value=CLrMr6AlEg0KBuW5vOWEvxUEc6Q+Eg0KBuexu+WeixUB3qI+EiUKHue
                               bm+S4lumqhOmYs+iLseaWh+erpeiwo+Wkp+WFqBVf0gg/                                         
2 row(s) in 0.4400 seconds

2）hive上檢視一條資料：

hive> select * from ext_toutiao_feed_incr where f_id=10000000570;     
WARNING: Comparing a bigint and a string may result in a loss of precision.
Total jobs = 1
...
OK
10000000570	CLrMr6AlEg0KBuW5vOWEvxUEc6Q+Eg0KBuexu+WeixUB3qI+EiUKHuebm+S4lumqhOmYs+iLseaWh+erpeiwo+Wkp+WFqBVf0gg/
Time taken: 36.179 seconds, Fetched: 1 row(s)

3）使用java解該pb：

fid:10000000570,type:0,channels:[],tags:[{tag=幼兒, score=0.32119}, {tag=型別, score=0.3181}, {tag=盛世驕陽英文童謠大全, score=0.53446}]

2、使用udf執行結果：

add jar /home/qytt/ttbrain-log-manager-jar-with-dependencies.jar;
create temporary function udf_pb_lx as'com.abc.ttbrain.log.manager.hive.DecodePbUdf';

hive> select *,udf_pb_lx(tagpb) from ext_toutiao_feed_incr where f_id=10000000570;                         
WARNING: Comparing a bigint and a string may result in a loss of precision.
Total jobs = 1
...
OK
10000000570	CLrMr6AlEg0KBuW5vOWEvxUEc6Q+Eg0KBuexu+WeixUB3qI+EiUKHuebm+S4lumqhOmYs+iLseaWh+erpeiwo+Wkp+WFqBVf0gg/ fid:10000000570,type:0,channels:[],tags:[{tag=幼兒, score=0.32119}, {tag=型別, score=0.3181}, {tag=盛世驕陽英文童謠大全, score=0.53446}]

二、hbase中儲存的資料直接用pb生成二進位制：

1、在hive上建立外表，結構如下：

create external table ext_test (f_id string,tagPb BINARY,tag string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = ":key,data:tagPb,data:tagPb" 
)TBLPROPERTIES ("hbase.table.name" = "test_liu");

hive> desc ext_test;
OK
f_id                	string              	from deserializer   
tagpb               	binary              	from deserializer   
Time taken: 0.164 seconds, Fetched: 2 row(s)

1）在hbase上查詢：

hbase(main):037:0> scan 'test_liu'
ROW                            COLUMN+CELL                                                                           
 10000000570                   column=data:tagPb, timestamp=1491884382969, value=\x08\xBA\xCC\xAF\xA0%\x12\x0D\x0A\x0
                               6\xE5\xB9\xBC\xE5\x84\xBF\x15\x04s\xA4>\x12\x0D\x0A\x06\xE7\xB1\xBB\xE5\x9E\x8B\x15\x0
                               1\xDE\xA2>\x12%\x0A\x1E\xE7\x9B\x9B\xE4\xB8\x96\xE9\xAA\x84\xE9\x98\xB3\xE8\x8B\xB1\xE
                               6\x96\x87\xE7\xAB\xA5\xE8\xB0\xA3\xE5\xA4\xA7\xE5\x85\xA8\x15_\xD2\x08?               
1 row(s) in 0.0080 seconds

2）hive上檢視一條資料：

hive> select * from ext_test;
OK
10000000570    �̯�% 
幼兒s�> 
型別ޢ>%
盛世驕陽英文童謠大全_.?�̯�% 
幼兒s�> 
型別ޢ>%
盛世驕陽英文童謠大全_.?
Time taken: 0.11 seconds, Fetched: 1 row(s)

2、使用udf執行結果：

add jar /home/qytt/ttbrain-log-manager-jar-with-dependencies.jar;

create temporary function udf_pb_kevinliu as'com.abc.ttbrain.log.manager.hive.DecodePbUdf4Byte';

1）正常：

hive> select udf_pb_kevinliu(tagPb,'') from ext_test;

Total jobs = 1

...

Total MapReduce CPU Time Spent: 4 seconds 40 msec

fid:10000000570,type:0,channels:[],tags:[{tag=幼兒, score=0.32119}, {tag=型別, score=0.3181}, {tag=盛世驕陽英文童謠大全, score=0.53446}]

2）錯誤1：

hive> select udf_pb_kevinliu(tag) from ext_test;
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1490153150757_1824274, Tracking URL = http://hadoop-jy-resourcemanager01:8088/proxy/application_1490153150757_1824274/
Kill Command = /usr/lib/hadoop/bin/hadoop job  -kill job_1490153150757_1824274
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2017-04-11 15:41:17,541 Stage-1 map = 0%,  reduce = 0%
2017-04-11 15:41:29,747 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.51 sec
MapReduce Total cumulative CPU time: 3 seconds 510 msec
Ended Job = job_1490153150757_1824274
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 3.51 sec   HDFS Read: 278 HDFS Write: 21 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 510 msec
OK

3）錯誤2：

hive> select udf_pb_kevinliu(tagPb) from ext_test;
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments 'tagPb': No matching method for class com.abc.ttbrain.log.manager.hive.DecodePbUdf4Byte with (binary). Possible choices: _FUNC_(binary)  _FUNC_(binary, string)  _FUNC_(string)

3、總結：

hbase中是使用pb的二進位制直接寫入其中的，到hbase中的，在hive上建立外表，使用binary和string分別去對映hbase的列；發現問題：

1）string型別是無法對應hbase中pb二進位制寫入的資料；

2）binary型別，寫udf時必須要用兩個引數，一個引數會莫名其妙報錯，這可能是hive的一個bug。

所以，儘量對pb生成的二進位制做一次base64.

udf開發——解hive外表中的pb二進位制資料

目標：hbase中有一張表，為了提高儲存效率使用pb的二進位制方式儲存；現在hive上建了一個外表，需要寫一個udf解pb的二進位制資料。一、hbase中儲存的資料先用pb生成二進位制，轉成string後再使用base64編碼： 1、在hive中建立外表，結構如下：

往HIVE表中匯入匯出資料的幾種方式詳解

一：往HIVE表中匯入匯出資料語法結構:[ ]帶括號的表示可選擇欄位LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTOTABLE tablename

2018-11-13#Hive外表建立和載入資料

hive 關聯表和外表的區別： 1. 外部表需要external關鍵之，location是資料檔案預設存放位置，不管是不管是select 還是load的資料都存放在這裡。匯入資料到外部表，資料並沒有mv到資料倉庫目錄，而是在loacation目錄。 2.內部表建表時也能加上location,作用和外部表一

3dTiles 資料規範詳解[4.1] b3dm瓦片二進位制資料檔案結構

> 原創。轉載請規範註明出處：https://www.cnblogs.com/onsummer/p/13252896.html > 我的git地址：[github.com/onsummer](https://github.com/onsummer) B3dm，Batched 3D Model，成批量的三維模

3dTiles 資料規範詳解[4.2] i3dm瓦片二進位制資料檔案結構

i3dm，即 `Instanced 3D Model`，例項三維模型的意思。諸如樹木、路燈、路邊的垃圾桶、長椅等具有明顯 **重複** 特徵的資料。這類資料用得較少（笑，現在都喜歡搞BIM、傾斜攝影、精模、白模等） > 我的git地址：[github.com/onsummer](https://gith

UDF開發以及如何新增到HIVE中

自定義開發案例 1）建立一個java工程，並建立一個lib資料夾 2）將hive的jar包解壓後，將apache-hive-1.2.2-bin\lib檔案下的jar包都拷貝到java工程中。 3）建立一個類 package com.lzl.hive;

hive中UDF開發：解析json物件和解析json陣列物件

hive預設函式： +-------------------------------------------------------------------+ json +--------------

Hive中的UDF詳解

hive作為一個sql查詢引擎，自帶了一些基本的函式，比如`count`(計數)，`sum`(求和)，有時候這些基本函式滿足不了我們的需求，這時候就要寫`hive hdf(user defined funation)`，又叫使用者自定義函式。 # UDF 建立與使用步驟 - 繼承`org.apache.h

Hive中如何添加自定義UDF函數以及oozie中使用hive的自定義函數

步驟 strong 重啟一個文件夾 spa nlog hdfs share 直接來說操作步驟： 1. 修改.hiverc文件在hive的conf文件夾下面，如果沒有.hiverc文件，手工自己創建一個。參照如下格式添加： add jar /usr/loc

hive udf開發超詳細手把手教程(有些過時了)

mvn install 直接打包 maven打包上面程式碼測試通過以後，然後用maven打成jar包。如果是老司機，自然知道怎麼做。如果是新司機，我偷偷告訴大家，eclipse裡在專案上右擊，選擇 run as，然後maven install，maven就開始幫你打包了。如果是第一次，mave

Hive UDF開發例項

Hive UDF簡介： Hive UDF（Hive User-Defined Function）開發是在資料分析的時候如果內建的函式解析不了的情況下去做的開發，擴充套件HiveSQL功能的自定義函式。有兩種API：簡單API： org.apache.hadoop.hive

hive UDF 開發示例

一、建立一個java專案對應的pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xm

0011-如何在Hive & Impala中使用UDF

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.文件編寫目的本文件講述如何開發Hive自定義函式（UDF），以及如何在Impala中使用Hive的自定義函式，通過本文件，您將學習到以下知識： 1.如何使用Java開發Hive的自定義函式

spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與zip()函式詳解//及python中的args和**kwargs

（1）UDF的方式清理資料 import sys reload(sys) sys.setdefaultencoding('utf8') import re import json from pyspark.sql import SparkSession

R語言開發之平均值，中位數和眾數了解下

R中的統計分析通過使用許多內建函式來執行的，這些函式大部分是R基礎包的一部分，並且它們將R向量與引數一起作為輸入，並在執行計算後給出結果。先來看如何求平均值。平均值是通過取數值的總和併除以資料序列中的值的數量來計算，函式mean()用於在R中計算平均值，語法如下：

Hive UDF開發指南(轉）

編寫Apache Hive使用者自定義函式（UDF）有兩個不同的介面，一個非常簡單，另一個...就相對複雜點。如果你的函式讀和返回都是基礎資料型別（Hadoop&Hive 基本writable型別，如Text,IntWritable,LongWriable,D

Hive UDF開發指南

簡述編寫Apache Hive使用者自定義函式（UDF）有兩個不同的介面，一個非常簡單，另一個...就相對複雜點。如果你的函式讀和返回都是基礎資料型別（Hadoop&Hive 基本writable型別，如Text,IntWritable,LongWriable,

python實現Spark(Hive) SQL中UDF的使用

相對於使用MapReduce或者Spark Application的方式進行資料分析，使用Hive SQL或Spark SQL能為我們省去不少的程式碼工作量，而Hive SQL或Spark SQL本身內建的各類UDF也為我們的資料處理提供了不少便利的工具，當這些內建的UDF不

Hive 使用者自定義函式UDF詳解

本例自定義一個Hive UDF函式，功能是將從Hive資料倉庫查詢出來的字串進行大小寫轉換。第一步，建立java工程，新增jar包。 Ø匯入Hive的lib目錄下的jar包以及hadoop安裝目錄下的hadoop-core.jar 第二步，新建package包，包中新

unity3d開發的android應用中增加AD系統的詳細步驟

查看發的 b- sset @override 大小代碼 nac cal unity3d開發的android應用中增加AD系統的詳細步驟博客分類： Unity3d unity3d Unity3d已經支持android，怎樣在程序裏增加admob？

udf開發——解hive外表中的pb二進位制資料

相關推薦