hive常見自定義函式
阿新 • • 發佈:2021-10-13
hive自定義函式
1 自定義函式
1.1 為什麼需要自定義函式
hive的內建函式滿足不了所有的業務需求。
hive提供很多的模組可以自定義功能,比如:自定義函式、serde、輸入輸出格式等。
1.2 常見自定義函式有哪些
- UDF:使用者自定義函式,user defined function。一對一的輸入輸出。(最常用的)。
- UDTF:使用者自定義表生成函式。user defined table-generate function.一對多的輸入輸出。lateral view explode
- UDAF:使用者自定義聚合函式。user defined aggregate function。多對一的輸入輸出 count sum max。
2 自定義函式實現
2.1 UDF格式
先在工程下新建一個pom.xml,加入以下maven的依賴包 請檢視code/pom.xml
定義UDF函式要注意下面幾點:
- 繼承
org.apache.hadoop.hive.ql.exec.UDF
- 重寫
evaluate
(),這個方法不是由介面定義的,因為它可接受的引數的個數,資料型別都是不確定的。Hive會檢查UDF,看能否找到和函式呼叫相匹配的evaluate()方法
2.1.1 自定義函式第一個案例
public class FirstUDF extends UDF {
public String evaluate(String str){
String upper = null;
//1、檢查輸入引數
if (StringUtils.isEmpty(str)){
} else {
upper = str.toUpperCase();
}
return upper;
}
//除錯自定義函式
public static void main(String[] args){
System.out.println(new firstUDF().evaluate("jiajingwen"));
}
}
2.2 函式載入方式
2.2.1 命令載入
這種載入只對本session有效
# 1、將編寫的udf的jar包上傳到伺服器上,並且將jar包新增到hive的class path中 # 進入到hive客戶端,執行下面命令 add jar /hivedata/udf.jar # 2、建立一個臨時函式名,要跟上面hive在同一個session裡面: create temporary function toUP as 'com.qf.hive.FirstUDF'; 3、檢查函式是否建立成功 show functions; 4. 測試功能 select toUp('abcdef'); 5. 刪除函式 drop temporary function if exists tolow;
2.2.2 啟動引數載入
(也是在本session有效,臨時函式)
1、將編寫的udf的jar包上傳到伺服器上
2、建立配置檔案
vi ./hive-init
add jar /hivedata/udf.jar;
create temporary function toup as 'com.qf.hive.FirstUDF';
# 3、啟動hive的時候帶上初始化檔案:
hive -i ./hive-init
select toup('abcdef')
2.2.3 配置檔案載入
通過配置檔案方式這種只要用hive命令列啟動都會載入函式
1、將編寫的udf的jar包上傳到伺服器上
2、在hive的安裝目錄的bin目錄下建立一個配置檔案,檔名:.hiverc
vi ./bin/.hiverc
add jar /hivedata/udf.jar;
create temporary function toup as 'com.qf.hive.FirstUDF';
3、啟動hive
hive
2.3 UDTF格式
UDTF是一對多的輸入輸出,實現UDTF需要完成下面步驟
- 繼承
org.apache.hadoop.hive.ql.udf.generic.GenericUDF
, - 重寫initlizer()、getdisplay()、evaluate()。
執行流程如下:
UDTF首先會呼叫initialize方法,此方法返回UDTF的返回行的資訊(返回個數,型別)。
初始化完成後,會呼叫process方法,真正的處理過程在process函式中,在process中,每一次forward()呼叫產生一行;如果產生多列可以將多個列的值放在一個數組中,然後將該陣列傳入到forward()函式。
最後close()方法呼叫,對需要清理的方法進行清理。
2.3.1 需求:
把"k1:v1;k2:v2;k3:v3"類似的的字串解析成每一行多行,每一行按照key:value格式輸出
2.3.2 原始碼
自定義函式如下:
package com.qf.hive;
public class ParseMapUDTF extends GenericUDTF{
@Override
public void close() throws HiveException {
}
@Override
public StructObjectInspector initialize(ObjectInspector[] args)
throws UDFArgumentException {
if (args.length != 1) {
throw new UDFArgumentLengthException(" 只能傳入一個引數");
}
ArrayList<String> fieldNameList = new ArrayList<String>();
ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
fieldNameList.add("map");
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
fieldNameList.add("key");
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);
}
@Override
public void process(Object[] args) throws HiveException {
String input = args[].toString();
String[] paramString = input.split(";");
for(int i=; i<paramString.