hive中UDF和UDAF使用說明

阿新 • • 發佈：2019-02-15

Hive進行UDF開發十分簡單，此處所說UDF為Temporary的function，所以需要hive版本在0.4.0以上才可以。

一、背景：Hive是基於Hadoop中的MapReduce，提供HQL查詢的資料倉庫。Hive是一個很開放的系統，很多內容都支援使用者定製，包括：

a）檔案格式：Text File，Sequence File

b）記憶體中的資料格式： Java Integer/String, Hadoop IntWritable/Text

c）使用者提供的 map/reduce 指令碼：不管什麼語言，利用 stdin/stdout 傳輸資料

d）使用者自定義函式: Substr, Trim, 1 – 1

e）使用者自定義聚合函式: Sum, Average…… n – 1

2、定義：UDF(User-Defined-Function)，使用者自定義函式對資料進行處理。

二、用法

1、UDF函式可以直接應用於select語句，對查詢結構做格式化處理後，再輸出內容。

2、編寫UDF函式的時候需要注意一下幾點：

a）自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF。

b）需要實現evaluate函。

c）evaluate函式支援過載。

3、以下是兩個數求和函式的UDF。evaluate函式代表兩個整型資料相加，兩個浮點型資料相加，可變長資料相加

Hive的UDF

開發只需要重構UDF類的evaluate函式即可。例：

package hive.connect;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class Add extends UDF {

public Integer evaluate(Integer a, Integer b) {

if (null == a || null == b) {

return null;

} return a + b;

}

public Double evaluate(Double a, Double b) {

if (a == null || b == null)

return null;

return a + b;

}

public Integer evaluate(Integer... a) {

int total = 0;

for (int i = 0; i < a.length; i++)

if (a[i] != null)

total += a[i];

return total;

}

4、步驟

a）把程式打包放到目標機器上去；

b）進入hive客戶端，新增jar包：hive>add jar /run/jar/udf_test.jar;

c）建立臨時函式：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）查詢HQL語句：

SELECT add_example(8, 9) FROM scores;

SELECT add_example(scores.math, scores.art) FROM scores;

SELECT add_example(6, 7, 8, 6.8) FROM scores;

e）銷燬臨時函式：hive> DROP TEMPORARY FUNCTION add_example;

5、細節在使用UDF的時候，會自動進行型別轉換，例如：

SELECT add_example(8,9.1) FROM scores;

注：

1.UDF只能實現一進一出的操作，如果需要實現多進一出，則需要實現UDAF

下面來看下UDAF：

（二）、UDAF

1、Hive查詢資料時，有些聚類函式在HQL沒有自帶，需要使用者自定義實現。

2、使用者自定義聚合函式: Sum, Average…… n – 1

UDAF（User- Defined Aggregation Funcation）

一、用法

1、一下兩個包是必須的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator。

2、函式類需要繼承UDAF類，內部類Evaluator實UDAFEvaluator介面。

3、Evaluator需要實現 init、iterate、terminatePartial、merge、terminate這幾個函式。

a）init函式實現介面UDAFEvaluator的init函式。

b）iterate接收傳入的引數，並進行內部的輪轉。其返回型別為boolean。

c）terminatePartial無引數，其為iterate函式輪轉結束後，返回輪轉資料，terminatePartial類似於hadoop的Combiner。

d）merge接收terminatePartial的返回結果，進行資料merge操作，其返回型別為boolean。

e）terminate返回最終的聚集函式結果。

package hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class Avg extends UDAF {

public static class AvgState {

private long mCount;

private double mSum;

}

public static class AvgEvaluator implements UDAFEvaluator {

AvgState state;

public AvgEvaluator() {

super();

state = new AvgState();

init();

}

/** * init函式類似於建構函式，用於UDAF的初始化 */

public void init() {

state.mSum = 0;

state.mCount = 0;

}

/** * iterate接收傳入的引數，並進行內部的輪轉。其返回型別為boolean * * @param o * @return */

public boolean iterate(Double o) {

if (o != null) {

state.mSum += o;

state.mCount++;

} return true;

}

/** * terminatePartial無引數，其為iterate函式輪轉結束後，返回輪轉資料， * terminatePartial類似於hadoop的Combiner * * @return */

public AvgState terminatePartial() {

// combiner

return state.mCount == 0 ? null : state;

}

/** * merge接收terminatePartial的返回結果，進行資料merge操作，其返回型別為boolean * * @param o * @return */

public boolean terminatePartial(Double o) {

if (o != null) {

state.mCount += o.mCount;

state.mSum += o.mSum;

}

return true;

}

/** * terminate返回最終的聚集函式結果 * * @return */

public Double terminate() {

return state.mCount == 0 ? null : Double.valueOf(state.mSum / state.mCount);

}

5、執行求平均數函式的步驟

a）將java檔案編譯成Avg_test.jar。

b）進入hive客戶端新增jar包：

hive>add jar /run/jar/Avg_test.jar。

c）建立臨時函式：

hive>create temporary function avg_test 'hive.udaf.Avg';

d）查詢語句：

hive>select avg_test(scores.math) from scores;

e）銷燬臨時函式：

hive>drop temporary function avg_test;

五、總結

1、過載evaluate函式。

2、UDF函式中引數型別可以為Writable，也可為java中的基本資料物件。

3、UDF支援變長的引數。

4、Hive支援隱式型別轉換。

5、客戶端退出時，建立的臨時函式自動銷燬。

6、evaluate函式必須要返回型別值，空的話返回null，不能為void型別。

7、UDF是基於單條記錄的列進行的計算操作，而UDFA則是使用者自定義的聚類函式，是基於表的所有記錄進行的計算操作。

8、UDF和UDAF都可以過載。

9、檢視函式

SHOW FUNCTIONS;
DESCRIBE FUNCTION <function_name>;

Hive中UDF和UDAF的使用

UDF使用者自定義函式（user defined function)–針對單條記錄。建立函式流程 1、自定義一個Java類2、繼承UDF類 3、重寫evaluate方法 4、打成jar包 6、在hive執行add jar方法7、在hive執行建立模板函式 8、hql中使用D

hive中UDF和UDAF使用說明

Hive進行UDF開發十分簡單，此處所說UDF為Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基於Hadoop中的MapReduce，提供HQL查詢的資料倉庫。Hive是一個很開放的系統，很多內容都支援使用者定製，包括

hive中UDF、UDAF和UDTF使用

Hive進行UDF開發十分簡單，此處所說UDF為Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基於Hadoop中的MapReduce，提供HQL查詢的資料倉庫。Hive是一個很開放的系統，很多內容都支援使用者定製，包

SparkSQL中UDF和UDAF

UDF: User Defined Function，使用者自定義的函式，函式的輸入是一條具體的資料記錄，實現上講就是普通的Scala函式； UDAF：User Defined Aggregation Function，使用者自定義的聚合函式，函式本身作用於資料集合，能夠在

hive中UDF開發：解析json物件和解析json陣列物件

hive預設函式： +-------------------------------------------------------------------+ json +--------------

SparkSQL之自定義函式UDF和UDAF

SparkSQL中有兩種自定函式，在我們使用自帶的函式時無法滿足自己的需求時，可以使用自定義函式，SparkSQL中有兩種自定義函式，一種是UDF，另一種是UDAF，和Hive 很類似，但是hive中還有UDTF,一進多出，但是sparkSQL中沒有，這是因為spark中用 flatMap這

第72課：Spark SQL UDF和UDAF解密與實戰

內容： 1.SparkSQL UDF 2.SparkSQL UDAF 一、SparkSQL UDF和SparkSQL UDAF 1.解決SparkSQL內建函式不足問題，自定義內建函式， 2.UDF：User Define Functio

Spark 2.4.0程式設計指南--Spark SQL UDF和UDAF

Spark 2.4.0程式設計指南–Spark SQL UDF和UDAF 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程

hive中if和coalesce 去除null值,case when

ref http://blog.csdn.net/mtj66/article/details/52629876 ###################################### if usage select * from (select *,if (b.nam

HIVE中LIKE和RLIKE的區別

看書的過程中發現hive有兩個用於通配的操作符，LIKE和RLIKE，查了些資料總結一點二者的區別 LIKE 語法格式為A [NOT] LIKE B，B是sql下的簡單正則表示式，也叫萬用字元模式，如_匹配一個字元，%可以匹配任意多個字元，A會對錶達式B做匹

hive中null和'','NULL'

說下hive中的null。 employee表 hive>desc employee; empid string deptid string salary string 查詢employee hive>select * from employee 1

Hive中distinct和Group by效率對比及處理方式

select res.flag AS flag ,res.source AS source ,res.template AS template ,SUM(res.click_user)

十八、Hive 中UDF程式設計

依據課程中講解的如何自定義UDF，進行案例編寫，進行總結步驟，並完成額外需求，具體說明如下：1）依據課程講解UDF程式設計案例，完成練習，總結開發UDF步驟，程式碼貼圖，給予註釋，重點在於

Hive中建立和呼叫儲存過程及自定義函式

前面的文章《在Hive中實現儲存過程–HQL/SQL》中介紹瞭如何使用HPL/SQL在Hive中實現儲存過程，執行類似Oracle PL/SQL的功能。一般的業務場景是資料開發人員開發好一個儲存過程，然後週期性的呼叫，傳入不同的引數即可。本文繼續介紹如何在Hive中利

【hive 日期轉換】Hive中yyyymmdd和yyyy-mm-dd日期之間的切換

方法1: from_unixtime+ unix_timestamp --20171205轉成2017-12-05 select from_unixtime(unix_timestamp('20171

大資料技術學習筆記之hive框架基礎2-hive中常用DML和UDF和連線介面使用

一、分割槽表的介紹及使用 -》需求：統計每一天的PV，UV，每一天分析前一天的資料 -》第一種情況：每天的日誌儲存在同一個目錄中 &nbs

Hive：自定義函式之UDF，UDAF和UDTF

hive允許使用者使用自定義函式解決hive 自帶函式無法處理的邏輯。hive自定義函式只在當前執行緒內臨時有效，可以使用shell指令碼呼叫執行hive命令。 UDF 輸入一行資料輸出一行資料。解決問題描述想要比較兩個逗號分隔的字串是否相同。 -使用方法如果

ubuntu中taglist和ctags安裝，簡單明了

vim配置文件 vim配置 eight ubun pos share 簡單 popu one 1.使用命令安裝ctags： sudo apt-get install ctags 2.安裝taglist 下載： http://vim.sourceforge.net/s

Hive中如何添加自定義UDF函數以及oozie中使用hive的自定義函數

步驟 strong 重啟一個文件夾 spa nlog hdfs share 直接來說操作步驟： 1. 修改.hiverc文件在hive的conf文件夾下面，如果沒有.hiverc文件，手工自己創建一個。參照如下格式添加： add jar /usr/loc

hive使用技巧：把很多小檔案匯入一張表中、顯示在檔案中位置和行數等。

1.使用MSCK命令匯入輸入到hive表我們有時候會遇到很多小檔案需要匯入到一張hive表裡面，但是一個個匯入非常麻煩。假設建立一個外部表，這個表在hdfs的order資料夾裡，但是這個資料夾現在是空的。所以用select * 是沒有資料的。 CREATE EXTERNAL TABL

hive中UDF和UDAF使用說明

相關推薦