Hive(15):自定義UDF

阿新 • • 發佈：2018-11-12

一、使用者自定義函式分類

   1.UDF 使用者自定義格式轉化函式（一條資料輸入，一條資料輸出）
   2.udaf 使用者自定義聚合函式（多條資料輸入，一條資料輸出）
   3.udtf 使用者自定義**函式（一條資料輸入，多條資料輸出）

二、開發Java程式碼

1.新增pom依賴

   <dependency>  
      <groupId>org.apache.hadoop</groupId>  
      <artifactId>hadoop-client</artifactId>  
      <version>2.7.3</version>  
   </dependency> 
	<!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
	<dependency>
	    <groupId>org.apache.hive</groupId>
	    <artifactId>hive-exec</artifactId>
	    <version>1.2.1</version>
	</dependency>
		<!-- Hive Client -->
	<dependency>
	    <groupId>org.apache.hive</groupId>
	    <artifactId>hive-jdbc</artifactId>
	    <version>1.2.1</version>
	</dependency>

2.java程式碼

package com.ibeifeng.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

/**
 * 自定義函式
 */
public class TestHiveUDF_22 extends UDF {

	public Text evaluate(Text str,IntWritable flag){
		String value=str.toString();
		if(flag.get()==0){
			return new Text(value.toLowerCase());
		}else if(flag.get()==1) {
			return new Text(value.toUpperCase());
		}else {
			return new Text("flag引數異常");
		}
	
	}
	
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		System.out.println(new TestHiveUDF_22().evaluate(new Text("HAasd1OP"),new IntWritable(0)));
	}
}

3.Myeclipse打jar包

（1）選擇制定類檔案，右鍵-》Export

（2）然後配置如下

（3）然後其他預設，finish結束

E:\Tools\WorkspaceforMyeclipse\JarPackage下面找到Hive_udf_2.jar

4.將自定義jar包與hive進行關聯

（1）新增打的jar包

add jar /opt/datas/Hive_udf_2.jar;
結果：
Added [/opt/datas/Hive_udf_2.jar] to class path
Added resources: [/opt/datas/Hive_udf_2.jar]

（2）建立函式方法

//在java檔案中，右鍵自己的class名稱，選擇copy qualified Name獲得路徑'com.ibeifeng.hive.udf.TestHiveUDF_22',如下圖

然後，建立函式

create temporary function my_udf as 'com.ibeifeng.hive.udf.TestHiveUDF_22';

（3）使用

select ename, my_udf(ename,0) low_ename from emp;
結果：
ename   low_ename
SMITH   smith
ALLEN   allen
WARD    ward
JONES   jones
MARTIN  martin
BLAKE   blake
CLARK   clark
SCOTT   scott
KING    king
TURNER  turner
ADAMS   adams
JAMES   james
FORD    ford
MILLER  miller

（4）建立永久udf

需要把jar包上傳到hdfs上，然後就可以
-》上傳

dfs -put /opt/datas/Hive_udf_2.jar /;

-》載入

create function my_udf_hdfs as 'com.ibeifeng.hive.udf.TestHiveUDF_22' using jar 'hdfs://bigdata.ibeifeng.com:8020/Hive_udf_2.jar';

-》關閉hive客戶端
-》重新開啟hive

bin/hive

-》執行

select ename, my_udf_hdfs(ename,0) low_ename from emp;
成功：
ename   low_ename
SMITH   smith
ALLEN   allen
WARD    ward
JONES   jones
MARTIN  martin
BLAKE   blake
CLARK   clark
SCOTT   scott
KING    king
TURNER  turner
ADAMS   adams
JAMES   james
FORD    ford
MILLER  miller

Hive(15):自定義UDF

一、使用者自定義函式分類 1.UDF 使用者自定義格式轉化函式（一條資料輸入，一條資料輸出） 2.udaf 使用者自定義聚合函式（多條資料輸入，一條資料輸出） 3.udtf 使用者自

hive筆記-自定義UDF

1、定義自己的UDF函式package com.hihi.hive; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class HelloWord

Hive中如何添加自定義UDF函數以及oozie中使用hive的自定義函數

步驟 strong 重啟一個文件夾 spa nlog hdfs share 直接來說操作步驟： 1. 修改.hiverc文件在hive的conf文件夾下面，如果沒有.hiverc文件，手工自己創建一個。參照如下格式添加： add jar /usr/loc

Hive資料型別、 explode、自定義UDF

Hive資料型別、 explode、自定義UDF 一、基本型別二、複雜型別三、陣列型別 array 　　案例一、　　元資料：　　　100,200,300 　　　200,300,500 　　建表語句：create external table ex(vals array) ro

UDF打成jar包並新增為Hive的自定義函式

好文章參考：https://blog.csdn.net/zwjzqqb/article/details/79042636，寫的很詳細。廢話不多數，具體步驟 1. 先把java專案轉化一下成maven專案（1）在專案上右擊, 選擇 configure ->Con

Hive：自定義函式之UDF，UDAF和UDTF

hive允許使用者使用自定義函式解決hive 自帶函式無法處理的邏輯。hive自定義函式只在當前執行緒內臨時有效，可以使用shell指令碼呼叫執行hive命令。 UDF 輸入一行資料輸出一行資料。解決問題描述想要比較兩個逗號分隔的字串是否相同。 -使用方法如果

hive----自定義UDF 函式-----時間格式化以及取出雙引號的程式碼

一.UDF的描述使用者自定義函式(UDF)是一個允許使用者擴充套件HiveQL的強大的功能。使用者可以使用Java編寫自己的UDF，一旦將使用者自定義函式加入到使用者會話中(互動式的或者通過指令碼執行的)，它們就將和內建的函式一樣使用，甚至可以提供聯機幫助。

hive 自定義udf函式

上一篇中介紹到了一些hive 中一些預設的function 但是在日常的開發需求中這個肯定是滿足不了我們的，下面介紹一下hive 的自定義function 廢話不多少了先寫個簡單的例子壓壓驚首先給出工程依賴 <dependencies> <depen

Java 呼叫Hive 自定義UDF

Hive 具有一個可選的元件叫做HiveServer,它允許通過在一定的埠訪問Hive. 將自定義的UDF的jar拷貝到安裝的hive伺服器中（如 /home/hadoop下）具體的不囉嗦了，看程式碼吧！、 package com.hive.client; impor

Hive自定義UDF函式--常用的工具類

註冊函式：將自定義函式打成jar包，上傳hdfs$hive>create function formattime as 'com.air.udf.FormatTimeUDF' using jar 'hdfs://mycluster/user/centos/air-hiv

hive自定義UDF函式

一、自定義函式流程要想在Hive中完成自定義函式的操作，要按照如下的流程進行操作：定義Java類並實現org.apache.hadoop.hive.ql.exec.UDF——>覆寫evaluate——>將Java工程上傳到Hive所在伺服器(我這裡是Cen

Hive 使用者自定義函式UDF詳解

本例自定義一個Hive UDF函式，功能是將從Hive資料倉庫查詢出來的字串進行大小寫轉換。第一步，建立java工程，新增jar包。 Ø匯入Hive的lib目錄下的jar包以及hadoop安裝目錄下的hadoop-core.jar 第二步，新建package包，包中新

spark自定義udf輸入類型為array報錯

定義 true 輸入 ref sca use oot lec 兩個定義udf如下 val list2string = udf { (style: Array[String], num: Array[Long]) => style.zip(num).map(t

Hadoop生態圈-hive編寫自定義函數

微信小程式--15自定義元件

關於自定義元件有兩個知識點需要說一下： 1.子元件向父元件傳引數在子元件內部，這樣觸發事件，傳遞引數在父元件內部這樣接收引數 2. 父元件向子元件傳引數在父元件這裡定義一個now-in 在子元件這裡引入這樣的話，nowIn就相當於data裡

hive中自定義函式及自定義json字串解析函式

hive中如何定義自己的函式寫一個Java 程式，實現想要的函式功能 1.匯入hive安裝目錄的lib目錄的包 2新建一個類繼承 UDF類 3.過載父類中evaluate方法； 4.寫下自己的邏輯 package test; import

使用idea 構建hive的自定義函式，無法打包成jar包的問題解決

在昨天晚上遇到了用idea 打包自己的自定義函式成jar，怎麼都不行，翻查了很多部落格，發現CSDN上很多部落格都存在問題，而且還搜到很多部落格錯的一樣，但是博主名字不一樣的情況，差點把我心態搞崩。這是當時遇到的問題，還有一個問題是在hive裡面根據這個jar包建立函式的時候，還

Presto-自定義UDF例項(標量函式)

背景介紹這篇文章主要說明一下關於Presto中UDF的開發。這個例項中的自定方法的邏輯很簡單,只是傳如一個字串,然後在字串前面拼裝一個Hello,只是為了說明如何去自己實現一個Scalar Function。下面是具體步驟及程式碼 1.建立Maven工程 p

Hive(9)-自定義函式

一. 自定義函式分類當Hive提供的內建函式無法滿足你的業務處理需要時，此時就可以考慮使用使用者自定義函式. 根據使用者自定義函式類別分為以下三種： 1. UDF（User-Defined-Function）一進一出 2. UDAF（User-Defined Aggregation Fu

自定義UDF函式：將漢字轉換成拼音

工作需求要講漢字轉換成拼音，自定義UDF函式import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin4j.f

Hive(15):自定義UDF

一、使用者自定義函式分類

二、開發Java程式碼

1.新增pom依賴

2.java程式碼

3.Myeclipse打jar包

4.將自定義jar包與hive進行關聯

相關推薦