sparksql on hive 自定義函式

阿新 • • 發佈：2021-04-05

編寫自定義函式程式碼

pom座標

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

程式碼

import org.apache.hadoop.hive.ql.exec.UDF;
/**
 * 自定義函式
 */
public class MyFunc extends UDF {
    public String evaluate(String value) {//函式計算邏輯
        return value + "傳入";
    }
}

編寫好之後打包上傳到伺服器中

進入spark-sql操作介面忽略出現的幾個警告

使用臨時方式註冊方法

新增jar到當前環境中

add jar /home/tools/project/data/udf.jar

建立臨時方法

create temporary function func as "com.MyFunc"

使用臨時方法進行資料查詢

select func(group1) from data_table limit 5;

刪除臨時方法

drop temporary function if exists func;

關鍵操作程式碼

add jar /home/tools/project/data/udf.jar
create temporary function func as "com.MyFunc"
select func(group1) from data_table limit 5;
drop temporary function if exists func

建立永久方法

create function func as 'com.MyFunc' using jar '/home/tools/jar/udf.jar';

sparksql on hive 自定義函式

編寫自定義函式程式碼 pom座標 <dependency> <groupId>org.apache.spark</groupId>

新增 Hive 自定義函式

使用 Java 編寫好 UDF 或 UDAF 函式後，Hive 要如何使用這些自定義函式呢？ 1 在 HDFS 上建立存放 jar 包的目錄

Hive 自定義函式

Hive的SQL可以通過使用者定義的函式（UDF），使用者定義的聚合（UDAF）和使用者定義的表函式（UDTF）進行擴充套件。

Hive---自定義函式

技術標籤：Hivehive資料庫大資料javahadoop Hive---自定義函式自定義UDF函式自定義UDTF函式

hive自定義函式

pom檔案 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId>

建立 hive 使用者自定義函式UDF

目錄1. 建立 Maven 工程2. 開發 Java 類整合 UDF3. 專案打包，並上傳到hive的lib目錄下4. 新增jar包重新命名 jar 包hive 客戶端新增 jar包5. 設定函式與我們的自定義函式關聯6. 使用自定義函式

hive 查詢語法 shell引數自定義函式

4. Hive 查詢語法 4.1. SELECT SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY