Spark(十三)【SparkSQL自定義UDF/UDAF函式】

阿新 • • 發佈：2020-08-13

一.UDF(一進一出)
二.UDAF(多近一出)
- spark2.X 實現方式
- spark3.X實現方式

一.UDF(一進一出)

步驟

① 註冊UDF函式，可以使用匿名函式。

② 在sql查詢的時候使用自定義的UDF。

示例

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * @description: UDF一進一出
 * @author: HaoWu
 * @create: 2020年08月09日
 */
object UDF_Test {
  def main(args: Array[String]): Unit = {
    //建立SparkSession
    val session: SparkSession = SparkSession.builder
      .master("local[*]")
      .appName("MyApp")
      .getOrCreate()
    //註冊UDF
    session.udf.register("addHello",(name:String) => "hello:"+name)
    //讀取json格式檔案{"name":"zhangsan","age":20}，建立DataFrame
    val df: DataFrame = session.read.json("input/1.txt")
    //建立臨時檢視：person
    df.createOrReplaceTempView("person")
    //查詢的時候使用UDF
    session.sql(
      """select
        |addHello(name),
        |age
        |from person
        |""".stripMargin).show
  }
}

結果

|addHello(name)|age|
+--------------+---+
|hello:zhangsan| 20|
|    hello:lisi| 30|
+--------------+---+

二.UDAF(多近一出)

spark2.X 實現方式

2.X版本：UserDefinedAggregateFunction 無型別或弱型別

步驟：

①繼承UserDefinedAggregateFunction，實現其中的方法

②建立函式物件，註冊函式，在sql中使用

    //建立UDFA物件
    val avgDemo1: Avg_UDAF_Demo1 = new Avg_UDAF_Demo1
    //在spark中註冊聚合函式
    spark.udf.register("ageDemo1", avgDemo1)

案例

需求：實現avg()聚合函式的功能，要求結果是Double型別

程式碼實現

①繼承UserDefinedAggregateFunction，實現其中的方法

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DoubleType, IntegerType, LongType, StructField, StructType}

/**
 * @description: UDAF(多近一出):求age的平均值
 *              2.X 版本繼承UserDefinedAggregateFunction類，弱型別
 *               非常類似累加器，aggregateByKey運算元的操作，有個ZeroValue，不斷將輸入的值做歸約操作，然後再賦值給ZeroValue
 * @author: HaoWu
 * @create: 2020年08月08日
 */
class Avg_UDAF_Demo1 extends UserDefinedAggregateFunction {
  //聚合函式輸入引數的資料型別，
  override def inputSchema = StructType(StructField("age", LongType) :: Nil)

  //聚合函式緩衝區中值的資料型別(sum,count)
  override def bufferSchema = StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)

  //函式返回值的資料型別
  override def dataType = DoubleType

  //穩定性：對於相同的輸入是否一直返回相同的輸出，一般都是true
  override def deterministic = true

  //函式緩衝區初始化，就是ZeroValue清空
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    //快取區看做一個數組，將每個元素置空
    //sum
    buffer(0) = 0L
    //count
    buffer(1) = 0L

  }
  //更新緩衝區中的資料->將輸入的值和快取區資料合併
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    //input是Row型別，通過getXXX(索引值)取資料
    if (!input.isNullAt(0)) {
      val age = input.getLong(0)
      buffer(0) = buffer.getLong(0) + age
      buffer(1) = buffer.getLong(1) + 1
    }
  }
  //合併緩衝區 (sum1,count1) + (sum2,count2) 合併
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }
  //計算最終結果
  override def evaluate(buffer: Row) = buffer.getLong(0).toDouble/buffer.getLong(1)
}

②建立函式物件，註冊函式，在sql中使用

/**
 * @description: 實現集合函式avg的功能
 * @author: HaoWu
 * @create: 2020年08月13日
 */
object UDAF_Test {
  def main(args: Array[String]): Unit = {
    
    //建立SparkSession
    val spark: SparkSession = SparkSession.builder
      .master("local[*]")
      .appName("MyApp")
      .getOrCreate()
    //讀取json格式檔案{"name":"zhangsan","age":20}
    val df: DataFrame = spark.read.json("input/1.txt")
    //建立臨時檢視：person
    df.createOrReplaceTempView("person")
    //建立UDFA物件
    val avgDemo1: Avg_UDAF_Demo1 = new Avg_UDAF_Demo1
    //在spark中註冊聚合函式
    spark.udf.register("ageDemo1", avgDemo1)
    //查詢的時候使用UDF
    spark.sql(
      """select
        |ageDemo1(age)
        |from person
        |""".stripMargin).show
  }
}

spark3.X實現方式

3.x版本：認為2.X繼承UserDefinedAggregateFunction的方式過時，推薦繼承Aggregator ，是強型別

步驟：

①繼承Aggregator [-IN, BUF, OUT]，宣告泛型，實現其中的方法

    abstract class Aggregator[-IN, BUF, OUT]  
        IN: 輸入的型別      
        BUF：  緩衝區型別     
        OUT: 輸出的型別

②建立函式物件，註冊函式，在sql中使用

    //建立UDFA物件
    val avgDemo2: Avg_UDAF_Demo2 = new Avg_UDAF_Demo2
    //在spark中註冊聚合函式
    spark.udf.register("myAvg",functions.udaf(avgDemo2))

注意：2.X和3.X的註冊方式不同

案例

需求：實現avg()聚合函式的功能，要求結果是Double型別

程式碼實現

①繼承Aggregator [-IN, BUF, OUT]，宣告泛型，實現其中的方法

其中緩衝區資料用樣例類進行封裝。

MyBuffer類

/**
 * 定義MyBuffer樣例類
 * @param sum  組資料sum和
 * @param count  組的資料個數
 */
case class MyBuffer(var sum: Long, var count: Long)

自定義UDAF函式

import org.apache.spark.sql.Encoders
import org.apache.spark.sql.expressions.Aggregator

/**
 * @description: UDAF(多近一出):求age的平均值
 *              3.X Aggregator，強型別
 *               非常類似累加器，aggregateByKey運算元的操作，有個ZeroValue，不斷將輸入的值做歸約操作，然後再賦值給ZeroValue
 * @author: HaoWu
 * @create: 2020年08月08日
 */
class Avg_UDAF_Demo2 extends Aggregator[Long, MyBuffer, Double] {
  //函式緩衝區初始化，就是ZeroValue清空
  override def zero = MyBuffer(0L, 0L)

  //將輸入的值和快取區資料合併
  override def reduce(b: MyBuffer, a: Long) = {
    b.sum = b.sum + a
    b.count = b.count + 1
    b
  }

  //合併緩衝區
  override def merge(b1: MyBuffer, b2: MyBuffer) = {
    b1.sum = b1.sum + b2.sum
    b1.count = b1.count + b2.count
    b1
  }

  //計算最終結果
  override def finish(reduction: MyBuffer) = reduction.sum.toDouble / reduction.count

  /* scala中
     常見的資料型別： Encoders.scalaXXX
     自定義的型別：ExpressionEncoder[T]() 返回 Encoder[T]
     樣例類(都是Product型別)： Encoders.product[T]，返回Produce型別的Encoder!
                                            */
  //快取區的Encoder型別
  override def bufferEncoder = Encoders.product[MyBuffer]

  //輸出結果的Encoder型別
  override def outputEncoder = Encoders.scalaDouble
}

②建立函式物件，註冊函式，在sql中使用

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.{DataFrame, Row, SparkSession, functions}

/**
 * @description: 實現集合函式avg的功能
 * @author: HaoWu
 * @create: 2020年08月13日
 */
object UDAF_Test {
  def main(args: Array[String]): Unit = {

    //建立SparkSession
    val spark: SparkSession = SparkSession.builder
      .master("local[*]")
      .appName("MyApp")
      .getOrCreate()
    //讀取json格式檔案{"name":"zhangsan","age":20}
    val df: DataFrame = spark.read.json("input/1.txt")
    //建立臨時檢視：person
    df.createOrReplaceTempView("person")
    //建立UDFA物件
    val avgDemo2: Avg_UDAF_Demo2 = new Avg_UDAF_Demo2
    //在spark中註冊聚合函式
    spark.udf.register("myAvg",functions.udaf(avgDemo2))
    //查詢的時候使用UDF
    spark.sql(
      """select
        |myAvg(age)
        |from person
        |""".stripMargin).show
  }
}

Spark(十三)【SparkSQL自定義UDF/UDAF函式】

目錄一.UDF(一進一出)二.UDAF(多近一出)spark2.X 實現方式案例①繼承UserDefinedAggregateFunction，實現其中的方法②建立函式物件，註冊函式，在sql中使用spark3.X實現方式案例①繼承Aggregator [-IN, BUF, OUT]，宣

SparkSQL重點知識之自定義UDF函式

技術標籤：Spark 簡介: 無論Hive還是SparkSQL分析處理資料時，往往需要使用函式，SparkSQL模組本身自帶很多實現公共功能的函式，在org.apache.spark.sql.functions中。SparkSQL與Hive一樣支援定義函式：UDF和UDA

【Abp VNext】實戰入門（十三）：自定義專案所需種子資料

技術標籤：ABP.net coreabp vnextc#種子資料初始化前言：專案開發過程中難免會涉及到一些業務相關的基礎資料，我們稱之為種子資料，主要為了方便測試功能或者展示效果；

hive 自定義UDF （轉）

（轉自）https://www.cnblogs.com/yfb918/p/10644262.html hive之Json解析(普通Json和Json陣列) 一、資料準備

presto自定義UDF函式

技術標籤：prestoprestoudf 以大小寫轉換為例寫個外掛 public class PrestoUdfPlugin implements Plugin {

Redis分散式鎖解決微服務環境下定時任務問題【Aop+自定義註解實現】

技術標籤：Java開發經驗積累redisjava定時任務分散式鎖微服務一、場景定時任務，有過專案經歷的開發者估計都不陌生，是實現一些定時執行重複操作需求的常見解決方案。

Spark(二十一)【SparkSQL讀取Kudu，寫入Kafka】

目錄SparkSQL讀取Kudu,寫出到Kafka1. pom.xml 依賴2.將KafkaProducer利用lazy val的方式進行包裝, 建立KafkaSink3.利用廣播變數，將KafkaProducer廣播到每一個executor

sqprk叢集上使用自定義udf函式，出現無法序列化的錯誤

在spark叢集上，將讀取到的csv檔案生成的datafream，需要對其中一列進行轉化，內建的udf函式已經不能滿足需求

微信公眾號訂閱模板【傳送自定義模板以及模板點選跳轉新頁面】

嗯。。。已經好久沒寫部落格了，主要是今年一波三折，還好現在穩定下來。記錄下微信的一些東西吧！string.format可以簡寫成$ 有需要的同學們！！

【第3版emWin教程】第55章 emWin6.x按鈕Button控制元件自定義回撥函式，實現各種按鈕效果

教程不斷更新中：http://www.armbbs.cn/forum.php?mod=viewthread&tid=98429 第55章 emWin6.x按鈕Button控制元件自定義回撥函式，實現各種按鈕效果

Java使用自定義註解實現函式測試功能示例

本文例項講述了Java使用自定義註解實現函式測試功能。分享給大家供大家參考，具體如下：

Oracle自定義脫敏函式的程式碼詳解

對於資訊保安有要求的，在資料下發和同步過程中需要對含有使用者身份資訊的敏感欄位脫敏，包括使用者姓名、證件號、地址等等，下面是自定義函式的程式碼

keras自定義回撥函式檢視訓練的loss和accuracy方式

前言： keras是一個十分便捷的開發框架，為了更好的追蹤網路訓練過程中的損失函式loss和準確率accuracy，我們有幾種處理方式，第一種是直接通過 history=model.fit()，來返回一個history物件，通過這個物件可以訪問到

keras 自定義loss損失函式,sample在loss上的加權和metric詳解

首先辨析一下概念： 1. loss是整體網路進行優化的目標，是需要參與到優化運算，更新權值W的過程的

Keras之自定義損失(loss)函式用法說明

在Keras中可以自定義損失函式，在自定義損失函式的過程中需要注意的一點是，損失函式的引數形式，這一點在Keras中是固定的，須如下形式：

使用Keras載入含有自定義層或函式的模型操作

當我們匯入的模型含有自定義層或者自定義函式時，需要使用custom_objects來指定目標層或目標函式。

Spark(七)【RDD的持久化Cache和CheckPoint】

RDD的持久化 1. RDD Cache快取 RDD通過Cache或者Persist方法將前面的計算結果快取，預設情況下會把資料以快取在JVM的堆記憶體中。但是並不是這兩個方法被呼叫時立即快取，而是觸發後面的action運算元時，該RDD將會

C++ 有關指標作為函式引數的問題，自定義記憶體分配函式傳遞二級指標的問題

如題所示，我們主要討論在自定義的記憶體分配函式中通常見到的程式碼如下所示：

MindSpore自定義模型損失函式

技術背景損失函式是機器學習中直接決定訓練結果好壞的一個模組，該函式用於定義計算出來的結果或者是神經網路給出的推測結論與正確結果的偏差程度，偏差的越多，就表明對應的引數越差。而損失函式的另一個重要性在於

Linux C strtok實現自定義字串切分函式split

1. 問題：Linux C如何切分字串？ java的String類有split方法，可以將字串物件按指定字串進行切分，返回一個數組String[]，包含切分後的所有字串。 Linux C如何對字串進行切分呢？有沒有類似函式/系統呼叫？

Spark(十三)【SparkSQL自定義UDF/UDAF函式】

一.UDF(一進一出)

二.UDAF(多近一出)

spark2.X 實現方式

案例

①繼承UserDefinedAggregateFunction，實現其中的方法

②建立函式物件，註冊函式，在sql中使用

spark3.X實現方式

案例

①繼承Aggregator [-IN, BUF, OUT]，宣告泛型，實現其中的方法

②建立函式物件，註冊函式，在sql中使用

相關推薦