Spark SQL--UDAF函式

阿新 • • 發佈：2019-01-05

需求：需要通過繼承 UserDefinedAggregateFunction 來實現自定義聚合函式。案例：計算一下員工的平均工資

弱型別聚合函式：

package com.jiangnan.spark
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._
/**
  * 弱型別的
  * 計算員工的平均薪資
  */
class AverageSalaryRuo extends UserDefinedAggregateFunction{
  //輸入的資料的格式
  override def inputSchema: StructType = StructType(StructField("salary",IntegerType) :: Nil)
  //每個分割槽中共享的資料變數結構
  override def bufferSchema: StructType = StructType(StructField("sum",LongType) :: StructField("count",IntegerType):: Nil)
  //輸出的資料的型別
  override def dataType: DataType = DoubleType
  //表示如果有相同的輸入是否會存在相同的輸出，是：true
  override def deterministic: Boolean = true
  //初始化的每個分割槽共享變數
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0L
    buffer(1) = 0
  }
  //每一個分割槽的每一條資料聚合的時候進行buffer的更新
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    //將buffer中的薪資總和的資料進行更新，原資料加上新輸入的資料，buffer就類似於resultSet
    buffer(0) = buffer.getLong(0) + input.getInt(0)
    //每新增一個薪資，就將員工的個數加1
    buffer(1) = buffer.getInt(1)+1
  }
  //將每個分割槽的輸出合併
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    buffer1(1) = buffer1.getInt(1)+buffer2.getInt(1)
  }
  //獲取最終的結果
  override def evaluate(buffer: Row): Any = {
    //計算平均薪資並返回
    buffer.getLong(0).toDouble/buffer.getInt(1)
  }
}
object AverageSalaryRuo extends App{
  val conf = new SparkConf().setAppName("udaf").setMaster("local[3]")
  val spark = SparkSession.builder().config(conf).getOrCreate()
  val data = spark.read.json("C:\\Users\\zhang\\Desktop\\employees.json")
  data.createOrReplaceTempView("employee")
  //註冊自定義聚合函式
  spark.udf.register("avgSalary",new AverageSalaryRuo)
  spark.sql("select avgSalary(salary) from employee").show()
  spark.stop()
}

強型別聚合函式：

package com.jiangnan.spark
import org.apache.spark.SparkConf
import org.apache.spark.sql.expressions.Aggregator
import org.apache.spark.sql.{Encoder, Encoders, SparkSession}
/**
  * 弱型別的
  * 計算員工的平均薪資
  */
//對於強型別來說，無非就是藉助於樣例類
case class Employee(name:String,salary:Long)
case class Average(var sum:Long,var count:Int)
class AverageSalaryQiang extends Aggregator[Employee,Average,Double]{
  //初始化方法
  override def zero: Average = Average(0L,0)
  //一個分割槽內的聚合呼叫，類似於update方法
  override def reduce(b: Average, a: Employee): Average = {
    b.sum = b.sum + a.salary
    b.count = b.count + 1
    b
  }
  override def merge(b1: Average, b2: Average): Average = {
    b1.sum = b1.sum + b2.sum
    b1.count = b1.count + b2.count
    b1
  }
  //最終的計算結果
  override def finish(reduction: Average): Double = {
    reduction.sum.toDouble /reduction.count
  }
  //對buffer編碼
  override def bufferEncoder: Encoder[Average] = Encoders.product
  //對out編碼
  override def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}
object AverageSalaryQiang extends App{
  val conf = new SparkConf().setAppName("udaf").setMaster("local[3]")
  val spark = SparkSession.builder().config(conf).getOrCreate()
  import  spark.implicits._
  val employee = spark.read.json("C:\\Users\\zhang\\Desktop\\employees.json").as[Employee]
  employee.show()
  employee.createOrReplaceTempView("employee")
  //註冊自定義函式
  val aaa = new AverageSalaryQiang().toColumn.name("aaaa")
  spark.sql("select * from employee").show()
  //spark.sql("select aaaa(salary) from employee").show()
  employee.select(aaa).show()
  spark.stop()
}

Spark SQL--UDAF函式

需求：需要通過繼承 UserDefinedAggregateFunction 來實現自定義聚合函式。案例：計算一下員工的平均工資弱型別聚合函式： package com.jiangnan.spark import org.apache.spark.SparkConf import or

Spark SQL原始碼函式解讀及UDF/UDAF例子 spark研習第六集

四、 Spark SQL原始碼函式解讀 1. Spark SQL內建函式解密與實戰 SparkSQL的DataFrame引入了大量的內建函式，這些內建函式一般都有CG（CodeGeneration）功能，這樣的函式在編譯和執行時都會經過高度優化。

第71課：Spark SQL視窗函式解密與實戰

內容： 1.SparkSQL視窗函式解析 2.SparkSQL視窗函式實戰一、SparkSQL視窗函式解析 1.spark支援兩種方式使用視窗函式： &nb

spark sql視窗函式

視窗函式是spark sql模組從1.4之後開始支援的，主要用於解決對一組資料進行操作，同時為每條資料返回單個結果，比如計算指定訪問資料的均值、計算累進和或訪問當前行之前行資料等，這些場景使用普通函式實現是比較困難的。視窗函式計算的一組行，被稱為Frame。每

Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations

一、簡單聚合 1.1 資料準備 // 需要匯入 spark sql 內建的函式包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").mast

14.Spark SQL：UDAF自定義聚合函式實戰

UDAF自定義函式實戰 UDAF：User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。 UDF，其實更多的是針對單行輸入，返

詳解spark sql使用者自定義函式:UDF與UDAF

場景 UDAF = USER DEFINED AGGREGATION FUNCTION11 上一篇文章已經介紹了spark sql的視窗函式，並知道Spark sql提供了豐富的內建函式供猿友們使用，辣為何還要使用者自定義函式呢？實際的業務場景可能很複雜，內建函式hold

Spark SQL 內建函式列表

文章目錄 • 1 ! • 2 % • 3 & • 4 * • 5 + •

Spark SQL內建函式

Spark SQL內建函式官網API：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 平常在使用mysql的時候，我們在寫SQL的時候會使用到MySQL為我們提供的一些內建函

Spark SQL基本操作以及函式的使用

引語：本篇部落格主要介紹了Spark SQL中的filter過濾資料、去重、集合等基本操作，以及一些常用日期函式，隨機函式，字串操作等函式的使用，並列編寫了示例程式碼，同時還給出了程式碼當中用到的一些資料，放在最文章最後。 SparkSQL簡介 Spark SQL是Sp

Spark（三十）Spark SQl內建函式

def concat_ws(sep: String, exprs: Column*): Column =？作用：將多個欄位與一個字串拼接起來引數：sep拼接的字串，exprs：多個列返回值：Column def collect_set(e: Col

第72課：Spark SQL UDF和UDAF解密與實戰

內容： 1.SparkSQL UDF 2.SparkSQL UDAF 一、SparkSQL UDF和SparkSQL UDAF 1.解決SparkSQL內建函式不足問題，自定義內建函式， 2.UDF：User Define Functio

第70課：Spark SQL內建函式解密與實戰

內容： 1.SparkSQL內建函式解析 2.SparkSQL內建函式實戰一、SparkSQL內建函式解析使用Spark SQL中的內建函式對資料進行分析，Spark

Spark 2.4.0程式設計指南--Spark SQL UDF和UDAF

Spark 2.4.0程式設計指南–Spark SQL UDF和UDAF 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程

Spark SQL 函式操作

Spark 內建函式使用Spark SQL中的內建函式對資料進行分析，Spark SQL API不同的是，DataFrame中的內建函式操作的結果是返回一個Column物件，而DataFrame天生就是”A distributed collection

spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與zip()函式詳解//及python中的args和**kwargs

（1）UDF的方式清理資料 import sys reload(sys) sys.setdefaultencoding('utf8') import re import json from pyspark.sql import SparkSession

spark-sql使用UDF函式實現ip對映省份，資料寫出到mysql引數設定。

spark-SQL使用廣播變數以及應用資料庫的UDF自定義函式的查詢會比兩張表的連線更加的優化的程式的執行。兩表連線是比較費效率的。 spar-sql 2.x的資料讀取，處理，新增schema資訊，常見表，SQL查詢。將sql結果輸出到mysql的api引數設定。還

大資料實戰：基於Spark SQL統計分析函式求分組TopN

做大資料分析時，經常遇到求分組TopN的問題，如：求每一學科成績前5的學生；求今日頭條各個領域指數Top 30%的頭條號等等。Spark SQL提供了四個排名相關的統計分析函式： dense_rank() 返回分割槽內每一行的排名，排名是連續的。 rank() 返回分割槽

[2.4]以row_number為例解讀spark sql的視窗函式

參考場景將本地檔案toNGroup.txt中的內容： hadoop@master:~/resource$ cat toNGroup.txt hadoop 29 hadoop 87 hadoop 39 hadoop 27 hadoop 88

12.Spark SQL：開窗函式以及top3銷售額統計案例實戰

Spark 1.4.x版本以後，為Spark SQL和DataFrame引入了開窗函式，比如最經典，最常用的，row_number()，可以讓我們實現分組取topn的邏輯。案例：統計每個種類的銷售額排名前3的產品java版本package cn.spark.study.s

Spark SQL--UDAF函式

相關推薦