Spark之hive的UDF自定義函式

阿新 • • 發佈：2019-01-29

1.簡單的

package com.llcc.sparkSql.MyTimeSort

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.hive.HiveContext

object UDFDemo1 {

  def main(args:Array[String]):Unit = {
    val conf = new SparkConf().setAppName("aa")
    val sc = new SparkContext(conf)
    val hiveContext = new HiveContext(sc)
    hiveContext.udf 
.register("strlen",(str:String) => {
      if(str != null){
        str.length()
      }else{
        0
      }
    })
    hiveContext.sql("select strlen(category) from xtwy.worker" ).show()

  }

}

這裡寫圖片描述

2. 繼承 UserDefinedAggregateFunction

package com.llcc.sparkSql.MyTimeSort

import org.apache.spark.{SparkConf, SparkContext}
import 
 org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.types._

object UDFDemo extends UserDefinedAggregateFunction{

  /**
    * 定義輸入資料的型別，因為這裡我們只有一列資料，但是這裡要求一個集合，所以要加上Nil
    * 這裡我們要計算的是hive中的salary欄位
    * @return 

    */
  override def inputSchema: StructType = StructType(
    StructField("salary",DoubleType,true)::Nil
  )

  /**
    * 定義快取欄位的名字和資料型別
    * @return
    */
  override def bufferSchema: StructType = StructType(
    StructField("total",DoubleType,true)::
      StructField("count",IntegerType,true)::Nil
  )

  override def dataType: DataType = DoubleType

  override def deterministic: Boolean = true

  /**
    * 對參與的值進行初始化
    * @param buffer
    */
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer.update(0,0.0)
    buffer.update(1,0)
  }

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    val total = buffer.getDouble(0)
    val count = buffer.getInt(1)
    val currentSalary = input.getDouble(0)
    buffer.update(0,total+currentSalary)
    buffer.update(1,count+1)
  }

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    val total1 = buffer1.getDouble(0)
    val count1 = buffer1.getInt(1)

    val total2 = buffer2.getDouble(0)
    val count2 = buffer2.getInt(1)

    buffer1.update(0,total1+total2)
    buffer1.update(1,count1+count2)

  }

  override def evaluate(buffer: Row): Any = {
    val total = buffer.getDouble(0)
    val count = buffer.getInt(1)
    total/count
  }

  def main(args:Array[String]):Unit = {
    val conf = new SparkConf().setAppName("aa")
    val sc = new SparkContext(conf)
    val hiveContext = new HiveContext(sc)
    hiveContext.udf.register("salary_avg",UDFDemo)
    hiveContext.sql("select salary_avg(salary) from xtwy.worker" ).show()

  }
}

原始資料

這裡寫圖片描述

求薪水的平均值，可以看到是正確的

這裡寫圖片描述

javaweb之EL自定義函式

1.什麼是EL自定義函式 EL自定義函式是在EL表示式中呼叫的某個java類的靜態方法，這個靜態方法需在web應用程式中進行配置才可以被EL表示式呼叫。EL自定義函式可以擴充套件EL表示式的功能，讓EL表示式完成普通java程式程式碼所能完成的功能。 2.EL自定義函式開發步驟編寫EL自定義函式

詳解spark sql使用者自定義函式:UDF與UDAF

場景 UDAF = USER DEFINED AGGREGATION FUNCTION11 上一篇文章已經介紹了spark sql的視窗函式，並知道Spark sql提供了豐富的內建函式供猿友們使用，辣為何還要使用者自定義函式呢？實際的業務場景可能很複雜，內建函式hold

Java之——Java8 自定義函式程式設計

參考： https://www.cnblogs.com/figure9/p/java-8-lambdas-insideout-language-features.html https://blog.csdn.net/ioriogami/article/details

Spark之hive的UDF自定義函式

1.簡單的 package com.llcc.sparkSql.MyTimeSort import org.apache.spark.{SparkConf, SparkContext} impo

大資料學習之路89-sparkSQL自定義函式計算ip歸屬地

使用sparkSQL當遇到業務邏輯相關的時候，就有可能會搞不定。因為業務l邏輯需要寫很多程式碼，呼叫很多介面。這個時候sql就搞不定了。那麼這個時候我們就會想能不能將業務邏輯嵌入到sql中？這種就類似於我們在hive中使用過的自定義函式UDF(user define function使用者

python之自定義函式、傳參、作用域

一、函式的作用域：表示函式執行時的範圍注意：返回函式名稱，即返回一個地址；簡單說就是：函式名稱即指代該函式地址，在呼叫函式時，需在函式名稱後面加括號：函式名稱（）如上面圖片中那樣的情況，再最後加兩行程式碼： dz3=dz2() #---接收foo2（）函式執行的返回

SparkSQL之自定義函式UDF和UDAF

SparkSQL中有兩種自定函式，在我們使用自帶的函式時無法滿足自己的需求時，可以使用自定義函式，SparkSQL中有兩種自定義函式，一種是UDF，另一種是UDAF，和Hive 很類似，但是hive中還有UDTF,一進多出，但是sparkSQL中沒有，這是因為spark中用 flatMap這

大資料入門教程系列之Hive內建函式及自定義函式

本篇文章主要介紹Hive內建函式以及自定義UDF函式和UDFT函式，自定義UDF函式通過一個國際轉換中文的例子說明。操作步驟： ①、準備資料和環境 ②、演示Hive內建函式 ③、自定義UDF函式編寫、演示詳細步驟：一、準備資料和

Hive：自定義函式之UDF，UDAF和UDTF

hive允許使用者使用自定義函式解決hive 自帶函式無法處理的邏輯。hive自定義函式只在當前執行緒內臨時有效，可以使用shell指令碼呼叫執行hive命令。 UDF 輸入一行資料輸出一行資料。解決問題描述想要比較兩個逗號分隔的字串是否相同。 -使用方法如果

php函式基本語法之自定義函式------02

目錄一: 概念以及必要性二: 自定義函式語法規定三: 案例說明一: 概念以及必要性 1.PHP提供了功能強大的函式，但這遠遠滿足不了需要，程式設計師可以根據需要自己建立函式; 2.我們在實際開發過程當中需要有很多功能都需要反覆使用到，而這些反覆需要使用到的功能

spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與zip()函式詳解//及python中的args和**kwargs

（1）UDF的方式清理資料 import sys reload(sys) sys.setdefaultencoding('utf8') import re import json from pyspark.sql import SparkSession

Python筆記之自定義函式

Python3 定義函式定義一個函式我們自己可以定義一個由自己想要功能的函式，以下是簡單的規則：函式程式碼塊以 def 關鍵詞開頭，後接函式識別符號名稱和圓括號 ()。任何傳入引數和自變數必須放在圓括號中間，圓括號之間可以用於定義引數。

初學mysql(十)-資料庫之儲存過程、函式與遊標-自定義函式和流程控制（下）

上一篇部落格講了儲存過程、函式、以及遊標，這一篇部落格接著上一篇部落格來說。首先說說mysql資料庫中的流程控制及自定義函式的使用。自定義函式：根據所需要的功能，使用流程控制來完成所需要的功能，完成功能的程式碼就稱為自定義函式。要想完成自定義函式就必須學會流程控制的使

《深入理解Spark》之通過自定義分割槽器解決資料傾斜問題

package com.lyzx.day37 import org.apache.spark.{Partitioner, SparkConf, SparkContext} class D1 { //partitionBy和自定義分割槽器解決資料傾斜的問題 def

Spark機器學習自定義sql函式處理Vector型別

對於sparksql處理不了的型別，可以使用spark.udf.register自定義函式方法處理。 spark.udf.register("getPCA0", (s: Vector) => s(0)) spark.udf.register("getPCA1", (s

hive之----建立udf自定義函式或刪除函式異常: Failed to read external resource

1. 建立永久函式: 首先將打好的jar包上傳好hdfs 執行命令 : create function 函式名 as 'udf類的全路徑(包名+類名)' using jar "自己的jar包存放在hdfs的路徑"; 原因: 由於hdfs後面的ip加上埠

oracle高階用法之自定義函式

注意：終端使用dbms_output輸出執行結果，首先PL/SQL開啟伺服器輸出 set serveroutput on; /* 使用者自定義函式 */ -- 檢視函式、觸發器select * from user_source;-- 刪除函式drop function

MySql學習:自定義函式之帶參函式

delimiter // -- 如果資料庫 test 裡的存在函式 formatDate，就刪除這個函式 DROP FUNCTION IF EXISTS test.formatDate; -- 建立一個

ORACLE自定義函式之簡單示例

前言：因工作環境需要，之前使用過的ORACLE語句自我感覺比較low,越來越不能滿足工作需要。再者資料庫自定義函式和資料庫儲存過程以及觸發器是資料庫技能進階的必須邁過去的坎，趁著工作稍微閒的時候，將他們全部拿下。這是第一篇，關於oracle資料庫自定義函式的使用，之後會續

JEPLUS之APP自定義插件——JEPLUS軟件快速開發平臺

otto fff 使用 jid editor style img circle ckeditor JEPLUS之APP自定義插件在JEPLUS中我們可以創建APP，但是創建的APP都是依賴於平臺功能在我們業務中有些需求並不是都要按照平臺

Spark之hive的UDF自定義函式

1.簡單的

2. 繼承 UserDefinedAggregateFunction

相關推薦