spark 之 UDF的兩種方式

阿新 • • 發佈：2020-12-27

詳見：https://www.cnblogs.com/itboys/p/9347403.html

1）如果使用spark.sql("")

=> 內部呼叫hive處理，只能使用spark.udf.register("",)

例如：

import org.apache.spark.sql.functions._
val maxandmin = udf{
  (cdata:Double,maxdata:Double,mindata:Double)=>{
    (cdata-mindata)/(maxdata-mindata)
  }
}
spark.udf.register("maxandmin",maxandmin)

def getUserbaseinfo(spark:SparkSession) 
={
  val sql = s"""select
              |userid,locale,gender,
              |location,
              |maxandmin(cage,max_age,min_age) age,
              |maxandmin(timezone,max_timezone,min_timezone) timezone,
              |maxandmin(members,max_members,min_members) members
              |from
              | 
(select  userid,
              |case when l.locale is null then 0 else l.localeid end locale,
              |gender,location,
              |calcage(birthyear) cage,min_age,max_age,
              |timezone,min_timezone,max_timezone,
              |members,min_members,max_members
              |from dwd_events.dwd_users u
               
|left join dwd_events.dwd_locale l
              |on lower(u.locale)=lower(l.locale)
              |cross join (select min(calcage(birthyear)) min_age
              |,max(calcage(birthyear)) max_age,min(timezone) min_timezone,
              |max(timezone) max_timezone, min(members) min_members,max(members) max_members
              |from dwd_events.dwd_users) b ) c""".stripMargin
  spark.sql(sql)
}

2）如果使用DataFrame API

=> 僅使用udf()就行

spark 之 UDF的兩種方式

詳見：https://www.cnblogs.com/itboys/p/9347403.html 1）如果使用spark.sql(\"\") => 內部呼叫hive處理，只能使用spark.udf.register(\"\",)

（二）多程序之開啟程序的兩種方式

一、multiprocessing模組介紹 python中的多執行緒無法利用多核優勢，如果想要充分地使用多核CPU的資源（os.cpu\\_count\\(\\)檢視），在python中大部分情況需要使用多程序。Python提供了multiprocessing。

Spark Streaming讀取Kafka資料的兩種方式

Kafka在0.8和0.10之間引入了一種新的消費者API,因此,Spark Streaming與Kafka整合,有兩種包可以選擇:spark-streaming-kafka-0-8與spark-streaming-kafka-0-10。在使用時應注意以下幾點:

Springboot之修改啟動埠的兩種方式(小結)

Springboot啟動的時候，埠的設定預設是8080，這肯定是不行的，我們需要自己定義埠，Springboot提供了兩種方式，第一種，我們可以通過application.yml配置檔案配置，第二種，可以通過程式碼裡面指定，在開發中，建議使

詳解Springboot之接收json字串的兩種方式

第一種方式、通過關鍵欄位@RequestBody，標明這個物件接收json字串。還有第二種方式，直接通過request來獲取流。在spring中，推薦使用。

elasticsearch之查詢的兩種方式

前言簡單的沒挑戰，來點複雜的，比如檢視來自顧家的都有哪些人怎麼查呢？elasticsearch提供兩種查詢方式：

java基礎知識回顧之java Thread類--java執行緒實現常見的兩種方式（一）

java基礎知識回顧之java Thread類--java執行緒實現常見的兩種方式（一）建立執行緒的第一種方式：/ * 步驟：*1.繼承Thread類*2. 重寫Thread的run方法*目的：將自定義的程式碼儲存在run方法中，執行自定義執行緒

Cesium之流動線紋理實現的兩種方式

直接上程式碼吧方法一：採用自定義shader 的實現，利用cesium內建的glsl變數是紋理隨著時間按照指定方向進行流動。效果圖中科技感的數字流動是呈現沿著線往上流動，這種效果很適合在智慧城市數字孿生的場景中結合其

springboot專案啟動成功後執行一段程式碼的兩種方式 springboot 學習之路 9 (專案啟動後就執行特定方法)

1.轉 springboot專案啟動成功後執行一段程式碼的兩種方式 2. SpringBoot專案啟動後自動執行指定方法

spring級聯屬性賦值的兩種方式解析

這篇文章主要介紹了spring級聯屬性賦值的兩種方式解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解使用Spring快速建立web應用的兩種方式

介紹本篇文章主要介紹，如何使用 Spring 開發一個 Web 應用。我們將研究用 Spring Boot 開發一個 web 應用，並研究用非 Spring Boot 的方法。

Java sort集合排序的兩種方式解析

這篇文章主要介紹了Java sort集合排序的兩種方式解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

阿里雲伺服器手動實現mysql雙機熱備的兩種方式

一、概念 1、熱備份和備份的區別　　熱備份指的是：High Available（HA）即高可用，而備份指的是Backup，資料備份的一種。這是兩種不同的概念，應對的產品也是兩種功能上完全不同的產品。熱備份主要保障業務的連續性

mysql清空表資料的兩種方式和區別解析

在MySQL中刪除資料有兩種方式： truncate（截短）屬於粗暴型的清空 delete屬於精細化的刪除

Python操作MySQL資料庫的兩種方式例項分析【pymysql和pandas】

本文例項講述了Python操作MySQL資料庫的兩種方式。分享給大家供大家參考，具體如下：

ubuntu 16.04安裝redis的兩種方式教程詳解(apt和編譯方式）

ubuntu 16.04安裝redis的兩種方式教程如下所示：方式一：apt安裝在 Ubuntu 系統安裝 Redi 可以使用以下命令:

Python使用flask框架操作sqlite3的兩種方式

本文例項講述了Python使用flask框架操作sqlite3的兩種方式。分享給大家供大家參考，具體如下：

Linux下安裝mysql的方式（yum和原始碼編譯兩種方式）

這裡介紹Linux下兩種安裝mysql的方式：yum安裝和原始碼編譯安裝。 1. yum安裝（1）首先檢視centos自帶的mysql是否被安裝：

pytorch實現focal loss的兩種方式小結

我就廢話不多說了，直接上程式碼吧！ import torch import torch.nn.functional as F import numpy as np

Python實現圖片裁剪的兩種方式(Pillow和OpenCV)

在這篇文章裡我們聊一下Python實現圖片裁剪的兩種方式，一種利用了Pillow，還有一種利用了OpenCV。兩種方式都需要簡單的幾行程式碼，這可能也就是現在Python那麼流行的原因吧。

spark 之 UDF的兩種方式

相關推薦