PySpark 自定義聚合函式 UDAF

阿新 • • 發佈：2020-08-12

自定義聚合函式 UDAF 目前有點麻煩，PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎麼回事，不能使用！

這樣的話只能曲線救國了！

PySpark有一組很好的聚合函式（例如，count，countDistinct，min，max，avg，sum），但這些並不適用於所有情況（特別是如果你試圖避免代價高昂的Shuffle操作）。

PySpark目前有pandas_udfs，它可以建立自定義聚合器，但是你一次只能“應用”一個pandas_udf。如果你想使用多個，你必須預先形成多個groupBys ......並且避免那些改組。

在這篇文章中，我描述了一個小黑客，它使您能夠建立簡單的python UDF，它們對聚合資料起作用（此功能只應存在於Scala中！）。

from pyspark.sql import functions as F
from pyspark.sql import types as T

a = sc.parallelize([[1, 'a'],
                    [1, 'b'],
                    [1, 'b'],
                    [2, 'c']]).toDF(['id', 'value'])
a.show()

ID	值
1	'一個'
1	'B'
1	'B'
2	'C'

我使用collect_list將給定組中的所有資料放入一行。我列印下面這個操作的輸出。

1	`a.groupBy('id').agg(F.collect_list('value').alias('value_list')).show()`

ID	VALUE_LIST
1	['a'，'b'，'b']
2	['C']

然後我建立一個UDF，它將計算這些列表中字母'a'的所有出現（這可以很容易地在沒有UDF的情況下完成，但是你明白了）。此UDF包含collect_list，因此它作用於collect_list的輸出。

def find_a(x):
  """Count 'a's in list."""
  output_count = 0
  for i in x:
    if i == 'a':
      output_count += 1
  return output_count

find_a_udf = F.udf(find_a, T.IntegerType())

a.groupBy('id').agg(find_a_udf(F.collect_list('value')).alias('a_count')).show()

ID	A_COUNT
1	1
2	0

我們去！作用於聚合資料的UDF！接下來，我展示了這種方法的強大功能，結合何時讓我們控制哪些資料進入F.collect_list。

首先，讓我們建立一個帶有額外列的資料框。

from pyspark.sql import functions as F
from pyspark.sql import types as T

a = sc.parallelize([[1, 1, 'a'],
                    [1, 2, 'a'],
                    [1, 1, 'b'],
                    [1, 2, 'b'],
                    [2, 1, 'c']]).toDF(['id', 'value1', 'value2'])
a.show()

ID	值1	值2
1	1	'一個'
1	2	'一個'
1	1	'B'
1	2	'B'
2	1	'C'

請注意，我如何在collect_list中包含一個when。請注意，UDF仍然包含collect_list。

1	`a.groupBy('id').agg(find_a_udf( F.collect_list(F.when(F.col('value1') == 1, F.col('value2')))).alias('a_count')).show()`

ID	A_COUNT
1	1
2	0

https://danvatterott.com/blog/2018/09/06/python-aggregate-udfs-in-pyspark/

還有一種做法就是用pandas_udf， series 新增一列分組變數然後去重。

還有就是使用輸入輸出都是dataframe 的 pandas_udf

PySpark 自定義聚合函式 UDAF

自定義聚合函式 UDAF 目前有點麻煩，PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎麼回事，不能使用！

hive學習筆記之十：使用者自定義聚合函式(UDAF)

歡迎訪問我的GitHub 這裡分類和彙總了欣宸的全部原創(含配套原始碼)：https://github.com/zq2599/blog_demos

pyspark pandas 自定義聚合函式

技術標籤：spark自定義聚合函式pysparkDataFrame 1. pyspark自定義聚合函式 import pyspark.sql.functions as F

Flink基礎（67）：FLINK SQL(44) 自定義函式（三）自定義聚合函式（UDAF）

本文為您介紹如何為實時計算Flink版自定義聚合函式（UDAF）搭建開發環境、編寫業務程式碼及上線。

Python自定義聚合函式merge與transform區別詳解

1.自定義聚合函式，結合agg使用 2. 同時使用多個聚合函式 3. 指定某一列使用某些聚合函式

PySpark 自定義函式 UDF

轉自：https://www.jianshu.com/p/06c6f9e50974 最簡單的註冊UDF ---- 直接將lambda表示式註冊成UDF

tensorflow自定義啟用函式例項

前言：因為研究工作的需要，要更改啟用函式以適應自己的網路模型，但是單純的函式替換會訓練導致不能收斂。這裡還有些不清楚為什麼，希望有人可以給出解釋。查了一些部落格，發現瞭解決之道。下面將解決過程貼出來供

tensorflow 自定義損失函式示例程式碼

這個自定義損失函式的背景：（一般迴歸用的損失函式是MSE,但要看實際遇到的情況而有所改變）

TensorFlow自定義損失函式來預測商品銷售量

在預測商品銷量時，如果預測多了（預測值比真實銷量大），商家損失的是生產商品的成本；而如果預測少了（預測值比真實銷量小），損失的則是商品的利潤。因為一般商品的成本和商品的利潤不會嚴格相等，比如如果一個商

YII2框架自定義全域性函式的實現方法小結

本文例項講述了YII2框架自定義全域性函式的方法。分享給大家供大家參考，具體如下：

django之匯入並執行自定義的函式模組圖解

1.現在有一個需求：我想在monitor應用中匯入data資料夾下的apolos.py中的tes()函式並執行。

keras自定義損失函式並且模型載入的寫法介紹

keras自定義函式時候，正常在模型裡自己寫好自定義的函式，然後在模型編譯的那行程式碼裡寫上介面即可。如下所示，focal_loss和fbeta_score是我們自己定義的兩個函式，在model.compile加入它們，metrics裡‘accuracy

JS高階---工廠模式建立物件和自定義建構函式建立物件的區別

建立物件：工廠模式和自定義建構函式的區別共同點: 都是函式, 都可以建立物件, 都可以傳入引數

分享幾種好用的PHP自定義加密函式(可逆/不可逆)

專案中有時我們需要使用PHP將特定的資訊進行加密，也就是通過加密演算法生成一個加密字串，這些加密後的字串可以通過解密演算法進行解密，便於程式對解密後的資訊進行處理。最常見的應用在使用者登入以及一些API資料

動畫函式的繪製及自定義動畫函式

製作動畫效果離不開動畫運動函式，而我們用得最多的無疑就是Tween.js。根據不同的數學公式原理，Tween.js劃分出了不同的動畫型別，每種動畫型別裡面都包含以下的緩動型別：

MySQL中使用使用者自定義的函式

函式定義基本公式如下 create function function_name(function_param param_type) returns return_type

【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。附自定義評估函式程式碼

技術標籤：深度學習機器學習python資料探勘【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。

JavaScript工廠模式建立物件和自定義建構函式的區別

技術標籤：JavaScriptjavascript工廠模式建構函式工廠模式【1】定義工廠模式是一種軟體工程領域一種廣為人知的設計模式，這種模式抽象了建立物件的過程，因為ECMAScript無法穿類，所以開發人員就發明一個函式

Jmeter二次開發實現自定義functions函式（九）

在Jmeter->選項->函式助手對話方塊中我們可以看到Jmeter內建的一些常用函式，但考慮到測試過程中的實際情況，我們經常需要在指令碼引用或者實現自定義的函式。那麼如何在“函式助手對話方塊中”看到我們自定義

Series資料自定義處理函式map()

技術標籤：pandasseriesmappandas map函式相當於DataFrame中的apply函式。只不過是針對Series的。可以這麼幹：

PySpark 自定義聚合函式 UDAF

相關推薦