sqprk叢集上使用自定義udf函式，出現無法序列化的錯誤

阿新 • • 發佈：2021-09-07

在spark叢集上，將讀取到的csv檔案生成的datafream，需要對其中一列進行轉化，內建的udf函式已經不能滿足需求

所以需要自定義一個udf，但是在使用的時候報錯，如下

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:403)
    at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala: 
393)
    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:162)
    at org.apache.spark.SparkContext.clean(SparkContext.scala:2326)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$1.apply(RDD.scala:850)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$ 
1.apply(RDD.scala:849)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.mapPartitionsWithIndex(RDD.scala: 
849)
    at org.apache.spark.sql.execution.WholeStageCodegenExec.doExecute(WholeStageCodegenExec.scala:630)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)

Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext
Serialization stack:
    - object not serializable (class: org.apache.spark.SparkContext, value: org.apache.spark.SparkContext@7334dcbe)
    - field (class: algorithm.config.Base, name: sc, type: class org.apache.spark.SparkContext)
    - object (class algorithm.config.Base, algorithm.config.Base@4a6c33a0)
    - field (class: algorithm.config.Base$$anonfun$save_data_parquet$1, name: $outer, type: class algorithm.config.Base)
    - object (class algorithm.config.Base$$anonfun$save_data_parquet$1, <function1>)
    - field (class: algorithm.config.Base$$anonfun$save_data_parquet$1$$anonfun$2, name: $outer, type: class algorithm.config.Base$$anonfun$save_data_parquet$1)
    - object (class algorithm.config.Base$$anonfun$save_data_parquet$1$$anonfun$2, <function1>)
    - element of array (index: 25)
    - array (class [Ljava.lang.Object;, size 26)

百度了半天，最後總結如下：

當你執行各種轉換（map，flatMap，filter等等）的時候，會有以下轉換：
1、在driver節點上序列化，
2、上傳到合適的叢集中的節點，
3、在節點上執行反序列化，
4、最後在節點上執行。

自定義一個udf，並使用這個udf，那麼Spark知道不能序列化這個方法，於是試圖序列化整個類，因此才能使得這個方法能執行在其他JVM之上，正因為本例沒有序列化，所以才出現異常。

解決方法：

1. 在val sc = spark.sparkContext 上面加@transient

2. 類繼承序列化類

sqprk叢集上使用自定義udf函式，出現無法序列化的錯誤

在spark叢集上，將讀取到的csv檔案生成的datafream，需要對其中一列進行轉化，內建的udf函式已經不能滿足需求

presto自定義UDF函式

技術標籤：prestoprestoudf 以大小寫轉換為例寫個外掛 public class PrestoUdfPlugin implements Plugin {

SparkSQL重點知識之自定義UDF函式

技術標籤：Spark 簡介: 無論Hive還是SparkSQL分析處理資料時，往往需要使用函式，SparkSQL模組本身自帶很多實現公共功能的函式，在org.apache.spark.sql.functions中。SparkSQL與Hive一樣支援定義函式：UDF和UDA

Spark(十三)【SparkSQL自定義UDF/UDAF函式】

目錄一.UDF(一進一出)二.UDAF(多近一出)spark2.X 實現方式案例①繼承UserDefinedAggregateFunction，實現其中的方法②建立函式物件，註冊函式，在sql中使用spark3.X實現方式案例①繼承Aggregator [-IN, BUF, OUT]，宣

【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。附自定義評估函式程式碼

技術標籤：深度學習機器學習python資料探勘【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。

Flink基礎（66）：FLINK SQL(43) 自定義函式（二）自定義標量函式（UDF）

本文為您介紹如何為實時計算Flink版自定義標量函式（UDF）搭建開發環境、編寫業務程式碼及上線。

fastapi（65）- 路由函式指定了 response_model，在返回自定義 JSONResponse 時，不會限制它返回的資料結構

前置知識 JSONResponse：https://www.cnblogs.com/poloyy/p/15364445.html response_model：https://www.cnblogs.com/poloyy/p/15317585.html

tensorflow自定義啟用函式例項

前言：因為研究工作的需要，要更改啟用函式以適應自己的網路模型，但是單純的函式替換會訓練導致不能收斂。這裡還有些不清楚為什麼，希望有人可以給出解釋。查了一些部落格，發現瞭解決之道。下面將解決過程貼出來供

tensorflow 自定義損失函式示例程式碼

這個自定義損失函式的背景：（一般迴歸用的損失函式是MSE,但要看實際遇到的情況而有所改變）

TensorFlow自定義損失函式來預測商品銷售量

在預測商品銷量時，如果預測多了（預測值比真實銷量大），商家損失的是生產商品的成本；而如果預測少了（預測值比真實銷量小），損失的則是商品的利潤。因為一般商品的成本和商品的利潤不會嚴格相等，比如如果一個商

YII2框架自定義全域性函式的實現方法小結

本文例項講述了YII2框架自定義全域性函式的方法。分享給大家供大家參考，具體如下：

django之匯入並執行自定義的函式模組圖解

1.現在有一個需求：我想在monitor應用中匯入data資料夾下的apolos.py中的tes()函式並執行。

Python自定義聚合函式merge與transform區別詳解

1.自定義聚合函式，結合agg使用 2. 同時使用多個聚合函式 3. 指定某一列使用某些聚合函式

keras自定義損失函式並且模型載入的寫法介紹

keras自定義函式時候，正常在模型裡自己寫好自定義的函式，然後在模型編譯的那行程式碼裡寫上介面即可。如下所示，focal_loss和fbeta_score是我們自己定義的兩個函式，在model.compile加入它們，metrics裡‘accuracy

hive 自定義UDF （轉）

（轉自）https://www.cnblogs.com/yfb918/p/10644262.html hive之Json解析(普通Json和Json陣列) 一、資料準備

java8 lambda表示式實現自定義使用者元件，Don't Repeat Yourself

一、使用者元件的功能使用java8 lambda表示式實現實現世界的一個例子：使用者元件。此使用者元件有以下幾個操作：獲取使用者列表，獲取單個使用者，增加使用者，刪除使用者，更新使用者。所有的操作都是使用UserR

PySpark 自定義聚合函式 UDAF

自定義聚合函式 UDAF 目前有點麻煩，PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎麼回事，不能使用！

JS高階---工廠模式建立物件和自定義建構函式建立物件的區別

建立物件：工廠模式和自定義建構函式的區別共同點: 都是函式, 都可以建立物件, 都可以傳入引數

7.【原創】Spring Mvc自定義DispatcherServlet類，處理404異常

1.原因：　　自己在寫純介面服務的時候，使用Spring Mvc方式在web.xml中配置攔截器，使用@RestControllerAdvice註解定義了一個全域性的異常處理器，在SpringBoot中，它可正常攔截到類似NoHandlerFoundException（40

分享幾種好用的PHP自定義加密函式(可逆/不可逆)

專案中有時我們需要使用PHP將特定的資訊進行加密，也就是通過加密演算法生成一個加密字串，這些加密後的字串可以通過解密演算法進行解密，便於程式對解密後的資訊進行處理。最常見的應用在使用者登入以及一些API資料

sqprk叢集上使用自定義udf函式，出現無法序列化的錯誤

相關推薦