RDD 序列化

阿新 • • 發佈：2022-05-26

問題引入

想看一個需求：定義一個使用者類，有一個name 屬性和toSting方法：

class User {
  var name: String = _
  override def toString: String = s"User{$name}"
}

現在要宣告兩個物件並給name 屬性賦值，然後將兩個例項放在一個rdd裡，進行採集列印：

 def main(args: Array[String]): Unit = {
    //獲取 SparkConf 並設定應用名稱*本地模式
    val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[*]")
    //獲取 Spark 上下文物件
    val sc: SparkContext = new SparkContext(conf)
    var lhc: User = new User
    var yilin: User = new User
    lhc.name = "令狐沖"
    yilin.name = "依琳"
    val userRDD: RDD[User] = sc.makeRDD(List(lhc, yilin))
    userRDD.foreach(println)
    //釋放 Spark 上下文物件
    sc.stop
  }

看邏輯沒什麼問題：但是在執行的時候報錯了

2022-05-26 20:35:25      ERROR (org.apache.spark.util.Utils:logError) - Exception encountered
java.io.NotSerializableException: org.wdh01.spark04.User
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java: 
1378)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java: 
1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.defaultWriteObject(ObjectOutputStream.java:441)
    at org.apache.spark.rdd.ParallelCollectionPartition.$anonfun$writeObject$1(ParallelCollectionRDD.scala:59)

說是沒有進行序列化

問題出在哪裡呢？在 spark 程式初始化操作發生在Driver端，具體運算元執行在Executor端執行，如果在Executor執行的時候，要訪問Driver端初始化的資料，那麼就涉及跨程序跨節點通訊所以要求傳遞的資料必須是可序列化的

如何進行序列化

方案1、混入 Serializable

class User extends Serializable {
  var name: String = _
  override def toString: String = s"User{$name}"
}

這樣就可以解決了，但是需要注意，這裡的 Serializable 其實是繼承了java 的 Serializable

package scala

/**
 * Classes extending this trait are serializable across platforms (Java, .NET).
 */
trait Serializable extends Any with java.io.Serializable

java 的序列化其實還是比較重量級的，這一點需要注意

方案2、將類宣告為樣例類

但是並非所有類都適用這種場景，

方案3、使構造引數對序列化的資料進行賦值

Spark ~ RDD 序列化

技術標籤：Spark Spark ~ RDD 序列化原因分析：進行序列化extends SerializableKryo 案列，沒有經過系列化的情況

RDD 序列化

問題引入想看一個需求：定義一個使用者類，有一個name 屬性和toSting方法： class User {

Spark(五)【RDD的序列化】

目錄1.閉包檢查2.序列化方法和屬性3.序列化異常解決方案4.Kryo序列化框架 1.閉包檢查

Java SE基礎鞏固（八）：序列化

在資料處理中，將資料結構或者物件轉換成其他可用的格式，並做持久化儲存或者將其傳送到網路流中，這種行為就是序列化，反序列化則是與之相反。

一文徹底理解Redis序列化協議，你也可以編寫Redis客戶端

前提最近學習Netty的時候想做一個基於Redis服務協議的編碼解碼模組，過程中順便閱讀了Redis服務序列化協議RESP，結合自己的理解對檔案進行了翻譯並且簡單實現了RESP基於Java語言的解析。編寫本文的使用使用的JDK版本

.NET進階篇04-Serialize序列化、加密解密

知識需要不斷積累、總結和沉澱，思考和寫作是成長的催化劑這篇很輕鬆，沒有什麼費腦子的，所以解析較少，程式碼較多，為數不多的拿來即用篇

fastJson反序列化處理泛型我能從中學到什麼

都會的json解析在我們日常的編碼工作中，常常會制定或者遇到這樣的json結構

ProtoStuff無法反序列化Deprecated註解成員問題記錄

在開發過程中，遇到一個鬼畜的問題，在DO的某個成員上新增@Deprecated註解之後，通過ProtoStuff反序列化得到的DO中，這個成員一直為null；花了不少時間才定位這個問題，特此記錄一下

Spring Boot Redis 序列化方案的選擇

Redis的使用越來越廣泛，當遇見效能瓶頸時，我們應該如何去解決呢？文章對應的專案見 spring-boot-skill

【重回基礎】序列化、序列化攻擊與序列化代理

目錄一、what、why、how 序列化二、JDK 序列化並不簡單三、序列化攻擊四、序列化代理模式

Transient 關鍵字修飾變數是否可以被序列化

前提：最近在看CopyOnWriteArrayList的原始碼，發現其內部的陣列array是被 transient關鍵詞修飾，覺得奇怪，因為CopyOnWriteArrayList是可以被序列化的，其內部儲存的元素也會被序列化，所以引發了對transient的思考

【原創】（譯）Java 序列化魔法方法及使用示例

轉載請註明出處。英文原文地址：www.javacodegeeks.com/2019/09/jav… 翻譯：福爾馬林/內觀

JAVA基於SnakeYAML實現解析與序列化YAML

這篇文章主要介紹了JAVA基於SnakeYAML實現解析與序列化YAML,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java JDBC導致的反序列化攻擊原理解析

這篇文章主要介紹了Java JDBC導致的反序列化攻擊原理解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

JAVA序列化和反序列化的底層實現原理解析

一、基本概念 1、什麼是序列化和反序列化　（1）Java序列化是指把Java物件轉換為位元組序列的過程，而Java反序列化是指把位元組序列恢復為Java物件的過程；

java物件序列化操作例項分析

本文例項講述了java物件序列化操作。分享給大家供大家參考，具體如下：在java中可以將物件進行序列化操作

通過例項瞭解java序列化機制

這篇文章主要介紹了通過例項瞭解java序列化機制,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python 將json序列化後的字串轉換成字典(推薦)

一般而言下面的就可以完成需求了。 def convertToDic(data): jsonDic=json.loads(data) return dict(jsonDic)

Python Pickle 實現在同一個檔案中序列化多個物件

也是看別人程式碼才知道可以開啟一個檔案就可以把多個物件序列化到這個檔案中。

python序列化與資料持久化例項詳解

本文例項講述了python序列化與資料持久化。分享給大家供大家參考，具體如下：