1. 程式人生 > 其它 >RDD 序列化

RDD 序列化

問題引入

想看一個需求:定義一個 使用者類,有一個name 屬性和toSting方法:

class User {
  var name: String = _
  override def toString: String = s"User{$name}"
}

現在要宣告兩個物件並給name 屬性賦值,然後將兩個例項放在一個rdd裡,進行採集列印:

 def main(args: Array[String]): Unit = {
    //獲取 SparkConf 並設定應用名稱*本地模式
    val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[*]")
    //獲取 Spark 上下文物件
    val sc: SparkContext = new SparkContext(conf)
    var lhc: User = new User
    var yilin: User = new User
    lhc.name = "令狐沖"
    yilin.name = "依琳"
    val userRDD: RDD[User] = sc.makeRDD(List(lhc, yilin))
    userRDD.foreach(println)
    //釋放 Spark 上下文物件
    sc.stop
  }

看邏輯沒什麼問題:但是在執行的時候報錯了

2022-05-26 20:35:25      ERROR (org.apache.spark.util.Utils:logError) - Exception encountered
java.io.NotSerializableException: org.wdh01.spark04.User
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:
1378) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:
1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.defaultWriteObject(ObjectOutputStream.java:441) at org.apache.spark.rdd.ParallelCollectionPartition.$anonfun$writeObject$1(ParallelCollectionRDD.scala:59)

說是沒有進行序列化

問題出在哪裡呢?在 spark 程式初始化操作發生在Driver端,具體運算元執行在Executor端執行,如果在Executor執行的時候,要訪問Driver端初始化的資料,那麼就涉及跨程序跨節點通訊 所以要求傳遞的資料必須是可序列化的

如何進行序列化

方案1、混入 Serializable

class User extends Serializable {
  var name: String = _
  override def toString: String = s"User{$name}"
}

這樣就可以解決了,但是需要注意,這裡的 Serializable 其實是繼承了java 的 Serializable

package scala

/**
 * Classes extending this trait are serializable across platforms (Java, .NET).
 */
trait Serializable extends Any with java.io.Serializable

java 的序列化其實還是比較重量級的,這一點需要注意

方案2、將類宣告為樣例類

但是並非所有類都適用這種場景,

方案3、使構造引數對序列化的資料進行賦值