1. 程式人生 > >[Spark經驗一]Spark RDD計算使用的函式裡儘量不要使用全域性變數

[Spark經驗一]Spark RDD計算使用的函式裡儘量不要使用全域性變數

     比如RDD裡的計算呼叫了別的元件類裡的方法(比如hbase裡的put方法),那麼序列化時,會將該方法所屬的物件的所有變數都序列化的,可能有些根本沒有實現序列化導致直接報錯。也就是spark的api沒有做到使用者無感知,在使用一些全域性方法時還需自己控制。簡單點的做法就是:能定義在計算函式內的方法就定義在裡面。