Spark設定Kryo序列化緩衝區大小

阿新 • • 發佈：2020-01-09

背景

今天在開發SparkRDD的過程中出現Buffer Overflow錯誤，檢視具體Yarn日誌後發現是因為Kryo序列化緩衝區溢位了，日誌建議調大spark.kryoserializer.buffer.max的value，搜尋了一下設定keyo序列化緩衝區的方法，特此整理記錄下來。

20/01/08 17:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, s015.test.com, executor 1): org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 10300408. To avoid this, increase spark.kryoserializer.buffer.max value.
    at org.apache.spark.serializer.KryoSerializerInstance.serialize(KryoSerializer.scala:315)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:367)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

方法一：通過conf引數設定spark.kryoserializer.buffer.max

spark-submit在提交spark作業時可以帶很多引數，其中有一個引數--conf可以設定spark.kryoserializer.buffer.max的大小，具體如下。

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf spark.kryoserializer.buffer.max=512m \
  ... # other options
  <application-jar> \
  [application-arguments]

上面的--conf spark.kryoserializer.buffer.max=512m即代表把Kryo序列化緩衝區的buffer大小設定為512mb。

方法二：通過程式中拿到sparkConf物件設定spark.kryoserializer.buffer.max

1.設定Kryo為序列化類

//設定Kryo為序列化類（預設為Java序列類）
sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

2.設定spark.kryoserializer.buffer.max的值

//兩種設定方法
sparkConf.set("spark.kryoserializer.buffer.max", "128m");
sparkConf.set("spark.kryoserializer.buffer.max.mb", "128");

3.檢查是否成功設定Kryo引數

//列印日誌，檢查是否成功設定
System.out.println( sparkConf.get("spark.kryoserializer.buffer.max") );

參考文獻

[1]【大資料進擊】如何設定spark.kryoserializer.buffer.max value
[2]Spark official docs: Submitting Applicati

Spark設定Kryo序列化緩衝區大小

背景今天在開發SparkRDD的過程中出現Buffer Overflow錯誤，檢視具體Yarn日誌後發現是因為Kryo序列化緩衝區溢位了，日誌建議調大spark.kryoserializer.buffer.max的value，搜尋了一下設定keyo序列化緩衝區的方法，特此整理記錄下來。 20/01/08 1

在Spark中使用Kryo序列化

spark序列化對於優化<網路效能>極為重要，將RDD以序列化格式來儲存減少記憶體佔用. spark.serializer=org.apache.spark.serializer.JavaSerialization Spark預設使用Java自帶的ObjectOut

利用Kryo序列化庫是你提升Spark效能要做的第一件事

本文基於Spark2.1.0版本套用官文Tuning Spark中的一句話作為文章的標題： *Often, choose a serialization type will be the first thing you should tune to optimize a Spark ap

Spark效能優化三之採用kryo序列化類庫

Spark自身預設會在一些地方對資料進行序列化，比如Shuffle。還有就是，如果我們的運算元函式使用到了外部的資料，比如我們在外部定義了一個封裝了應用所有配置的物件，自定義了一個MyConfiguration物件，裡面包含了100m的資料。然後，在運算元函式裡

spark效能調優---Kryo序列化

1.為啥要用Kryo序列化 Spark運算元操作的時候如果用到外部資料的話，都會對外部資料進行序列化，Spark內部是使用Java的序列化機制，ObjectOutputStream / ObjectInputStream，物件輸入輸出流機制，來進行序列化這種預設序列化機制的好處在於，處理起來比較

RedisCacheManager設定Value序列化器技巧

CacheManager基本配置　　請參考博文：springboot2.0 redis EnableCaching的配置和使用 RedisCacheManager建構函式 /** * Construct a {@link RedisCacheManager}. *

springboot(20)fastjson設定不序列化位元組流

問題當設定fastjson為springboot的全域性序列化工具後，當controller返回二進位制位元組流時，位元組流被fastjson序列化為字串。 @ResponseBody @RequestMapping(value = "/downloa

Kryo序列化與反序列化列子

這是一個Kryo將複雜Bean物件序列化與反序列化，通過字串傳遞的列子。具體的bean物件此處沒有附加程式碼，可以自己寫一個bean的例子，裡面可包含任何物件，集合，基本型別。但要求有geter和setter方法。本人在本地測試類以下，除了Map需要Se

kryo序列化反序列化例項

Kryo：快速、高效的序列化框架 Kryo是一個快速高效的Java序列化框架，旨在提供快速、高效和易用的API。無論檔案、資料庫或網路資料Kryo都可以隨時完成序列化。Kryo還可以執行自動深拷貝（克隆）、淺拷貝（克隆）。這是物件到物件的直接拷貝，非物件-&g

52.效能調優之Kryo序列化

本文為《Spark大型電商專案實戰》系列文章之一，主要介紹在實際專案中使用Kryo序列化的方式進行效能優化。 Kryo 序列化原因在廣播大變數進行優化後，還可以進一步優化，即優化這個序列化格式。預設情況下，Spark內部是使用Java的序列化機制

Kryo序列化學習筆記

參考資料:https://github.com/EsotericSoftware/kryo#quickstart 開始 Kryo是一種基於java的快速高效序列化框架，該框架的目標是速度，效率以及容易使用的API。專案可以在任何時間將物件永久化到檔案，資料庫或者網路。先看

JDK序列化和kryo序列化對比

序列化和反序列化相同的物件Simple數量10000 kryo序列化的時間： 99ms kryo反序列化的時間： 41ms java原生的序列化時間： 303ms java原生的發序列化時間： 402ms package com.hualala.serial

物件序列化——java原生序列化、Kryo序列化效能比較和Hessian序列化

什麼是序列化以特定的方式對類例項的瞬時狀態進行編碼儲存的一種操作，叫做物件序列化。就是將物件的這個時刻的各種屬性各種值按照一定的規則變成二進位制流，然後如果傳輸到別的jvm中，jvm可以按照規則在將二進位制流反序列化成對應的物件，並且物件裡面還有當時的資料和各種屬性。序列化的

Kryo序列化框架簡介

這句話引用oschina對Kryo的解釋:Kryo 是一個快速高效的Java物件圖形序列化框架，主要特點是效能、高效和易用。該專案用來序列化物件到檔案、資料庫或者網絡。但是，

Spark優化(八)：使用Kryo優化序列化效能

使用Kryo優化序列化效能在Spark中，主要有三個地方涉及到了序列化：在運算元函式中使用到外部變數時，該變數會被序列化後進行網路傳輸（見“Spark優化(七)：廣播大變數”中的講解）。將自定義的型別作為RDD的泛型型別時（比如Ja

Spark 序列化問題

不存在 doc transform 網絡傳輸 bject ans tor 序列化 () 在Spark應用開發中，很容易出現如下報錯： org.apache.spark.SparkException: Task not serializable at org.apache

0016-Avro序列化&反序列化和Spark讀取Avro資料

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.簡介本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 1.1Apache Arvo是什麼？ Apache Avro 是一個數據序列

0016-Avro序列化&反序列化和Spark讀取Avro數據

ron ace raft 轉換 import 系統提示文章 offset 溫馨提示：要看高清無碼套圖，請使用手機打開並單擊圖片放大查看。 1.簡介本篇文章主要講如何使用java生成Avro格式數據以及如何通過spark將Avro數據文件轉換成DataSet和Data

關於Spark的序列化問題

本文主要從以下三個方面解釋Spark 應用中序列化問題。 1、Java序列化含義。 2、Spark程式碼為什麼需要序列化。 3、如何解決Spark序列化問題。 1、Java序列化含義。 Spark是基於JVM執行的進行，其序列化必然遵守Java的序列化規則。序列化就是指將一個

Spark序列化問題

本文主要從以下三個方面解釋Spark 應用中序列化問題。 1、Java序列化含義。 2、Spark程式碼為什麼需要序列化。 3、如何解決Spark序列化問題。 1、Java序列化含義。 Spark是基於JVM執行的進行，其序列化必然遵守Java的序列化規則。序列化就是指將一個物件轉化為二

Spark設定Kryo序列化緩衝區大小

背景

方法一：通過conf引數設定spark.kryoserializer.buffer.max

方法二：通過程式中拿到sparkConf物件設定spark.kryoserializer.buffer.max

1.設定Kryo為序列化類

2.設定spark.kryoserializer.buffer.max的值

3.檢查是否成功設定Kryo引數

參考文獻

相關推薦