sparkstreaming多consumer消費kafka報錯問題

阿新 • • 發佈：2019-01-17

交流QQ: 824203453

版本： sparkstreaming 2.2 kafka 0.10

sparkstreaming 整合kafka後（Direct模式），同一個groupid下的多個spark-streaming consumer消費kafka中的資料時，會報錯。（如何重現問題：把sparkstreaming集合kafka的程式，執行兩次即可）

報錯如下：

該主題下的資料不能訪問。

問題剖析：

假定消費主題為helloTopic8 , 該主題設定的分割槽數量為3個。

當使用kafka的javaAPI消費資料時，如果啟動同一個組下的多個consumer，程式不會報錯，但是真正能消費到資料的consumer數量，只能和消費的主題的partition的個數一致（這裡為3個）。其他的consumer不能消費到資料。

而當spark streaming 程式整合kafka後，DStream中的rdd的分割槽數和消費的helloTopic8的partition數量一致（也就是3個），所以執行spark streaming程式，也就相當於啟動了3個task來讀取kafka中helloTopic8的資料。

當重複再啟動一個程式時，會重新消費到helloTopic8中的3歌分割槽的數量，導致原來的程式讀取不到相應的資料，隨即報錯。

示例程式碼：

    val conf = new SparkConf()
    .setAppName(this.getClass.getSimpleName)
    .setMaster("local[*]")
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hdp-02:9092,hdp-03:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer], 
      "group.id" -> "group_hello",
      "auto.offset.reset" -> "earliest" // 最早的
//      "enable.auto.commit" -> (false: java.lang.Boolean)
     ) // 是否自動提交offset

    // 通過呼叫KafkaUtils API 來建立一個DStream
    val topics = Array("helloTopic8")
    val directStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream(ssc,
      LocationStrategies.PreferConsistent,
      // 訂閱主題 注意需要給定訊息的型別
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
    )
    directStream.map(_.value()).map((_,1)).reduceByKey(_+_).print()
    // 啟動  阻塞
    ssc.start()
    ssc.awaitTermination()

該問題類似於下面這個問題：

Caused by: java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

可參考：https://blog.csdn.net/qq_21439395/article/details/80412688

交流QQ: 824203453

sparkstreaming多consumer消費kafka報錯問題

sparkstreaming多consumer消費kafka報錯問題

Streaming消費kafka報錯：java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils

java 連接Kafka報錯java.nio.channels.ClosedChannelExcep

flume連線kafka報錯 Excessively large list allocation request detected: 1818583411 items! Connection clos

kafka報錯ClosedChannelException

tensorflow1.12 多GPU協同訓練報錯tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2

遇到問題--mongodb---多個criteria.orOperator或者多個criteria.andOperator報錯

python多執行緒操作報錯：No handlers could be found for logger "websocket"

storm整合kafka報錯org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for ...

maven多模組打包編譯報錯無法載入core包

kafka報錯

Keras+Django多次load model報錯

vue中使用axios.all() 方法發起多個請求控制檯報錯的解決方法

kafka 建立消費者報錯 consumer zookeeper is not a recognized option

SparkStreaming程式執行報錯SparkStreaming-Kafka- Couldn't find leaders for Set

java客戶端進行kafka測試時，生產者不能生產資訊，消費者不能消費資訊，而且沒有報錯，但是在虛擬機器中沒有任何錯誤

多模組專案spring整合dubbo,服務方正常啟動,消費方啟動報錯解決記錄

wampserver 安裝多個php版本號報錯之關鍵問題

yum 報錯：保護多庫版本

MyBatis多個接口參數報錯：Available parameters are [0, 1, param1, param2]，及解決方法

sparkstreaming多consumer消費kafka報錯問題

相關推薦