spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（mysql方式，利用事務）

阿新 • • 發佈：2022-04-05

/**
  * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到MySQL中
  * 1.將聚合好的資料，收集到Driver端，
  * 2.然後建計算好的資料和偏移量在一個事物中同時儲存到MySQL中
  * 3.成功了提交事物
  * 4.失敗了讓這個任務重啟
  *
  * MySQL資料庫中有兩張表：儲存計算好的結果、儲存偏移量
  */
object ExactlyOnceWordCountOffsetStoreInMySQL {

  def main(args: Array[String]): Unit = {

    //true a1 g1 ta,tb
    val Array(isLocal, appName, groupId, allTopics) = args


    val conf = new SparkConf()
      .setAppName(appName)

    if (isLocal.toBoolean) {
      conf.setMaster("local[*]")
    }


    //建立StreamingContext，並指定批次生成的時間
    val ssc = new StreamingContext(conf, Milliseconds(5000))
    //設定日誌級別
    ssc.sparkContext.setLogLevel("WARN")

    //SparkStreaming 跟kafka進行整合
    //1.匯入跟Kafka整合的依賴
    //2.跟kafka整合，建立直連的DStream【使用底層的消費API，效率更高】

    val topics = allTopics.split(",")

    //SparkSteaming跟kafka整合的引數
    //kafka的消費者預設的引數就是每5秒鐘自動提交偏移量到Kafka特殊的topic中: __consumer_offsets
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "node-1.51doit.cn:9092,node-2.51doit.cn:9092,node-3.51doit.cn:9092",
      "key.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
      "value.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest" //如果沒有記錄偏移量，第一次從最開始讀，有偏移量，接著偏移量讀
      , "enable.auto.commit" -> (false: java.lang.Boolean) //消費者不自動提交偏移量
    )

    //在建立KafkaDStream之前要先讀取MySQL資料庫，查詢歷史偏移量，沒有就從頭讀，有就接著讀
    //offsets: collection.Map[TopicPartition, Long]
    val offsets: Map[TopicPartition, Long] = OffsetUtils.queryHistoryOffsetFromMySQL(appName, groupId)

    //跟Kafka進行整合，需要引入跟Kafka整合的依賴
    //createDirectStream更加高效，使用的是Kafka底層的消費API，消費者直接連線到Kafka的Leader分割槽進行消費
    //直連方式，RDD的分割槽數量和Kafka的分割槽數量是一一對應的【數目一樣】
    val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent, //排程task到Kafka所在的節點
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, offsets) //指定訂閱Topic的規則
    )

    kafkaDStream.foreachRDD(rdd => {

      //判斷當前批次的RDD是否有資料
      if (!rdd.isEmpty()) {

        //獲取RDD所有分割槽的偏移量
        val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

        //實現WordCount業務邏輯
        val words: RDD[String] = rdd.flatMap(_.value().split(" "))
        val wordsAndOne: RDD[(String, Int)] = words.map((_, 1))
        val reduced: RDD[(String, Int)] = wordsAndOne.reduceByKey(_ + _)
        //將計算好的結果收集到Driver端再寫入到MySQL中【保證資料和偏移量寫入在一個事物中】
        //觸發Action，將資料收集到Driver段
        val res: Array[(String, Int)] = reduced.collect()

        //建立一個MySQL的連線【在Driver端建立】
        //預設MySQL自動提交事物

        var connection: Connection = null
        var ps1: PreparedStatement = null
        var ps2: PreparedStatement = null
        try {
          connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata", "root", "123456")
          //不要自動提交事物
          connection.setAutoCommit(false)

          ps1 = connection.prepareStatement("INSERT INTO t_wordcount (word, counts) VALUES (?, ?) ON DUPLICATE KEY UPDATE counts = counts + ?")
          //將計算好的WordCount結果寫入資料庫表中，但是沒有提交事物
          for (tp <- res) {
            ps1.setString(1, tp._1)
            ps1.setLong(2, tp._2)
            ps1.setLong(3, tp._2)
            ps1.executeUpdate() //沒有提交事物，不會講資料真正寫入到MySQL
          }

          //(app1_g001, wc_0) ->  1000
          ps2 = connection.prepareStatement("INSERT INTO t_kafka_offset (app_gid, topic_partition, offset) VALUES (?, ?, ?) ON DUPLICATE KEY UPDATE offset = ?")
          //將偏移量寫入到MySQL的另外一個表中，也沒有提交事物
          for (offsetRange <- offsetRanges) {
            //topic名稱
            val topic = offsetRange.topic
            //topic分割槽編號
            val partition = offsetRange.partition
            //獲取結束偏移量
            val untilOffset = offsetRange.untilOffset
            //將結果寫入MySQL
            ps2.setString(1, appName + "_" + groupId)
            ps2.setString(2, topic + "_" + partition)
            ps2.setLong(3, untilOffset)
            ps2.setLong(4, untilOffset)
            ps2.executeUpdate()
          }

          //提交事物
          connection.commit()

        } catch {
          case e: Exception => {
            //回滾事物
            connection.rollback()
            //讓任務停掉
            ssc.stop()
          }
        } finally {
          if(ps2 != null) {
            ps2.close()
          }
          if(ps1 != null) {
            ps1.close()
          }
          if(connection != null) {
            connection.close()
          }
        }
      }
    })


    ssc.start()

    ssc.awaitTermination()


  }
}

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（mysql方式，利用事務）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到MySQL中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（redis方式，利用pipeline）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到Redis中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中非聚合類運算如何和kafka保持exactly once一致性語義（冪等性方式）

object KafkaToHbase { def main(args: Array[String]): Unit = { //true a1 g1 ta,tb val Array(isLocal, appName, groupId, allTopics) = args

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

Spark Streaming整合Kafka調優

調優 Spark Streaming整合Kafka時，當資料量較小時預設配置一般都能滿足我們的需要，但是當資料量大的時候，就需要進行一定的調整和優化。

spark-streaming整合Kafka處理實時資料

在這篇文章裡，我們模擬了一個場景，實時分析訂單資料，統計實時收益。場景模擬

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。

Mybatis中實體類屬性和資料列之間對映的四種辦法

Mybatis不像Hibernate中那麼自動化，通過@Column註解或者直接使用實體類的屬性名作為資料列名，而是需要自己指定實體類屬性和

在java中由類名和方法名字串實現其呼叫方式

js裡通過eval（）函式，在知道某個方法名是可以實現呼叫該方法，那麼在java裡邊又怎麼實現的呢？

Js中的位運算和許可權設計

1. 內容概要本文主要討論以下兩個問題： JavaScript的位運算：先簡單回顧下位運算，平時用的少，相信不少人和我一樣忘的差不多了

如何在Visual Studio 2019中啟動並配置一個使用pyTorch的C++專案（Windows系統，CMAKE專案）

首先感謝做這個視訊的小哥： https://www.youtube.com/watch?v=6eTVqYGIWx0&t=165s&ab_channel=PythonEngineer

人臉識別中的重要環節-對齊之3D變換-Java版（文末附開源地址）

人臉對齊通過人臉關鍵點檢測得到人臉的關鍵點座標，然後根據人臉的關鍵點座標調整人臉的角度，使人臉對齊，由於輸入影象的尺寸是大小不一的，人臉區域大小也不相同，角度不一樣，所以要通過座標變換，對人臉影象進

spark-streaming與kafka的整合

1. 概述在2.x中，spark有兩個用來與kafka整合的程式碼，版本代號為0.8和0.10，由於在0.8，kafka有兩套消費者api，根據高階api得到了Receiver-based Approach，根據低階api得到了Direct Approach，而在0.10由於kaf

關於Python中定製類的比較運算例項

Python中的比較運算有幾種：小於、小於等於、等於、大於等於、大於、不等於等。如果我們的資料物件具有明確的物理含義，比如說數值是帶有數字與物理單位的字串組合，那麼進行大小比較的時候就可以做此定製。

Spark Streaming讀取Kafka資料的兩種方式

Kafka在0.8和0.10之間引入了一種新的消費者API,因此,Spark Streaming與Kafka整合,有兩種包可以選擇:spark-streaming-kafka-0-8與spark-streaming-kafka-0-10。在使用時應注意以下幾點:

基於Spark Streaming + Canal + Kafka對Mysql增量資料實時進行監測分析

1.Canal是什麼？2.如何編寫Canal客戶端？3.如何編寫一個數據庫操作的Spark程式程式碼？4.開發Spark專案時容易發生哪些衝突問題？Spark中的Spark Streaming可以用於實時流專案的開發，實時流專案的資料來源除了可以來

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

spark實戰(一)——eclipse環境下Spark Streaming+Kafka+Hbase

技術標籤：SparkStreamingHbaseKafka大資料sparkHbasehbase 前言一、開發環境搭建二、使用步驟

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（mysql方式，利用事務）

相關推薦