kafka+sparkstreaming 的offset管理

阿新 • • 發佈：2019-01-24

需求：

在使用sparkstreaming消費kafka的topic時，對offset進行管理

網上資料比較少，而且參差不齊

管理的方法也有很多，區別主要在於offset儲存在哪裡，不同的儲存位置意味著不同的儲存以及讀取方法

本篇部落格主要記錄一下

如何通過kafka.consumer.SimpleConsumer這個類對offset進行儲存和讀取

這個類是將offset儲存於kafka內部的一個特殊的topic: __consumer_offsets 中

程式碼如下

package main.scala

import kafka.api.{OffsetCommitRequest, OffsetFetchRequest, TopicMetadataRequest}
import kafka.common.{OffsetAndMetadata, TopicAndPartition}
import kafka.consumer.SimpleConsumer
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Duration, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils}


//需求：消費者自定義控制offset
//在這裡offset儲存到kafka內部的特殊topic：__consumer_offsets中，使用kafka.consumer.SimpleConsumer類來進行一系列操作
object kafka_offset_learning {
  val groupid="user3"
  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("kafka-spark-demo")
    val scc = new StreamingContext(sparkConf, Duration(5000)) //new一個spark-streaming的上下文
    val topics = Set("kafka_test4") //我們需要消費的kafka資料的topic
    val kafkaParam = Map(
      "metadata.broker.list" -> "localhost:9092",// kafka的broker list地址
      "groupid"->groupid
    )
    val topic="kafka_test4"
    //檢視當前topic：__consumer_offsets中已儲存的最新的offset
    val simpleConsumer = new SimpleConsumer("localhost", 9092, 1000000, 64 * 1024, "test")//new一個consumer並連線上kafka
    val topiclist=Seq("kafka_test4")
    val topicReq = new TopicMetadataRequest(topiclist,0)//定義一個topic請求，為了獲取相關topic的資訊（不包括offset,有partition）
    val res = simpleConsumer.send(topicReq)//傳送請求，得到kafka相應
    val topicMetaOption = res.topicsMetadata.headOption
    //定義一個Topicandpartition的格式，便於後面請求offset
    val topicAndPartition: Seq[TopicAndPartition] = topicMetaOption match {
      case Some(tm) => tm.partitionsMetadata.map(pm => TopicAndPartition("kafka_test4", pm.partitionId))
      case None => Seq[TopicAndPartition]()
    }
    val fetchRequest = OffsetFetchRequest("user3",topicAndPartition)//定義一個請求，傳遞的引數為groupid,topic,partitionid,這三個也正好能確定對應的offset的位置
    val fetchResponse = simpleConsumer.fetchOffsets(fetchRequest).requestInfo//向kafka傳送請求並獲取返回的offset資訊
//    println(fetchRequest)
//    println(fetchResponse)
    val offsetl=fetchResponse.map{l=>
    val part_name=l._1.partition
    val offset_name=l._2.offset
  (topic,part_name,offset_name)
}
    println(offsetl.toList)
    //使用KafkaUtils.createDirectStream,使得kafka流從指定的offset開始
    val offsetList = offsetl.toList
//    val offsetList = List((topic, 0, 1L),(topic, 1, 1L),(topic, 2, 1L),(topic, 3, 1L))//在此只是用1做實驗，沒有變成動態的，實際情況應該是這裡的offset都是前面查出來已經儲存好的offset
    val fromOffsets = setFromOffsets(offsetList)//對List進行處理，變成需要的格式，即Map[TopicAndPartition, Long]
    val messageHandler = (mam: MessageAndMetadata[String, String]) => (mam.topic, mam.message()) //構建MessageAndMetadata，這個所有使用情況都是一樣的，就這麼寫

    //定義流.這種方法是不會在zookeeper的/consumers中建立一個新的groupid例項的
    val stream: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](scc, kafkaParam, fromOffsets, messageHandler)

    stream.print()//為了放出時間戳
    //將已更新的offset存入topic：__consumer_offsets中，以便下次使用
    //另外，這裡涉及到與外部系統即kafka的連線，所以要使用一下結構
    stream.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords =>
        //配置說明
        val simpleConsumer2 = new SimpleConsumer("localhost", 9092, 1000000, 64 * 1024, "test-client")
        partitionOfRecords.foreach { record =>
          val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges//這個語句可以返回當前rdd所更新到的offset值（OffsetRange(topic: 'kafka_test4', partition: 0, range: [1 -> 4])）
          for (o <- offsetRanges) {
            //在這裡o.untilOffset返回的是offset末態
            //而o.fromOffset返回的是offset初態
            //所以看需求進行儲存
            val topicAndPartition = TopicAndPartition(topic, o.partition)//定義一個格式
            val commitRequest = OffsetCommitRequest(groupid, Map(topicAndPartition -> OffsetAndMetadata(o.fromOffset)))//定義一個請求，注意，在這裡儲存的是fromOffset
            val commitResponse = simpleConsumer2.commitOffsets(commitRequest)//提交請求，完成offset儲存即更新
          }
        }

      }
    }
    scc.start() // 真正啟動程式
    scc.awaitTermination()
  }
  def setFromOffsets(list: List[(String, Int, Long)]): Map[TopicAndPartition, Long] = {
    var fromOffsets: Map[TopicAndPartition, Long] = Map()
    for (offset <- list) {
      val tp = TopicAndPartition(offset._1, offset._2)//topic和分割槽數
      fromOffsets += (tp -> offset._3)           // offset位置
    }
    fromOffsets
  }
}

在這裡補充一點：

KafkaUtils.createDirectStream這個方法建立的流是不會在zookeeper中建立一個/consumer/groupid節點的

因此即使是groupid也要自己管理

kafka+sparkstreaming 的offset管理

需求：在使用sparkstreaming消費kafka的topic時，對offset進行管理網上資料比較少，而且參差不齊管理的方法也有很多，區別主要在於offset儲存在哪裡，不同的儲存位置意味著不同的儲存以及讀取方法本篇部落格主要記錄一下如何通過kafka.consumer

大資料學習之路98-Zookeeper管理Kafka的OffSet

我們之前的OffSet都是交給broker自己管理的，現在我們希望自己管理。我們可以通過zookeeper進行管理。我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意：這裡使用客戶端的時候導包為：

sparkstreaming中kafka的offset提交

就kafka而言，offset提交方式有兩種，自動和手動。將enable.auto.commit設定為true，即可自動提交props.put("enable.auto.commit", "true");props.put("auto.commit.interval.ms",

Spark Kafka(createDirectStream)自己管理offset

4、使用Java來管理offset // 注意：一定要存在這個包下面 package org.apache.spark.streaming.kafka; import kafka.common.TopicAndPartition; import kafka.message.MessageAndMetada

kafka 消費者offset記錄位置和方式

inter size als 設置 zookeeper least partition tor topic 我們大家都知道，kafka消費者在會保存其消費的進度，也就是offset，存儲的位置根據選用的kafka api不同而不同。首先來說說消費者如果是根據javaa

獲取kafka最新offset-scala

com ora each main 通過最新 intval sim exist 無論是在spark streaming消費kafka，或是監控kafka的數據時，我們經常會需要知道offset最新情況 kafka數據的topic基於分區，並且通過每個partition的主

kafka-sparkstreaming---學習1

dsd pub row tap str shm UNC obj cts ---恢復內容開始--- import java.util.*; import org.apache.spark.SparkConf; import org.apache.spark.TaskCon

Flume+Kafka+SparkStreaming+Hbase+可視化（一）

日誌導入 ash channels style 導入 com system ase spark 一、前置準備： Linux命令基礎 Scala、Python其中一門 Hadoop、Spark、Flume、Kafka、Hbase基礎知識二、分布式日誌收集框架Flume

Kafka集群管理工具kafka-manager的安裝使用

用戶修改配置文件默認 nod pac 安裝包 oss col dht 一.kafka-manager簡介 kafka-manager是目前最受歡迎的kafka集群管理工具，最早由雅虎開源，用戶可以在Web界面執行一些簡單的集群管理操作。具體支持以下內容：

Window系統下Kafka視覺化管理工具Kafka-manager的安裝與配置

一.準備工具已編譯好的Kafka-manager安裝壓縮包(下載) 二.操作步驟 1.解壓縮安裝包,最好跟之前的Kafka包,Zookeeper包在同一目錄下,這樣方便修改管理. 2.修改D:\KafkaTo

SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

一、功能實現模擬log4j的日誌生產，將日誌輸出到flume伺服器。然後，通過flume將日誌資訊輸出到kafka，進而Streaming可以從kafka獲得日誌，並且進行簡單的處理。二、步驟 1.目的：使用log4j將日誌輸按照一定格式輸出，並且傳遞給flume伺服器特定埠接

kafka SparkStreaming

傳送的時候：kafka client 包裡的KafkaProducer，傳送的ProducerRecord 接受的時候：spark.streaming.kafka包裡的，0.10版本，KafkaUtils.createDirectStream Topic：kafka裡的AdminUtil

docker-compose安裝kafka叢集及管理監控工具

編寫docker-compose檔案配置zk 和kafka叢集 #vim kafka.yml version: '2'services: zoo1: image: zooke

Kafka提交offset機制

在kafka的消費者中，有一個非常關鍵的機制，那就是offset機制。它使得Kafka在消費的過程中即使掛了或者引發再均衡問題重新分配Partation，當下次重新恢復消費時仍然可以知道從哪裡開始消費。它好比看一本書中的書籤標記，每次通過書籤標記(offset)就能快速找到該從哪裡開始看(消費)。 Kafk

基於Kafka+SparkStreaming+HBase實時點選流案例

背景Kafka實時記錄從資料採集工具Flume或業務系統實時介面收集資料，並作為訊息緩衝元件為上游實時計算框架提供可靠資料支撐，Spark 1.3版本後支援兩種整合Kafka機制（Receiver-based Approach 和 Direct Approach），具體細節請參考文章最後官方文件連結，資料儲存

一次kafka的offset回退事件及相關知識點

目錄一，事件回顧 1，由3臺broker組成的kafka叢集，分別標記為broker0，broker1，broker2，某topic有3個副本，分別儲存在這三個broker上。 2，某日broker0掛了，broker1和bro

Spark Streaming 之 Kafka 偏移量管理

本文主要介紹 Spark Streaming 應用開發中消費 Kafka 訊息的相關內容，文章著重突出了開發環境的配置以及手動管理 Kafka 偏移量的實現。一、開發環境 1、元件版本 CDH 叢集版本：6.0.1 Spark 版本：2.2.0 Kafka 版本：1.0.1 2、M

kafka auto.offset.reset介紹

kafka + zookeeper,當訊息被消費時,會想zk提交當前groupId的consumer消費的offset資訊,當consumer再次啟動將會從此offset開始繼續消費.在consumter端配置檔案中(或者是ConsumerConfig類引數)有個"autoo

kafka的web管理工具---kafka-manager安裝部署

關於kafka叢集的安裝配置，請移步：https://blog.csdn.net/Johnson8702/article/details/84588095 一、背景在kafka裡面沒有一個較好自帶的web ui，啟動之後無法通過頁面檢視，所以，在這裡介紹一個第三方的kaf

使用Flume+Kafka+SparkStreaming進行實時日誌分析

每個公司想要進行資料分析或資料探勘，收集日誌、ETL都是第一步的，今天就講一下如何實時地（準實時，每分鐘分析一次）收集日誌，處理日誌，把處理後的記錄存入Hive中，並附上完整實戰程式碼 1. 整體架構思考一下，正常情況下我們會如何收集並分析日誌呢？

kafka+sparkstreaming 的offset管理

相關推薦