Kafka通過timestamp獲取offset的機制詳解

阿新 • • 發佈：2019-01-03

1、入口

Kafka Server 處理 Client 傳送來的請求的入口在

資料夾: core/src/main/scala/kafka/server

類：kafka.server.KafkaApis

方法: handle

處理offset請求的函式: handleOffsetRequest

2、處理邏輯

處理邏輯主要分為四步

獲取partition
從partition中獲取offset
high water mark 處理(這一段的資料太少了)
異常處理

由於request中包含查詢多個partition的offset的請求。所以最終會返回一個map，儲存有每個partition對應的offset

這裡主要介紹從某一個partition中獲取offset的邏輯，程式碼位置

kafka.log.Log#getOffsetsBefore(timestamp, maxNumOffsets)

從一個partition中獲取offset

1、建立offset與timestamp的對應關係，並儲存到資料中

//每個Partition由多個segment file組成。獲取當前partition中的segment列表

val segsArray = segments.view

// 建立陣列

var offsetTimeArray: Array[(Long, Long)] =null

if(segsArray.last.size >0)

offsetTimeArray =new

Array[(Long, Long)](segsArray.length +1)

else

offsetTimeArray =newArray[(Long, Long)](segsArray.length)

// 將 offset 與 timestamp 的對應關係新增到陣列中

for(i <-0until segsArray.length)

// 資料中的每個元素是一個二元組，(segment file 的起始 offset，segment file的最近修改時間)

offsetTimeArray(i) = (segsArray(i).start, segsArray(i).messageSet.file.lastModified)

if(segsArray.last.size >0)

// 如果最近一個 segment file 不為空，將(最近的 offset, 當前之間)也新增到該陣列中

offsetTimeArray(segsArray.length) = (logEndOffset, time.milliseconds)

通過這段邏輯，獲的一個數據 offsetTimeArray，每個元素是一個二元組，二元組內容是(offset, timestamp)

2、找到最近的最後一個滿足 timestamp < target_timestamp 的 index。

var startIndex = -1

timestamp match {

// 需要查詢的 timestamp 是 -1 或者 -2時，特殊處理

caseOffsetRequest.LatestTime => // OffsetRequest.LatestTime = -1

startIndex = offsetTimeArray.length -1

caseOffsetRequest.EarliestTime => // OffsetRequest.EarliestTime = -2

startIndex =0

case_ =>

var isFound =false

debug("Offset time array = "+ offsetTimeArray.foreach(o =>"%d, %d".format(o._1, o._2)))

startIndex = offsetTimeArray.length -1// 從最後一個元素反向找

while(startIndex >=0&& !isFound) { // 找到滿足條件或者

if(offsetTimeArray(startIndex)._2 <= timestamp) // offsetTimeArray 的每個元素是二元組，第二個位置是 timestamp

isFound =true

else

startIndex -=1

}

通過這段邏輯，實際找到的是 “最近修改時間早於目標timestamp的最近修改的segment file的起始offset”

但是獲取offset的邏輯並沒有結束，後續仍有處理

3、找到滿足該條件的offset陣列

實際上這個函式的功能是找到一組offset，而不是一個offset。第二個引數 maxNumOffsets 指定最多找幾個滿足條件的 offset。

獲取一組offset的邏輯

// 返回的資料的長度 = min(maxNumOffsets, startIndex + 1)，startIndex是邏輯2中找到的index

val retSize = maxNumOffsets.min(startIndex +1)

val ret = newArray[Long](retSize)

// 逐個將滿足條件的offset新增到返回的資料中

for(j <-0until retSize) {

ret(j) = offsetTimeArray(startIndex)._1

startIndex -=1

}

// 降序排序返回。offset 越大資料越新。

// ensure that the returned seq is in descending order of offsets

ret.toSeq.sortBy(- _)

最終返回這個陣列

3、注意事項

實際找到的offset並不是從目標timestamp開始的第一個offset。需要注意
當 timestamp 小於最老的資料檔案的最近修改時間時，返回值是一個空陣列。可能會導致使用時的問題。
調整segment file檔案拆分策略的配置時，需要注意可能會造成的影響。

引用公司董董wiki分享

Kafka通過timestamp獲取offset的機制詳解

1、入口 Kafka Server 處理 Client 傳送來的請求的入口在資料夾: core/src/main/scala/kafka/server 類：kafka.server.Kafka

【轉】kafka-檔案儲存機制詳解

文章轉自“美團技術部落格”：https://tech.meituan.com/ Kafka是什麼 Kafka是最初由Linkedin公司開發，是一個分散式、分割槽的、多副本的、多訂閱者，基於zookeeper協調的分散式日誌系統(也可以當做MQ系統)，常見可以用於web

kafka的auto.offset.reset詳解

最近也是有人問我kafka的auto.offset.reset設定為earliest後怎麼結果和自己想象的不一樣呢,相信很多人都對這個引數心存疑惑,今天來詳細講解一下: kafka-0.10.1.X版本之前: auto.offset.reset 的值為smallest,和,

kafka consumer消費者 offset groupID詳解

groupID:一個字串用來指示一組consumer所在的組。相同的groupID表示在一個組裡。相同的groupID消費記錄offset時，記錄的是同一個offset。所以，此處需要注意，（1）如果多個地方都使用相同的groupid，可能造成個別消費者消費不到的情況（2）如果單個消費者消費能力不足的

資料來源管理 | Kafka叢集環境搭建，訊息儲存機制詳解

本文原始碼：[GitHub·點這裡](https://github.com/cicadasmile/data-manage-parent) || [GitEE·點這裡](https://gitee.com/cicadasmile/data-manage-parent) # 一、Kafka叢集環境 ##

Java反射機制詳解一

java 反射反射機制工廠模式 1反射機制是什麽反射機制是在運行狀態中，對於任意一個類，都能夠知道這個類的所有屬性和方法；對於任意一個對象，都能夠調用它的任意一個方法和屬性；這種動態獲取的信息以及動態調用對象的方法的功能稱為java語言的反射機制。在面向對象的世界裏，萬事萬物皆對象.在ja

Java垃圾回收（GC）機制詳解

nbsp 引用計數維護 png 對象最新新的 com 前沿垃圾回收算法有兩種，根據不同的虛擬機策略不同 1、引用計數法 2、可達性分析法由於我們平常使用的hotspot虛擬機用的是第二種。那哪些是可達的呢？這個算法的基本思想是通過一系列稱為“GC Roots”

C#獲取當前時間詳解

部分 date itl http 小數 sta logs edi static 【轉】C#獲取當前日期時間(轉) http:[email protected]/* *//blog/static/549639712010112921658843/ 我們可

Java的內存回收機制詳解

out 結果 int destroy pan 得出 ida public toc http://blog.csdn.net/mengern/article/details/38150431 Java中提供了垃圾強制回收機制的方法System.gc()，但是系統並不保證會立即

Java反射機制詳解

ride length 數組大小 conf array arraycopy 動態調用 ray info Java反射機制詳解 |目錄 1反射機制是什麽 2反射機制能做什麽 3反射機制的相關API ·通過一個對象獲得完整的包名和類名 ·實例化Class類對象 ·獲

log4j實時將數據寫入到kafka,Demo和相關的配置詳解

producer ceshi class ogg slf4 lte std att mage 一：在項目中引入對應的JAR包，如下，註意對應的包與之前包的沖突 <dependencies> <dependency> <group

HTML5API之獲取地理位置詳解

ava scrip 什麽是全球定位程序 script 坐標無線顯示在使用地理位置API之前先來了解一下什麽是經度和緯度以及地理位置獲取的原理首先經度指的是南北極的連接線，緯度指的是東西的連接線地理位置的獲取原理是通過IP地址（能夠知道這個IP地址屬於哪個城市）

Cookie/Session機制詳解

order 隱藏對象 tro 這就是緩存 cat 時域共享創建會話（Session）跟蹤是Web程序中常用的技術，用來跟蹤用戶的整個會話。常用的會話跟蹤技術是Cookie與Session。Cookie通過在客戶端記錄信息確定用戶身份，Session通過在服務器端記錄

（轉）java的動態代理機制詳解

spring throw system urn log enc before 代理類三個參數原文出自：http://www.cnblogs.com/xiaoluo501395377/p/3383130.html 在學習Spring的時候，我們知道Spring主要

JVM類加載機制詳解（一）JVM類加載過程

進行虛擬機啟動類加載的時機 bsp 參與 tro ext 環境 java代碼首先Throws（拋出）幾個自己學習過程中一直疑惑的問題： 1、什麽是類加載？什麽時候進行類加載？ 2、什麽是類初始化？什麽時候進行類初始化？ 3、什麽時候會為變量分配內存？ 4、什麽時候會為

Java必知必會：異常機制詳解

賦值輸出結果類庫負數虛擬類名通過反射基於 all 一、Java異常概述在Java中，所有的事件都能由類描述，Java中的異常就是由java.lang包下的異常類描述的。 1、Throwable（可拋出）：異常類的最終父類，它有兩個子類，Error與Exce

Java類加載機制詳解

package itl prot 啟動 bool ddc 發現很多 har 一、類加載器類加載器（ClassLoader），顧名思義，即加載類的東西。在我們使用一個類之前，JVM需要先將該類的字節碼文件（.class文件）從磁盤、網絡或其他來源加載到內存中，並對字節碼進

Java的反射機制詳解（一）

pbc spa 詳解 uno face target lan tor cin 8n72q傅釁8戰sig叢http://www.docin.com/app/user/userinfo?userid=179185461 8u炊3F7LB椒1http://huiyi.docin.

java的動態代理機制詳解

following space h264 owin ipc ava smr hot lower Oq耗喊都自稚剿8斷0ohttp://shequ.docin.com/txqq_073ec59204 掀承U智泛纖06劣z粕05寡http://www.facebolw.com

虛擬機類加載機制詳解

cnblogs lpad 返回值虛擬機啟動 rec 關鍵字 ted 抽象類運行目錄：　　1.類加載的時機　　2.類加載的過程　　3.類加載器一、類加載的時機　　類從被加載到虛擬機內存中開始，到卸載除內存為止，他的整個生命周期包括：加載（Loading）、

Kafka通過timestamp獲取offset的機制詳解

1、入口

2、處理邏輯

1、建立offset與timestamp的對應關係，並儲存到資料中

2、找到最近的最後一個滿足 timestamp < target_timestamp 的 index。

3、找到滿足該條件的offset陣列

3、注意事項

相關推薦