Kafka資料可靠性與一致性解析

阿新 • • 發佈：2019-01-20

1.Partition Recovery機制

每個Partition會在磁碟記錄一個RecoveryPoint, 記錄已經flush到磁碟的最大offset。當broker fail 重啟時,會進行loadLogs。首先會讀取該Partition的RecoveryPoint,找到包含RecoveryPoint的segment及以後的segment, 這些segment就是可能沒有完全flush到磁碟segments。然後呼叫segment的recover,重新讀取各個segment的msg,並重建索引

優點

1.以segment為單位管理Partition資料,方便資料生命週期的管理,刪除過期資料簡單

2.在程式崩潰重啟時,加快recovery速度,只需恢復未完全flush到磁碟的segment
3.通過index中offset與物理偏移對映,用二分查詢能快速定位msg,並且通過分多個Segment,每個index檔案很小,查詢速度更快。

2.Partition Replica同步機制

1.Partition的多個replica中一個為Leader,其餘為follower
2.Producer只與Leader互動,把資料寫入到Leader中
3.Followers從Leader中拉取資料進行資料同步
4.Consumer只從Leader拉取資料

ISR:所有不落後的replica集合, 不落後有兩層含義:距離上次FetchRequest的時間不大於某一個值或落後的訊息數不大於某一個值, Leader失敗後會從ISR中選取一個Follower做Leader

3.資料可靠性保證

當Producer向Leader傳送資料時,可以通過acks引數設定資料可靠性的級別

1.0: 不論寫入是否成功,server不需要給Producer傳送Response,如果發生異常,server會終止連線,觸發Producer更新meta資料;
2.1: Leader寫入成功後即傳送Response,此種情況如果Leader fail,會丟失資料
3.-1: 等待所有ISR接收到訊息後再給Producer傳送Response,這是最強保證
僅設定acks=-1也不能保證資料不丟失,當Isr列表中只有Leader時,同樣有可能造成資料丟失。要保證資料不丟除了設定acks=-1, 還要保證ISR的大小大於等於2,具體引數設定:
1.request.required.acks:設定為-1 等待所有ISR列表中的Replica接收到訊息後採算寫成功;
2.min.insync.replicas: 設定為大於等於2,保證ISR中至少有兩個Replica
Producer要在吞吐率和資料可靠性之間做一個權衡

4.資料一致性保證

一致性定義:若某條訊息對Consumer可見,那麼即使Leader宕機了,在新Leader上資料依然可以被讀到

1.HighWaterMark簡稱HW: Partition的高水位，取一個partition對應的ISR中最小的LEO作為HW，消費者最多隻能消費到HW所在的位置，另外每個replica都有highWatermark，leader和follower各自負責更新自己的highWatermark狀態，highWatermark <= leader. LogEndOffset
2.對於Leader新寫入的msg，Consumer不能立刻消費，Leader會等待該訊息被所有ISR中的replica同步後,更新HW,此時該訊息才能被Consumer消費，即Consumer最多隻能消費到HW位置

這樣就保證瞭如果Leader Broker失效,該訊息仍然可以從新選舉的Leader中獲取。對於來自內部Broker的讀取請求,沒有HW的限制。同時,Follower也會維護一份自己的HW,Folloer.HW = min(Leader.HW, Follower.offset)

主要參考&引用楊永輝wiki

Kafka資料可靠性與一致性解析

1.Partition Recovery機制

2.Partition Replica同步機制

3.資料可靠性保證

4.資料一致性保證

Kafka資料可靠性與一致性解析

kafka-如何保證訊息的可靠性與一致性

Kafka資料複製與Failover

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

Kafka資料可靠性深度解讀

論Spark Streaming的資料可靠性和一致性

論SparkStreaming的資料可靠性和一致性

深度解讀Kafka資料可靠性

Kafka 資料可靠性深度解讀

kafka資料可靠性詳解

Java資料結構與演算法解析(九)——B樹

lua資料儲存與檔案解析

Atlas kafka資料匯入失敗問題與zkUtils中Zookeeper連線解析

把kafka資料從hbase遷移到hdfs，並按天載入到hive表(hbase與hadoop為不同叢集)

資料結構與演算法MOOC-第四章字串練習題解析彙總

[Xcode10 實際操作]七、檔案與資料-(8 )讀取和解析Plist檔案(屬性列表檔案)

【資料結構與演算法經典問題解析--java語言描述】_第20、21章_學習記錄

kafka實戰 - 資料可靠性

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

併發操作與資料的不一致性

Kafka資料可靠性與一致性解析

1.Partition Recovery機制

2.Partition Replica同步機制

3.資料可靠性保證

4.資料一致性保證

相關推薦