kafka的topic多分割槽的情況，如何保證跨區的訊息消費的順序性

阿新 • • 發佈：2019-02-18

這個問題嚴格來說是肯定有的，kafka只能保證分割槽內的有序性。

下面是kafka作者Jay Kreps的blog中介紹kafka設計思想的一段話。

Each partition is a totally ordered log, but there is no global ordering between partitions (other than perhaps some wall-clock time you might include in your messages). The assignment of the messages to a particular partition is controllable by the writer, with most users choosing to partition by some kind of key (e.g. user id). Partitioning allows log appends to occur without co-ordination between shards and allows the throughput of the system to scale linearly with the Kafka cluster size.

針對部分訊息有序（message.key相同的message要保證消費順序）場景，可以在producer往kafka插入資料時控制，同一key分發到同一partition上面。

kafka原始碼如下，支援該方式

private[kafka]classDefaultPartitioner[T]extendsPartitioner[T]{
  privateval random = newjava.util.Random
  def partition(key: T, numPartitions: Int): Int = {
    if(key== null){
        println("key is null")
        random.nextInt(numPartitions)
    }
    else{
        println("key is "+ key + " hashcode is "+key.hashCode)
        math.abs(key.hashCode) % numPartitions
    }
  }
}

在kafka-storm中，如果one partition -> one consumer instance 的話，就沒這樣的問題，但失去了並行。

如果N1 partitions -> N2 consumer instances的話，

1）N1<N2，這種情況會造成部分consumer空轉，資源浪費。

2）N1>N2（N2>1），這種情況，每個kafka-spout例項會消費固定的1個或者幾個partition，msg不會被不同consumer重複消費。

3）N1=N2，這種情況，實際操作發現，1個consumer instance都對應消費1個partition。1個partition只會有1個consumer例項，否則需要加鎖等操作，這樣減少了消費控制的複雜性。

具體應用場景：

計算使用者在某個位置的滯留時間，日誌內容可以抽象成使用者ID、時間點、位置。

應用系統－》日誌檔案sftp伺服器－》資料採集層－》kafka－》storm實時資料清洗處理層－》Redis、Hbase－》定時任務、mapreduce

在整合測試期間，由於沒有實際的日誌，所以在採集層模擬往kafka插入資料（特別在傳送頻率模擬的很粗糙），發現在實時處理層，計算出來使用者在某個位置滯留時間計算出來為負數，原因如下，

1）採集層模擬不真實（同一使用者往kafka插入的位置的時間是隨機生成），但要考慮目前的日誌檔案sftp伺服器或者採集層是否會有這種情況，如果有，可以從業務層面規避，過濾掉該條無效資料。

2）就是storm中tuple處理失敗，重發，kafka-storm中就使offset回到失敗的那個位置，但之前位置資訊可能已經快取到了redis（為了減少hbase訪問次數，使用者的最近一條位置資訊放在了redis中），這樣offset之後的所有訊息會重新被消費，這樣以來滯留時間為負數，可以過濾掉該條記錄，不存到redis中。

真實資料：U1 T1 A1->U1 T2 A2

fail重發：U1 T1 A1->U1 T2 A2 -> 前兩條都失敗，重發 -> U1 T1 A1(負數的滯留時間) -> U1 T2 A2

由於採用的是失敗重發，是at least once，如果是only once的話，就會沒有這樣的情況，

PS：一些原理性問題，可以參考“kafka消費原理”介紹。

kafka的topic多分割槽的情況，如何保證跨區的訊息消費的順序性

tf.transpose函式的用法講解（多維情況，看似複雜，其實也簡單）

pycharm中pandas讀取的CSV列多的情況，設定不換行

RabbitMQ訊息通訊，一個生產者和多個消費者，廣播式訊息通訊

OSSpinLockLock加鎖機制，保證線程安全並且性能高

阿裏Java面試題剖析：在高並發的情況下如何保證消息的順序性？

如何保證訊息的順序性？

Kafka如何保證消息的順序性

kafka的topic多分割槽的情況，如何保證跨區的訊息消費的順序性

kafka系列-kafka多分割槽的情況下保證資料的有序性

六個框架，一百多條檢查項目，保證PCB設計不再出錯

多執行緒，高併發的情況下操作redis當中的資料，如何加鎖？

GPT_MBR與GPT分割槽掃盲，希捷2T、3T硬碟測評（多圖殺貓）。申精！

linux的crontab裡面，保證最多執行一個程序/兩個程序/多個程序的解決方法

消費RabbitMQ時的注意事項，如何禁止大量的訊息湧到Consumer，保證執行緒安全

easyui 判斷select下拉框是否多選，多選情況下清空預設值

一個總店與多個分店的情況，要求每天分店將業務資料上傳到總店

mysql case when多條件同時滿足的多個and組合巢狀的情況，判斷空is null --- 系列一

高併發情況下如何保證訊息的順序

Java 利介面來實現多型的情況，和利用介面實現多重繼承！

MFC中CEdit多行情況下，呼叫GetLine()時，發現老是後面跟有亂碼【轉載】

kafka的topic多分割槽的情況，如何保證跨區的訊息消費的順序性

相關推薦