storm中的ack機制

我們知道storm一個很重要的特性是它能夠保證你發出的每條訊息都會被完整處理，完整處理的意思是指：

一個tuple被完全處理的意思是：這個tuple以及由這個tuple所導致的所有的tuple都被成功處理。而一個tuple會被認為處理失敗瞭如果這個訊息在timeout所指定的時間內沒有成功處理。

也就是說對於任何一個spout-tuple以及它的所有子孫到底處理成功失敗與否我們都會得到通知。關於如果做到這一點的原理，可以看看Twitter Storm如何保證訊息不丟失這篇文章。從那篇文章裡面我們可以知道，storm裡面有個專門的acker來跟蹤所有tuple的完成情況。這篇文章就來討論acker的詳細工作流程。

原始碼列表

這篇文章涉及到的原始碼主要包括:

演算法簡介

acker對於tuple的跟蹤演算法是storm的主要突破之一，這個演算法使得對於任意大的一個tuple樹，它只需要恆定的20位元組就可以進行跟蹤了。原理很簡單：acker對於每個spout-tuple儲存一個ack-val的校驗值，它的初始值是0，然後每發射一個tuple/ack一個tuple，那麼tuple的id都要跟這個校驗值異或一下，並且把得到的值更新為ack-val的新值。那麼假設每個發射出去的tuple都被ack了，那麼最後ack-val一定是0(因為一個數字跟自己異或得到的值是0)。

進入正題

那麼下面我們從原始碼層面來看看哪些元件在哪些時候會給acker傳送什麼樣的訊息來共同完成這個演算法的。acker對訊息進行處理的主要是下面這塊程式碼：

幫助

01 02 03 04 05 06 07 08 09 10 11

(let

id
 (.getValue tuple 0)

^TimeCacheMap
 pending @pending

curr
 (.get pending id)

curr
 (condp = (.getSourceStreamId tuple)

ACKER-INIT-STREAM-ID
 (-> curr

(update-ack
 id)

(assoc

:spout-task


(.getValue tuple 1)))

ACKER-ACK-STREAM-ID
 (update-ack

curr
 (.getValue tuple 1))

ACKER-FAIL-STREAM-ID
 (assoc curr

:failed


true))

] ...)

Spout建立一個新的tuple的時候給acker傳送訊息

訊息格式(看上面程式碼的第1行和第7行對於tuple.getValue()的呼叫)

幫助

1	`(spout-tuple-id, task-id)`

訊息的streamId是__ack_init(ACKER-INIT-STREAM-ID)

這是告訴acker, 一個新的spout-tuple出來了，你跟蹤一下，它是由id為task-id的task建立的(這個task-id在後面會用來通知這個task：你的tuple處理成功了/失敗了)。處理完這個訊息之後， acker會在它的pending這個map(型別為TimeCacheMap)裡面新增這樣一條記錄:

幫助

1	`{spout-tuple-id {:spout-task` `task-id:val` `ack-val)}`

這就是acker對spout-tuple進行跟蹤的核心資料結構，對於每個spout-tuple所產生的tuple樹的跟蹤都只需要儲存上面這條記錄。acker後面會檢查:val什麼時候變成0，變成0，說明這個spout-tuple產生的tuple都處理完成了。

Bolt發射一個新tuple的時候會給acker傳送訊息麼？

任何一個bolt在發射一個新的tuple的時候,是不會直接通知acker的，如果這樣做的話那麼每發射一個訊息會有三條訊息了：

Bolt建立這個tuple的時候，把它發給下一個bolt的訊息
~~Bolt建立這個tuple的時候，傳送給acker的訊息~~
ack tuple的時候傳送的ack訊息

事實上storm裡面只有第一條和第三條訊息，它把第二條訊息省掉了，怎麼做到的呢？storm這點做得挺巧妙的，bolt在發射一個新的bolt的時候會把這個新tuple跟它的父tuple的關係儲存起來。然後在ack每個tuple的時候，storm會把要ack的tuple的id, 以及這個tuple新建立的所有的tuple的id的異或值傳送給acker。這樣就給每個tuple省掉了一個訊息(具體看下一節)。

Tuple被ack的時候給acker傳送訊息

每個tuple在被ack的時候，會給acker傳送一個訊息，訊息格式是:

幫助

1	`(spout-tuple-id, tmp-ack-val)`

訊息的streamId是__ack_ack(ACKER-ACK-STREAM-ID)

注意，這裡的tmp-ack-val是要ack的tuple的id與由它新建立的所有的tuple的id異或的結果：

原始碼列表

演算法簡介

進入正題

Spout建立一個新的tuple的時候給acker傳送訊息

Bolt發射一個新tuple的時候會給acker傳送訊息麼？

Tuple被ack的時候給acker傳送訊息

Storm的ack機制

storm 的ack機制（可靠性）

協議設計中ACK機制的影響

storm中的ack機制

【Streaming】我在拓撲中使用了Ack機制，為什麼在Storm UI上有大量Failed資料？

Storm的BaseBasicBolt原始碼解析ack機制

ack是什麼，如何使用Ack機制，如何關閉Ack機制，基本實現，STORM的訊息容錯機制，Ack機制

storm的ack訊息不丟失機制

storm ack機制流程詳解

storm(二) 事務機制

JAVA中反射機制五（JavaBean的內省與BeanUtils庫）

JAVA中反射機制六（java.lang.reflect包）

Java中反射機制詳解

MXNet中bucket機制註記

Storm中Task數的設置與計算（1.0.1版本）

【Storm篇】--Storm並發機制

java中import機制(指定import和import *的區別)

關於JavaScript中prototype機制的理解

Storm的容錯機制

在storm中運行jar產生模擬數據的時候，遇見的問題

storm中的ack機制

原始碼列表

演算法簡介

進入正題

Spout建立一個新的tuple的時候給acker傳送訊息

Bolt發射一個新tuple的時候會給acker傳送訊息麼？

Tuple被ack的時候給acker傳送訊息

相關推薦