sparkstreaming中kafka的offset提交

阿新 • • 發佈：2019-01-31

就kafka而言，offset提交方式有兩種，自動和手動。

將enable.auto.commit設定為true，即可自動提交

props.put("enable.auto.commit", "true");

props.put("auto.commit.interval.ms", "1000");

或者採用commitAsync來自動提交。

sparkstreaming消費kafka資料，提交方式也是分為自動和手動兩種。貌似是一樣的，但細節上有所不同。

kafka首次啟動的時候，一般會出現下面的情況。因為有資料擠壓，所以會有很多在queued狀態的batch。

如果資料量特別大，可能會出問題，因此引數spark.streaming.kafka.maxRatePerPartition

就尤為重要，他設定sparkstreaming沒秒每個分割槽最大的消費數量，使得擠壓的資料可以慢慢消費。

此時如果引數enable.auto.commit設定為false，並且程式碼端也不手動提交，通過日誌你會發現每個batch可以正常消費，但是伺服器上檢視kafka消費情況，卻是保持沒變，是不是很詭異。當你把任務重啟之後，會發下再次從最初的位置開始消費，也就是上次執行完全沒有任何效果。

因此可以看出sparkstreaming在消費kafka的時候，自己內部儲存了一組offset。它只在第一次消費的時候從kafka取offset，然後會一直按照自己內部儲存這個offset來消費資料，但是不會把這個資料提交給任何地方（kafka或zookeeper）。因此，當任務重啟後，還是會從最初的地方開始消費，因為上次任務的消費沒提交，kafka內部的offset沒更新。

所以，除非你的streaming程式永遠不停，否則最好手動提交offset。

sparkstreaming中kafka的offset提交

sparkstreaming中kafka的offset提交

解決js中post提交數據並且跳轉到指定頁面的問題總結

datagrid中reoload提交時如何批量提交表單中的查詢條件

關於java中 get提交方式的亂碼問題

unity中.meta提交錯誤操作導致空腳本

Git中撤銷提交 Git中撤銷提交

Struts2中重複提交表單分析

SparkStreaming中reduceByKeyAndWindow運算元的使用

獲取request請求中post提交的JSON格式資料並轉化成bean

eclipse中svn提交顯示錯誤svn: E200007: CHECKOUT can only be performed on a version resource

SSM 中Ajax 提交JSON資料時到後臺接收，需要的配置

Spark原始碼解析之SparkStreaming中Receiver的啟動

Spark學習筆記 --- SparkStreaming 中基本概念

extjs中submit提交後不進入success也不進入failure 解決方法

在idea中git提交程式碼步驟與先commit後pull程式碼衝突解決

javascript中的提交後臺手機驗證碼和後臺郵箱的介面

jsp中Get提交方式的中文亂碼解決辦法

hadoop中叢集提交任務執行

jQuery Mobile中無法提交表單的解決方法

Hadoop中job提交詳細過程

sparkstreaming中kafka的offset提交

相關推薦