kafka中處理超大訊息的一些考慮

阿新 • • 發佈：2018-12-13

時間：2015-02-01 00:38:26 閱讀：5854 評論：0 收藏：0 [點我收藏+]

標籤：

Kafka設計的初衷是迅速處理短小的訊息，一般10K大小的訊息吞吐效能最好（可參見LinkedIn的kafka效能測試）。但有時候，我們需要處理更大的訊息，比如XML文件或JSON內容，一個訊息差不多有10-100M，這種情況下，Kakfa應該如何處理？

針對這個問題，有以下幾個建議：

最好的方法是不直接傳送這些大的資料。如果有共享儲存，如NAS, HDFS, S3等，可以把這些大的檔案存放到共享儲存，然後使用Kafka來傳送檔案的位置資訊。
第二個方法是，將大的訊息資料切片或切塊，在生產端將資料切片為10K大小，使用分割槽主鍵確保一個大訊息的所有部分會被髮送到同一個kafka分割槽（這樣每一部分的拆分順序得以保留），如此以來，當消費端使用時會將這些部分重新還原為原始的訊息。
第三，Kafka的生產端可以壓縮訊息，如果原始訊息是XML，當通過壓縮之後，訊息可能會變得不那麼大。在生產端的配置引數中使用compression.codec和commpressed.topics可以開啟壓縮功能，壓縮演算法可以使用GZip或Snappy。

不過如果上述方法都不是你需要的，而你最終還是希望傳送大的訊息，那麼，則可以在kafka中設定下面一些引數：

broker 配置:

message.max.bytes (預設:1000000) – broker能接收訊息的最大位元組數，這個值應該比消費端的fetch.message.max.bytes更小才對，否則broker就會因為消費端無法使用這個訊息而掛起。
log.segment.bytes (預設: 1GB) – kafka資料檔案的大小，確保這個數值大於一個訊息的長度。一般說來使用預設值即可（一般一個訊息很難大於1G，因為這是一個訊息系統，而不是檔案系統）。

replica.fetch.max.bytes (預設: 1MB) – broker可複製的訊息的最大位元組數。這個值應該比message.max.bytes大，否則broker會接收此訊息，但無法將此訊息複製出去，從而造成資料丟失。

Consumer 配置:

fetch.message.max.bytes (預設 1MB) – 消費者能讀取的最大訊息。這個值應該大於或等於message.max.bytes。

所以，如果你一定要選擇kafka來傳送大的訊息，還有些事項需要考慮。要傳送大的訊息，不是當出現問題之後再來考慮如何解決，而是在一開始設計的時候，就要考慮到大訊息對叢集和主題的影響。

效能: 根據前面提到的效能測試，kafka在訊息為10K時吞吐量達到最大，更大的訊息會降低吞吐量，在設計叢集的容量時，尤其要考慮這點。
可用的記憶體和分割槽數：Brokers會為每個分割槽分配replica.fetch.max.bytes引數指定的記憶體空間，假設replica.fetch.max.bytes=1M，且有1000個分割槽，則需要差不多1G的記憶體，確保分割槽數*最大的訊息不會超過伺服器的記憶體，否則會報OOM錯誤。同樣地，消費端的fetch.message.max.bytes指定了最大訊息需要的記憶體空間，同樣，分割槽數*最大需要記憶體空間不能超過伺服器的記憶體。所以，如果你有大的訊息要傳送，則在記憶體一定的情況下，只能使用較少的分割槽數或者使用更大記憶體的伺服器。
垃圾回收：到現在為止，我在kafka的使用中還沒發現過此問題，但這應該是一個需要考慮的潛在問題。更大的訊息會讓GC的時間更長（因為broker需要分配更大的塊），隨時關注GC的日誌和伺服器的日誌資訊。如果長時間的GC導致kafka丟失了zookeeper的會話，則需要配置zookeeper.session.timeout.ms引數為更大的超時時間。

一切的一切，都需要在權衡利弊之後，再決定選用哪個最合適的方案。

kafka中處理超大訊息的一些考慮

時間：2015-02-01 00:38:26 閱讀：5854 評論：0 收藏：0&n

Kafka中Broker儲存訊息的方式

1.儲存方式物理上把topic分成一個或多個patition(對應 server.properties 中的num.partitions=3配置)，每個patition物理上對應一個檔案 (該資料夾儲存該patition的所有訊息和索引檔案) 2.儲存策略無論訊息

Kafka consumer處理大訊息資料問題

案例分析處理kafka consumer的程式的時候，發現如下錯誤： ERROR [2017-01-12 07:16:02,466] com.flow.kafka.consumer.main.KafkaConsumer: Unexpected Error Occurred ! kafka.common.Me

在QT4中處理windows訊息

QT4，IDE為QTCreator 為了能處理某些qt無法處理的事件，或者在Qt將訊息封裝之前能做某些操作等等，我們可以自己處理windows事件。處理windows事件是重寫QApplication::winEventFilter(MSG*,long)函式來實現的。假

工作中對數組的一些處理，整理（結合underscore.js）

xxx var 工作 arr 整理對象分隔 cor soft 1.數組裏邊相同元素提取成map,並以‘’,‘’分隔　　例如：var arr = [{a:"xx",b:‘‘xxx‘‘},{a:"xxx",b:‘‘xxxxx‘‘},.....]; 　　想要的結果 a =

雲桌面使用中經常出現的一些問題該如何去判斷和處理

雲桌面雲桌面啟動顯示器不亮和了黑屏1首選檢查雲終端和顯示器是否通電電源開關是否打開的2檢查顯示器後面的雲終端的狀態指示燈是否有長亮的，不亮的話是雲終端沒通電的重新插拔下電源的3從其他可用的雲桌面上更換顯示器雲終端電源測試判斷是否為硬件故障的出現大批雲桌面無法登錄問題1首選先檢查看服務器是否已經全部正常啟動的，

C#中呼叫Windows訊息處理

引入User32.dll中的方法進行處理： public class Win32ApiMessage { [StructLayout(LayoutKind.Sequential)] public struct MSG {

訊息中介軟體—簡談Kafka中的NIO網路通訊模型

摘要：很多人喜歡把RocketMQ與Kafka做對比，其實這兩款訊息佇列的網路通訊層還是比較相似的，本文就為大家簡要地介紹下Kafka的NIO網路通訊模型前面寫的兩篇RocketMQ原始碼研究筆記系列：（1）訊息中介軟體—RocketMQ的RPC通訊（一）

Java中對字串的一些常見處理

三者分別有各自適用的場合。 String：適用於少量的字串操作的情況。 StringBuilder：適用於單執行緒下在字元緩衝區進行大量操作的情況。 StringBuffer：適用多執行緒下在字元緩衝區進行大量操作的情況。 String用法： 1、將陣列中元素

Java中遇到過的一些異常及處理

異常：Bean named 'org.springframework.transaction.interceptor.TransactionInterceptor#0' is expected to be of type 'org.aopalliance.aop.Advice' but was actuall

Android中的非同步訊息處理機制

這也是Android中老生常談的一個話題了，它本身並不是很複雜，可是面試官比較喜歡問。本文就從原始碼再簡單的理一下這個機制。也可以說是理一下Handler、Looper、MessageQueue之間的關係。單執行緒中的訊息處理機制的實現首先我們以Looper.java原始碼中給出的一個例子來

SQL 中單引號和一些特殊字元的處理

為了防止程式SQL語句錯誤以及SQL注入，單引號必須經過處理。有2種辦法： 1、使用引數，比如SELECT * FROM yourTable WHERE name = @name; 在JAVA中就是用預處理PreparedStatement來新增引數。 2、如果不

java獲取kafka中的訊息資料

簡單介紹讀取kafka中的資料（即消費者）1、用到的java類2、定義消費者物件3、建立消費者物件1）、ConsumerConnector是通過ConsumerConfig來建立的，具體程式碼如下2）、配置資訊的配置4、獲取kafka中的資料圖

MFC——12.話框中對鍵盤訊息的響應處理&&如何響應wm_char訊息

This member function is called by the framework to allow your application to handle a Windows message. The parameters passed to your function reflect the p

Kafka中的訊息是否會丟失和重複消費

在之前的基礎上，基本搞清楚了Kafka的機制及如何運用。這裡思考一下：Kafka中的訊息會不會丟失或重複消費呢？為什麼呢？要確定Kafka的訊息是否丟失或重複，從兩個方面

基於Kafka的生產者消費者訊息處理本地除錯

Kafka下載地址：http://download.csdn.net/download/qq_25827845/9798176安裝解壓即可配置修改zookeeper.properties 與 serve

VC2008中處理CStatic控制元件的單擊STN_CLICKED訊息

在MFC中，靜態文字CStatic控制元件主要是用來作為標籤，即作為註釋用的。一般情況下不做訊息響應。但是有時特殊情況下會做一些訊息響應，比如處理單擊事件STN_CLICKED等。在VC2008下使用MFC建立了一個基於對話方塊的應用程式。新增一個CS

java中對Date日期一些處理

package com.hx.cyb.common.util; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import ja

在MFC中手動新增訊息處理函式PreTranslateMessage

1、是否呼叫TranslateMessage()和DispatchMessage()是由一個名稱為PreTranslateMessage()函式的返回值決定的，如果該函式返回TRUE，則不會把該訊息分發給視窗函式處理。

HadoopConsumer——消費kafka中若干topic的訊息，追加儲存至hdfs的不同檔案內

在kafka原始碼提供的hadoopconsumer的基礎上進行開發，該程式可消費多個topic的訊息，追加至hdfs檔案中。本程式的輸入輸出檔案有：配置檔案：topics.properties，指定要消費的topic列表，broker列表，以及程式被呼叫的時

kafka中處理超大訊息的一些考慮

相關推薦