Kafka Producer 傳送資料

阿新 • • 發佈：2018-12-15

Kafka Producer 傳送資料

（1）生產者概覽

（1）不同的應用場景對訊息有不同的需求，即是否允許訊息丟失、重複、延遲以及吞吐量的要求。不同場景對Kafka生產者的API使用和配置會有直接的影響。
（2）Kafka傳送訊息的主要步驟
訊息格式：每個訊息是一個ProducerRecord物件，必須指定訊息所屬的Topic和訊息值Value，此外還可以指定訊息所屬的Partition以及訊息的Key。

1：序列化ProducerRecord有多個構造器，這裡使用了三個引數的，topic、key、value

2：如果ProducerRecord中指定了Partition，則Partitioner不做任何事情；否則，Partitioner根據訊息的key得到一個Partition。這是生產者就知道向哪個Topic下的哪個Partition傳送這條訊息。

3：訊息被新增到相應的batch中，獨立的執行緒將這些batch傳送到Broker上

4：broker收到訊息會返回一個響應。如果訊息成功寫入Kafka，則返回RecordMetaData物件，該物件包含了Topic資訊、Patition資訊、訊息在Partition中的Offset資訊；若失敗，返回一個錯誤在這裡插入圖片描述
（3）Kafka的順序保證。Kafka保證同一個partition中的訊息是有序的，即如果生產者按照一定的順序傳送訊息，broker就會按照這個順序把他們寫入partition，消費者也會按照相同的順序讀取他們。

（2）建立Kafka生產者

Properties props = new Properties();
props.put(“bootstrap.servers”, “broker:port”);
props.put(“acks”, “all”);// acks=0 配置適用於實現非常高的吞吐量 , acks=all 這是最安全的模式
//傳送到同一個partition的訊息會被先儲存在batch中，該引數指定一個batch可以使用的記憶體大小，單位是 byte。不一定需要等到batch被填滿才能傳送
props.put(“batch.size”, 16384);// 預設16384=16KB

//生產者在傳送訊息前等待linger.ms，從而等待更多的訊息加入到batch中。如果batch被填滿或者linger.ms達到上限，就把batch中的訊息傳送出去
props.put(“linger.ms”, 1);// 當linger.ms>0時，延時性會增加，但會提高吞吐量，因為會減少訊息傳送頻率
// props.put(“client.id”, 1);//用於標識傳送訊息的客戶端，通常用於日誌和效能指標以及配額
props.put(“buffer.memory”, 33554432);// 32MB
// Snappy壓縮技術是Google開發的，它可以在提供較好的壓縮比的同時，減少對CPU的使用率並保證好的效能，所以建議在同時考慮效能和頻寬的情況下使用。
// Gzip壓縮技術通常會使用更多的CPU和時間，但會產生更好的壓縮比，所以建議在網路頻寬更受限制的情況下使用
props.put(“compression.type”, “Gzip”);// 預設不壓縮，該引數可以設定成snappy、gzip或lz4對傳送給broker的訊息進行壓縮
// 預設值為0，當設定為大於零的值，客戶端會重新發送任何傳送失敗的訊息。
// 注意，此重試與客戶端收到錯誤時重新發送訊息是沒有區別的。
// 在配置max.in.flight.requests.per.connection不等於1的情況下，允許重試可能會改變訊息的順序
// 因為如果兩個批次的訊息被髮送到同一個分割槽，第一批訊息傳送失敗但第二批成功，而第一批訊息會被重新發送，則第二批訊息會先被寫入。
props.put(“retries”, 1);
props.put(“max.in.flight.requests.per.connection”, 2);// 生產者在收到伺服器響應之前可以傳送的訊息個數
props.put(“key.serializer”, “org.apache.kafka.common.serialization.StringSerializer”);
props.put(“value.serializer”, “org.apache.kafka.common.serialization.StringSerializer”);
Producer<String, String> producer = new KafkaProducer<String, String>(props);

Kafka的生產者有如下三個必選的屬性：

（1）bootstrap.servers，指定broker的地址清單

（2）key.serializer必須是一個實現org.apache.kafka.common.serialization.Serializer介面的類，將key序列化成位元組陣列。注意：key.serializer必須被設定，即使訊息中沒有指定key。

（3）value.serializer，將value序列化成位元組陣列

（3）傳送訊息到Kafka

1）同步傳送訊息

ProducerRecord<String, String> record = new ProducerRecord<>(“Kafka”, “Kafka_Products”, “測試”);//Topic Key Value
try{
Future future = producer.send(record);
future.get();//不關心是否傳送成功，則不需要這行。
} catch(Exception e) {
e.printStackTrace();//連線錯誤、No Leader錯誤都可以通過重試解決；訊息太大這類錯誤kafkaProducer不會進行任何重試，直接丟擲異常
}
或者
for (int i = 0; i < 100; i++) {
//ProducerRecord有多個構造器，這裡使用了三個引數的，topic、key、value。
producer.send(new ProducerRecord<String, String>(“topic”, Integer.toString(i), Integer.toString(i)));
}
producer.close();

2）非同步傳送訊息

ProducerRecord<String, String> record = new ProducerRecord<>(“Kafka”, “Kafka_Products”, “測試”);//Topic Key Value
producer.send(record, new DemoProducerCallback());//傳送訊息時，傳遞一個回撥物件，該回調物件必須實現org.apahce.kafka.clients.producer.Callback介面
private class DemoProducerCallback implements Callback {
@Override
public void onCompletion(RecordMetadata recordMetadata, Exception e) {
if (e != null) {//如果Kafka返回一個錯誤，onCompletion方法丟擲一個non null異常。
e.printStackTrace();//對異常進行一些處理，這裡只是簡單打印出來
}
}
}

（4）生產者的配置

上面我們只配置了bootstrap.servers和序列化類，其實生產者還有很多配置，上面只是使用了預設值。下面來看下這些配置引數。

acks

acks控制多少個副本必須寫入訊息後生產者才能認為寫入成功，這個引數對訊息丟失可能性有很大影響。這個引數有三種取值：

acks=0：生產者把訊息傳送到broker即認為成功，不等待broker的處理結果。這種方式的吞吐最高，但也是最容易丟失訊息的。
acks=1：生產者會在該分割槽的群首（leader）寫入訊息並返回成功後，認為訊息傳送成功。如果群首寫入訊息失敗，生產者會收到錯誤響應並進行重試。這種方式能夠一定程度避免訊息丟失，但如果群首宕機時該訊息沒有複製到其他副本，那麼該訊息還是會丟失。另外，如果我們使用同步方式來發送，延遲會比前一種方式大大增加（至少增加一個網路往返時間）；如果使用非同步方式，應用感知不到延遲，吞吐量則會受非同步正在傳送中的數量限制。
acks=all：生產者會等待所有副本成功寫入該訊息，這種方式是最安全的，能夠保證訊息不丟失，但是延遲也是最大的。

buffer.memory

這個引數設定生產者緩衝傳送的訊息的記憶體大小，如果應用呼叫send方法的速度大於生產者傳送的速度，那麼呼叫會阻塞或者丟擲異常，具體行為取決於block.on.buffer.full（這個引數在0.9.0.0版本被max.block.ms代替，允許丟擲異常前等待一定時間）引數。

compresstion.type

預設情況下訊息是不壓縮的，這個引數可以指定使用訊息壓縮，引數可以取值為snappy、gzip或者lz4。snappy壓縮演算法由Google研發，這種演算法在效能和壓縮比取得比較好的平衡；相比之下，gzip消耗更多的CPU資源，但是壓縮效果也是最好的。通過使用壓縮，我們可以節省網路頻寬和Kafka儲存成本。

retries

當生產者傳送訊息收到一個可恢復異常時，會進行重試，這個引數指定了重試的次數。在實際情況中，這個引數需要結合retry.backoff.ms（重試等待間隔）來使用，建議總的重試時間比叢集重新選舉群首的時間長，這樣可以避免生產者過早結束重試導致失敗。

batch.size

當多條訊息傳送到一個分割槽時，生產者會進行批量傳送，這個引數指定了批量訊息的大小上限（以位元組為單位）。當批量訊息達到這個大小時，生產者會一起傳送到broker；但即使沒有達到這個大小，生產者也會有定時機制來發送訊息，避免訊息延遲過大。

linger.ms

這個引數指定生產者在傳送批量訊息前等待的時間，當設定此引數後，即便沒有達到批量訊息的指定大小，到達時間後生產者也會發送批量訊息到broker。預設情況下，生產者的傳送訊息執行緒只要空閒了就會發送訊息，即便只有一條訊息。設定這個引數後，傳送執行緒會等待一定的時間，這樣可以批量傳送訊息增加吞吐量，但同時也會增加延遲。

client.id

這個引數可以是任意字串，它是broker用來識別訊息是來自哪個客戶端的。在broker進行列印日誌、衡量指標或者配額限制時會用到。

max.in.flight.requests.per.connection

這個引數指定生產者可以傳送多少訊息到broker並且等待響應，設定此引數較高的值可以提高吞吐量，但同時也會增加記憶體消耗。另外，如果設定過高反而會降低吞吐量，因為批量訊息效率降低。設定為1，可以保證傳送到broker的順序和呼叫send方法順序一致，即便出現失敗重試的情況也是如此。

timeout.ms, request.timeout.ms, metadata.fetch.timeout.ms

這些引數控制生產者等待broker的響應時間。request.timeout.ms指定傳送資料的等待響應時間，metadata.fetch.timeout.ms指定獲取元資料（例如獲取分割槽的群首資訊）的等待響應時間。timeout.ms則指定broker在返回結果前等待其他副本（與acks引數相關）響應的時間，如果時間到了但其他副本沒有響應結果，則返回訊息寫入失敗。

max.block.ms

這個引數指定應用呼叫send方法或者獲取元資料方法（例如partitionFor）時的阻塞時間，超過此時間則丟擲timeout異常。

max.request.size

這個引數限制生產者傳送資料包的大小，資料包的大小與訊息的大小、訊息數相關。如果我們指定了最大資料包大小為1M，那麼最大的訊息大小為1M，或者能夠最多批量傳送1000條訊息大小為1K的訊息。另外，broker也有message.max.bytes引數來控制接收的資料包大小。在實際中，建議這些引數值是匹配的，避免生產者傳送了超過broker限定的資料大小。

receive.buffer.bytes, send.buffer.bytes

這兩個引數設定用來發送/接收資料的TCP連線的緩衝區，如果設定為-1則使用作業系統自身的預設值。如果生產者與broker在不同的資料中心，建議提高這個值，因為不同資料中心往往延遲比較大。

最後討論下順序保證。Kafka保證分割槽的順序，也就是說，如果生產者以一定的順序傳送訊息到Kafka的某個分割槽，那麼Kafka在分割槽內部保持此順序，而且消費者也按照同樣的順序消費。但是，應用呼叫send方法的順序和實際傳送訊息的順序不一定是一致的。舉個例子，如果retries引數不為0，而max.in.flights.requests.per.session引數大於1，那麼有可能第一個批量訊息寫入失敗，但是第二個批量訊息寫入成功，然後第一個批量訊息重試寫入成功，那麼這個順序亂序的。因此，如果需要保證訊息順序，建議設定max.in.flights.requests.per.session為1，這樣可以在第一個批量訊息傳送失敗重試時，第二個批量訊息需要等待。

（5）序列化器

上面提到了Kafka自帶的序列化類，現在來看下如何使用其他的序列化策略

自定義序列化

帶尺寸的
如果我們傳送的訊息不是整數或者字串時，我們需要自定義序列化策略或者使用通用的Avro、Thrift或者Protobuf這些序列化方案。下面來看下如何使用自定義的序列化方案，以及存在的問題。

假如我們要傳送的訊息物件是這麼一個Customer：

class Custom {
    private int customID;
    private String customerName;
    
    public Custom(int customID, String customerName) {
        super();
        this.customID = customID;
        this.customerName = customerName;
    }

    public int getCustomID() {
        return customID;
    }

    public String getCustomerName() {
        return customerName;
    }
}

那麼，自定義的序列化類實現樣例如下：

import org.apache.kafka.common.errors.SerializationException;
import java.nio.ByteBuffer;
import java.util.Map;

public class CustomerSerializer implements Serializer<Customer> {
    @Override
    public void configure(Map configs, boolean isKey) {
        // nothing to configure
    }

    @Override
    /**
     We are serializing Customer as:
     4 byte int representing customerId
     4 byte int representing length of customerName in UTF-8 bytes (0 if name is
     Null)
     N bytes representing customerName in UTF-8
     */
    public byte[] serialize(String topic, Customer data) {
        try {
            byte[] serializedName;
            int stringSize;
            if (data == null)
                return null;
            else {
                if (data.getName() != null) {
                    serializeName = data.getName().getBytes("UTF-8");
                    stringSize = serializedName.length;
                } else {
                    serializedName = new byte[0];
                    stringSize = 0;
                }
            }
            ByteBuffer buffer = ByteBuffer.allocate(4 + 4 + stringSize);
            buffer.putInt(data.getID());
            buffer.putInt(stringSize);
            buffer.put(serializedName);
            return buffer.array();
        } catch (Exception e) {
            throw new SerializationException("Error when serializing Customer to byte[] " + e);
        } 
    }

    @Override
    public void close() {
        // nothing to close
    } 
}

我們將Customer的ID和名字進行了序列化，通過這個序列化物件，我們可以傳送Customer的物件訊息。但這樣的序列化存在很多問題，比如想要將ID升級為Long型或者增加新的Customer域時，我們需要相容新老訊息。尤其是公司內多個團隊同時消費Customer資料時，他們需要同時修改程式碼進行相容。

因此，建議使用JSON、Apache Avro、Thrift或者Protobuf這些成熟的序列化/反序列化方案。下面來看下如何使用Avro來進行序列化
使用Avro序列化
Apache Avro是一個語言無關的序列化方案，使用Avro的資料使用語言無關的結構來描述，例如JSON。Avro一般序列化成位元組檔案，當然也可以序列化成JSON形式。Kafka使用Avro的好處是，當寫入訊息需要升級協議時，消費者讀取訊息可以不受影響。

//例如，原始的協議可能是這樣的：
{
  "namespace": "customerManagement.avro",
  "type": "record",
  "name": "Customer",
  "fields": [
      {"name": "id", "type": "int"},
      {"name": "name",  "type": "string""},
      {"name": "faxNumber", "type": ["null", "string"], "default": "null"}
  ] 
}

生成Avro物件傳送到Kafka

Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("key.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer");
props.put("value.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer");
props.put("schema.registry.url", schemaUrl);

String topic = "customerContacts";
int wait = 500;
Producer<String, Customer> producer = new KafkaProducer<String, Customer>(props);

// We keep producing new events until someone ctrl-c
while (true) {
    Customer customer = CustomerGenerator.getNext();
    System.out.println("Generated customer " + customer.toString());
    ProducerRecord<String, Customer> record = new ProducerRecord<>(topic, customer.getId(), customer);
    producer.send(record);//將customer作為訊息的值傳送出去，KafkaAvroSerializer會處理剩下的事情
}

其中，
我們使用KafkaAvroSerializer來序列化物件，注意它可以處理原子型別，上面程式碼中使用其來序列化訊息的key。
schema.registry.url引數指定了註冊中心的地址，我們將資料的結構儲存在該註冊中心。
Customer是生成的物件，生產者傳送的訊息型別也為Customer。
我們建立一個包含Customer的記錄併發送，序列化的工作由KafkaAvroSerializer來完成。
當然，我們也可以使用通用的Avrod物件而不是生成的Avro物件，對於這種情況，我們需要提供資料的結構：

Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("key.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer");
props.put("value.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer");
props.put("schema.registry.url", schemaUrl);

String schemaString = "{\"namespace\": \"customerManagement.avro\",
                        \"type\": \"record\", " +
                        "\"name\": \"Customer\"," +
                        "\"fields\": [" +
                            "{\"name\": \"id\", \"type\": \"int\"}," +
                             "{\"name\": \"name\", \"type\": \"string\"}," +
                             "{\"name\": \"email\", \"type\": [\"null\",\"string\"], \"default\":\"null\" }" +
                       "]}";

Producer<String, GenericRecord> producer = new KafkaProducer<String, GenericRecord>(props);

Schema.Parser parser = new Schema.Parser();
Schema schema = parser.parse(schemaString);

for (int nCustomers = 0; nCustomers < customers; nCustomers++) {
    String name = "exampleCustomer" + nCustomers;
    String email = "example " + nCustomers + "@example.com";
    GenericRecord customer = new GenericData.Record(schema);
    customer.put("id", nCustomer);
    customer.put("name", name);
    customer.put("email", email);
   
    ProducerRecord<String, GenericRecord> data = new ProducerRecord<String,GenericRecord>("customerContacts",name, customer);
    
    producer.send(data);
}

分割槽

我們建立訊息的時候，必須要提供主題和訊息的內容，而訊息的key是可選的，當不指定key時預設為null。訊息的key有兩個重要的作用：1）提供描述訊息的額外資訊；2）用來決定訊息寫入到哪個分割槽，所有具有相同key的訊息會分配到同一個分割槽中。

如果key為null，那麼生產者會使用預設的分配器，該分配器使用輪詢（round-robin）演算法來將訊息均衡到所有分割槽。

如果key不為null而且使用的是預設的分配器，那麼生產者會對key進行雜湊並根據結果將訊息分配到特定的分割槽。注意的是，在計算訊息與分割槽的對映關係時，使用的是全部的分割槽數而不僅僅是可用的分割槽數。這也意味著，如果某個分割槽不可用（雖然使用複製方案的話這極少發生），而訊息剛好被分配到該分割槽，那麼將會寫入失敗。另外，如果需要增加額外的分割槽，那麼訊息與分割槽的對映關係將會發生改變，因此儘量避免這種情況。

自定義分配器

現在來看下如何自定義一個分配器，下面將key為Banana的訊息單獨放在一個分割槽，與其他的訊息進行分割槽隔離：

public class BananaPartitioner implements Partitioner {
    public void configure(Map<String, ?> configs) {}
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
    
    List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
    int numPartitions = partitions.size();
    if ((keyBytes == null) || (!(key instanceOf String)))
        throw new InvalidRecordException("We expect all messages to have customer name as key")
    if (((String) key).equals("Banana"))
        return numPartitions; // Banana will always go to last partition
   
     // Other records will get hashed to the rest of the partitions
    return (Math.abs(Utils.murmur2(keyBytes)) % (numPartitions - 1))
    }
    
    public void close() {}
 
}

Kafka Producer 傳送資料

Kafka Producer 傳送資料

（1）生產者概覽

（2）建立Kafka生產者

（3）傳送訊息到Kafka

（4）生產者的配置

（5）序列化器

分割槽

自定義分配器

Kafka Producer 傳送資料

kafka： java生產者往kafka topic傳送資料傳送失敗

kafka非同步傳送資料，不阻塞

Kafka Producer生產資料時資料丟失分析

Kafka學習筆記（5）----Kafka使用Producer傳送訊息

kafka叢集Producer基本資料結構及工作流程深入剖析-kafka 商業環境實戰

kafka-0.10.0.1版本在java客戶端傳送資料接收不到

java向kafka批量均勻傳送資料的方法

kafka原始碼解析之十六生產者流程(客戶端如何向topic傳送資料)

kafka producer batch 傳送訊息

Kafka producer程式本地執行時傳送資訊失敗解決方案

Kafka Producer同步模式傳送message原始碼分析

Kafka Producer非同步傳送的流程

Kafka Producer(Python threading)

Kafka Producer Consumer

Kettle安裝Kafka Consumer和Kafka Producer插件

kafka producer的batch.size和linger.ms

Kafka設計解析（十四）Kafka producer介紹

Flink kafka producer with transaction support

php 獲取傳送資料型別為application/json的post資料

Kafka Producer 傳送資料

Kafka Producer 傳送資料

（1）生產者概覽

（2）建立Kafka生產者

（3）傳送訊息到Kafka

（4）生產者的配置

（5）序列化器

分割槽

自定義分配器

相關推薦