Kafka - 分割槽演算法

阿新 • • 發佈：2018-12-13

一預設分割槽策略：

序列化key存在時，對其採用murmur2 hash演算法，再對總分割槽數取模。得到分割槽數。

序列化key不存在時，(輪詢，round robin)

可用分割槽數大於0時，用執行緒安全生成的隨機數的絕對值對可用分割槽數取模，在總分割槽列表中，找到對應的分割槽數。
可用分割槽數等於0時，用執行緒安全生成的隨機數的絕對值對總分割槽數取模，得到分割槽數。

    /**
     * Compute the partition for the given record.
     *
     * @param topic The topic name
     * @param key The key to partition on (or null if no key)
     * @param keyBytes serialized key to partition on (or null if no key)
     * @param value The value to partition on or null
     * @param valueBytes serialized value to partition on or null
     * @param cluster The current cluster metadata
     */
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
        int numPartitions = partitions.size();
        if (keyBytes == null) {
            int nextValue = nextValue(topic);
            List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic);
            if (availablePartitions.size() > 0) {
                int part = Utils.toPositive(nextValue) % availablePartitions.size();
                return availablePartitions.get(part).partition();
            } else {
                // no partitions are available, give a non-available partition
                return Utils.toPositive(nextValue) % numPartitions;
            }
        } else {
            // hash the keyBytes to choose a partition
            return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
        }
    }

private int nextValue(String topic) {
        AtomicInteger counter = topicCounterMap.get(topic);
        if (null == counter) {
            counter = new AtomicInteger(ThreadLocalRandom.current().nextInt());
            AtomicInteger currentCounter = topicCounterMap.putIfAbsent(topic, counter);
            if (currentCounter != null) {
                counter = currentCounter;
            }
        }
        return counter.getAndIncrement();
    }

二自定義分割槽策略：

public class MyPartitioner implements Partitioner {
    public static void main(String[] args) {
        //org.apache.kafka.clients.producer.internals.DefaultPartitioner
    }

    @Override
    public void configure(Map<String, ?> configs) {
    }


    @Override
    public int partition(String topic, Object key, byte[] keyBytes,
            Object value, byte[] valueBytes, Cluster cluster) {
        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
        int numPartitions = partitions.size();
        /**
         *由於我們按key分割槽，在這裡我們規定：key值不允許為null。在實際專案中，key為null的訊息*，可以傳送到同一個分割槽。
         */
        if(keyBytes == null) {
            throw new InvalidRecordException("key cannot be null");
        }
        if(((String)key).equals("1")) {
            return 1;
        }
        //如果訊息的key值不為1，那麼使用hash值取模，確定分割槽。
        return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
    }

    @Override
    public void close() {
    }

}

轉載：https://blog.csdn.net/wuxintdrh/article/details/78971308

//KafkaProducer設定自定義分割槽

kafkaProperties.put("partitioner.class", "自定義partitioner實現類的完全限定類名");

三 murmur2 hash演算法：

/**
     * Generates 32 bit murmur2 hash from byte array
     * @param data byte array to hash
     * @return 32 bit hash of the given array
     */
    public static int murmur2(final byte[] data) {
        int length = data.length;
        int seed = 0x9747b28c;
        // 'm' and 'r' are mixing constants generated offline.
        // They're not really 'magic', they just happen to work well.
        final int m = 0x5bd1e995;
        final int r = 24;

        // Initialize the hash to a random value
        int h = seed ^ length;
        int length4 = length / 4;

        for (int i = 0; i < length4; i++) {
            final int i4 = i * 4;
            int k = (data[i4 + 0] & 0xff) + ((data[i4 + 1] & 0xff) << 8) + ((data[i4 + 2] & 0xff) << 16) + ((data[i4 + 3] & 0xff) << 24);
            k *= m;
            k ^= k >>> r;
            k *= m;
            h *= m;
            h ^= k;
        }

        // Handle the last few bytes of the input array
        switch (length % 4) {
            case 3:
                h ^= (data[(length & ~3) + 2] & 0xff) << 16;
            case 2:
                h ^= (data[(length & ~3) + 1] & 0xff) << 8;
            case 1:
                h ^= data[length & ~3] & 0xff;
                h *= m;
        }

        h ^= h >>> 13;
        h *= m;
        h ^= h >>> 15;

        return h;
    }

Kafka - 分割槽演算法

目錄一預設分割槽策略：二自定義分割槽策略：三 murmur2 hash演算法：一預設分割槽策略：序列化key存在時，對其採用murmur2 hash演算法，再對總分割槽數取模。得到分割槽

Kafka分割槽副本的同步條件

分割槽leader是同步副本，而對於跟隨者副本來說，它需要同時滿足以下條件才可以被認為是同步的： 1.與Zookeeper之間保持活躍的會話，即在過去的6s（可配置）內向Zookeeper傳送過心跳。 2.在過去的10s（可配置）從分割槽leader那裡獲取過訊息。 3.在過去10s從l

基於順序搜尋的動態分割槽演算法

首次適應演算法（first fit ，ff）要求空閒鏈遞增的方式連結工作方式從鏈首開始查詢，直到找到一個大小能滿足要求的空閒分割槽為止特點優先利用記憶體中低地址部分高地址空閒區大，可以給大程式使用低地址不斷被分割，形成碎片

Kafka分割槽與消費者的關係

public Map<String, List<TopicPartition>> assign(Map<String, Integer> partitionsPerTopic,

Kafka分割槽機制介紹與示例

Kafka中可以將Topic從物理上劃分成一個或多個分割槽（Partition），每個分割槽在物理上對應一個資料夾，以”topicName_partitionIndex”的命名方式命名，該資料夾下儲存這個分割槽的所有訊息(.log)和索引檔案(.index)，這使得Kafka

DRH(Deep-Re-Hash)深度雜湊分割槽演算法簡介

DRH(Deep-Re-Hash)深度雜湊分割槽演算法是一種針對雜湊表在海量資料及磁碟儲存下的一種改進演算法，它的查詢時間複雜度介於常數O(1)和對數O(d*log (n-1))之間(即：O(1) <= T(n) <= O(d*log(n-1)) ，其中n為階數，d為深度)，提供了極高的

（七）MapReduce自定義型別及分割槽演算法

需求有以下資料：電話 | 地區 | 姓名 | 使用流量三個reduce生成三個檔案，按照地區來分割槽，得到每個人使用流量的彙總結果。 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 1387

Kafka分割槽分配策略(Partition Assignment Strategy)

問題用過 Kafka 的同學用過都知道，每個 Topic 一般會有很多個 partitions。為了使得我們能夠及時消費訊息，我們也可能會啟動多個 Consumer 去消費，而每個 Consumer 又會啟動一個或多個streams去分別消費 Topic 裡

STL演算法 -------- 重排演算法、分割槽演算法

1. random_shuffle() 隨機打亂 2. partition() 不穩定的 3. stable_partition() 穩定的 #include <iostream> #include &l

Kafka——分割槽partition

在之前的例子裡(Kafka生產者——向 Kafka寫入資料)， ProducerRecord 物件包含了目標主題、鍵和值。 Kafka 的訊息是一個個鍵值對， ProducerRecord物件可以只包含目標主題和值，鍵可以設定為預設的 null，不過大多數應用程式會用到鍵

kafka分割槽和消費者執行緒的關係

A、當有兩個分割槽時，兩臺消費者的執行緒數等於分割槽數，則兩臺伺服器平均消耗兩個分割槽的資料；每個消費者配置的執行緒數為2：共4個執行緒物件：（每個消費者執行緒消費一個分割槽的資料）

kafka分割槽（partition）和和分組（group）

下面是自己在使用過程中的總結。歡迎拍磚每個consumer只能消費指定的幾個分割槽。那麼訊息如果沒有發到監聽的分割槽，那麼那個消費者就不能獲取到這次傳送的訊息。下面的例子一定要注意對分割槽和分組的理解，不然會不知道為什麼會得出那樣的結論消費組中的消費者會怎麼取kafka的資料

Kafka分割槽介紹

原文地址：http://www.cnblogs.com/dt-zhw/p/5631060.html Kafka中分割槽深度解析今天主要談Kafka中的分割槽數和consumer中的並行度。從使用Kafka的角度說，這些都是至關重要的。分割槽原則 Partit

Kafka分割槽策略淺談

用過 Kafka 的同學用過都知道，每個 Topic 一般會有很多個 partitions。為了使得我們能夠及時消費訊息，我們也可能會啟動多個 Consumer 去消費，而每個 Consumer 又會啟動一個或多個消費執行緒去分別消費 Topic 裡面的資料。Kafka

Kafka分割槽分配策略分析——重點：StickyAssignor

“ 為什麼Kafka在RangeAssigor、RoundRobinAssignor的基礎上，又新增了PartitionAssignor，它解決了什麼問題？” 背景用過Kafka的同學應該都知道Kafka的分割槽和消費組的概念。在Kafka中，每個Top

詳細解析kafka之kafka分割槽和副本

本篇主要介紹kafka的分割槽和副本，因為這兩者是有些關聯的，所以就放在一起來講了，後面順便會給出一些對應的配置以及具體的實現程式碼，以供參考~ # 1.kafka分割槽機制分割槽機制是kafka實現高吞吐的祕密武器，但這個武器用得不好的話也容易出問題，今天主要就來介紹分割槽的機制以及相關的部分配置。

Kafka分割槽分配策略（Partition Assignment Strategy）

眾所周知，Apache Kafka是基於生產者和消費者模型作為開源的分散式釋出訂閱訊息系統（當然，目前Kafka定位於an open-source distributed event streaming platform），由Scala和Java編寫。 Kafka提供了類似於JMS的特性，但設計上又有很大區別

歷史性難題——如何為Kafka挑選合適的分割槽數？

作者：朱小廝來源：朱小廝的部落格如何為Kafka挑選合適的分割槽數？很多人都為這個問題傷過腦筋。從吞吐量方面考慮，增加合適的分割槽數可以很大程度上提升整體吞吐量，但是超過對應的閾值之後吞吐量不升反降。如果應用對吞吐量有著一定程度上的要求，建議在投入生產環境之前對同款硬體資源

RabbitMQ VS Apache Kafka （九）—— RabbitMQ叢集的分割槽容錯性與高可用性

本章，我們討論有關RabbitMQ的容錯性，訊息一致性及高可用性。RabbitMQ可以作為叢集節點來執行，因此RabbitMQ通常被歸為分散式訊息系統，對於分散式訊息系統，我們的關注點通常是一致性與可用性。我們為什麼要討論分散式系統的一致性與可用性，本質在於兩者描述的是系統在失敗的

Kafka分配分割槽過程

當消費者要加入群組時，它會向擔任群組協調器的broker傳送一個JoinGroup請求。第一個加入群組的消費者將成為“群主”。群主從協調器那裡獲得群組的成員列表（列表中包含了所有最近傳送過心跳的消費者，它們被認為是活躍的），並負責給每一個消費者分配分割槽。群主使用一個實現了PartitionAssi

Kafka - 分割槽演算法

一 預設分割槽策略：

二 自定義分割槽策略：

三 murmur2 hash演算法：

相關推薦

一預設分割槽策略：

二自定義分割槽策略：