kafka系列 -- 多線程消費者實現

阿新 • • 發佈：2018-10-13

eating turn collect 處理程序 per message arr ren 線程安全

看了一個星期的kafka，然後寫了消費Kafka數據的代碼。
感覺自己還是很不合格。

不能隨心所欲地操作數據，數據結構沒學好，spark的RDD操作沒學好。
不能很好地組織代碼結構，設計模式沒學好，面向對象思想理解不夠。

消費程序特點：

用隊列來存儲要消費的數據。
用隊列來存儲要提交的offest，然後處理線程將其給回消費者提交。
每個分區開一個處理線程來處理數據，分區與處理器的映射放在map中。
當處理到一定的數量或者距離上一次處理一定的時間間隔後, 由poll線程進行提交offset。

不好的地方：

每次處理的數據太少，而且每個數據都進行判斷其分區是否已經有處理線程在處理了。
獲取topic不太優雅。

流程圖

技術分享圖片

下面是多線程消費者實現：

1. 管理程序

/**
 * 負責啟動消費者線程MsgReceiver, 保存消費者線程MsgReceiver, 保存處理任務和線程RecordProcessor, 以及銷毀這些線程
 * Created by stillcoolme on 2018/10/12.
 */
public class KafkaMultiProcessorMain {
    private static final Logger logger = LoggerFactory.getLogger(KafkaMultiProcessorMain.class);
    // 消費者參數
    private Properties consumerProps = new Properties();
    // kafka消費者參數
    Map<String, Object> consumerConfig;
    //存放topic的配置
    Map<String, Object> topicConfig;

    //訂閱的topic
    private String alarmTopic;
    //消費者線程數組
    private Thread[] threads;

    //保存處理任務和線程的map
    ConcurrentHashMap<TopicPartition, RecordProcessor> recordProcessorTasks = new ConcurrentHashMap<>();
    ConcurrentHashMap<TopicPartition, Thread> recordProcessorThreads = new ConcurrentHashMap<>();

    public void setAlarmTopic(String alarmTopic) {
        this.alarmTopic = alarmTopic;
    }

    public static void main(String[] args) {
        KafkaMultiProcessorMain kafkaMultiProcessor = new KafkaMultiProcessorMain();
        //這樣設置topic不夠優雅啊！！！
        kafkaMultiProcessor.setAlarmTopic("picrecord");

        kafkaMultiProcessor.init(null);
    }

    private void init(String consumerPropPath) {
        getConsumerProps(consumerPropPath);
        consumerConfig = getConsumerConfig();

        int threadsNum = 3;
        logger.info("create " + threadsNum + " threads to consume kafka warn msg");
        threads = new Thread[threadsNum];
        for (int i = 0; i < threadsNum; i++) {
            MsgReceiver msgReceiver = new MsgReceiver(consumerConfig, alarmTopic, recordProcessorTasks, recordProcessorThreads);
            Thread thread = new Thread(msgReceiver);
            threads[i] = thread;
        }
        for (int i = 0; i < threadsNum; i++) {
            threads[i].start();
        }
        logger.info("finish creating" + threadsNum + " threads to consume kafka warn msg");
    }

    //銷毀啟動的線程
    public void destroy() {
        closeRecordProcessThreads();
        closeKafkaConsumer();
    }

    private void closeRecordProcessThreads() {
        logger.debug("start to interrupt record process threads");
        for (Map.Entry<TopicPartition, Thread> entry : recordProcessorThreads.entrySet()) {
            Thread thread = entry.getValue();
            thread.interrupt();
        }
        logger.debug("finish interrupting record process threads");
    }

    private void closeKafkaConsumer() {
        logger.debug("start to interrupt kafka consumer threads");
        //使用interrupt中斷線程, 在線程的執行方法中已經設置了響應中斷信號
        for (int i = 0; i < threads.length; i++) {
            threads[i].interrupt();
        }
        logger.debug("finish interrupting consumer threads");
    }

    private Map<String,Object> getConsumerConfig() {
        return ImmutableMap.<String, Object>builder()
                .put("bootstrap.servers", consumerProps.getProperty("bootstrap.servers"))
                .put("group.id", "group.id")
                .put("enable.auto.commit", "false")
                .put("session.timeout.ms", "30000")
                .put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
                .put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
                .put("max.poll.records", 1000)
                .build();

    }

    /**
     * 獲取消費者參數
     *
     * @param proPath
     */
    private void getConsumerProps(String proPath) {
        InputStream inStream = null;
        try {
            if (StringUtils.isNotEmpty(proPath)) {
                inStream = new FileInputStream(proPath);
            } else {
                inStream = this.getClass().getClassLoader().getResourceAsStream("consumer.properties");
            }
            consumerProps.load(inStream);
        } catch (IOException e) {
            logger.error("讀取consumer配置文件失敗:" + e.getMessage(), e);
        } finally {
            if (null != inStream) {
                try {
                    inStream.close();
                } catch (IOException e) {
                    logger.error("讀取consumer配置文件失敗:" + e.getMessage(), e);
                }
            }
        }
    }
}

2. 消費者任務 MsgReceiver

/**
 * 負責調用 RecordProcessor進行數據處理
 * Created by zhangjianhua on 2018/10/12.
 */
public class MsgReceiver implements Runnable {

    private static final Logger logger = LoggerFactory.getLogger(MsgReceiver.class);

    private BlockingQueue<Map<TopicPartition, OffsetAndMetadata>> commitQueue = new LinkedBlockingQueue<>();

    private ConcurrentHashMap<TopicPartition, Thread> recordProcessorThreads;
    private ConcurrentHashMap<TopicPartition, RecordProcessor> recordProcessorTasks;
    private String alarmTopic;
    private Map<String, Object> consumerConfig;


    public MsgReceiver(Map<String, Object> consumerConfig, String alarmTopic,
                       ConcurrentHashMap<TopicPartition, RecordProcessor> recordProcessorTasks,
                       ConcurrentHashMap<TopicPartition, Thread> recordProcessorThreads) {

        this.consumerConfig = consumerConfig;
        this.alarmTopic = alarmTopic;
        this.recordProcessorTasks = recordProcessorTasks;
        this.recordProcessorThreads = recordProcessorThreads;
    }

    @Override
    public void run() {
        //kafka Consumer是非線程安全的,所以需要每個線程建立一個consumer
        KafkaConsumer kafkaConsumer = new KafkaConsumer(consumerConfig);
        kafkaConsumer.subscribe(Arrays.asList(alarmTopic));
        try{
            while (!Thread.currentThread().isInterrupted()) {
                try {
                    //看commitQueue裏面是非有需要提交的offest， 這樣查看好頻繁啊！！！
                    //查看該消費者是否有需要提交的偏移信息, 使用非阻塞讀取
                    Map<TopicPartition, OffsetAndMetadata> offestToCommit = commitQueue.poll();
                    if (offestToCommit != null) {
                        logger.info(Thread.currentThread().getName() + "commit offset: " + offestToCommit);
                        kafkaConsumer.commitAsync();
                    }
                    //最多輪詢1000ms
                    ConsumerRecords<String, String> records = kafkaConsumer.poll(1000);
                    if (records.count() > 0) {
                        logger.info("poll records size: " + records.count());
                    }
                    for (ConsumerRecord record : records) {
                        String topic = record.topic();
                        int partition = record.partition();
                        TopicPartition topicPartition = new TopicPartition(topic, partition);
                        RecordProcessor processTask = recordProcessorTasks.get(topicPartition);
                        //每條消息都去檢查
                        //如果當前分區還沒有開始消費, 則就沒有消費任務在map中
                        if (processTask == null) {
                            //生成新的處理任務和線程, 然後將其放入對應的map中進行保存
                            processTask = new RecordProcessor(commitQueue);
                            recordProcessorTasks.put(topicPartition, processTask);

                            Thread processTaskThread = new Thread(processTask);
                            processTaskThread.setName("Thread-for " + topicPartition.toString());
                            logger.info("start processor Thread: " + processTaskThread.getName());
                            processTaskThread.start();
                            recordProcessorThreads.put(topicPartition, processTaskThread);
                        }
                        //有 processor 可以處理該分區的 record了
                        processTask.addRecordToQueue(record);
                    }
                } catch (Exception e) {
                    e.printStackTrace();
                    logger.warn("MsgReceiver exception " + e + " ignore it");
                }
            }
        } finally {
            kafkaConsumer.close();
        }
    }
}

3. 消息處理任務 RecordProcessor

public class RecordProcessor implements Runnable{

    private static Logger logger = LoggerFactory.getLogger(RecordProcessor.class);

    //保存MsgReceiver線程發送過來的消息
    private BlockingQueue<ConsumerRecord<String, String>> queue = new LinkedBlockingQueue<>();
    //用於向consumer線程提交消費偏移的隊列
    private BlockingQueue<Map<TopicPartition, OffsetAndMetadata>> commitQueue;
    //上一次提交時間
    private LocalDateTime lastTime = LocalDateTime.now();
    //消費了20條數據, 就進行一次提交
    private long commitLength = 20L;
    //距離上一次提交多久, 就提交一次
    private Duration commitTime = Duration.standardSeconds(2);
    //當前該線程消費的數據條數
    private int completeTask = 0;
    //保存上一條消費的數據
    private ConsumerRecord<String, String> lastUncommittedRecord;

    public RecordProcessor(BlockingQueue<Map<TopicPartition, OffsetAndMetadata>> commitQueue) {
        this.commitQueue = commitQueue;
    }

    @Override
    public void run() {
        while(!Thread.interrupted()){
            ConsumerRecord<String, String> record = null;
            try {
                record = queue.poll(100, TimeUnit.MICROSECONDS);
                if (record != null) {
                    process(record);
                    //完成任務數加1
                    this.completeTask++;
                    //保存上一條處理記錄
                    lastUncommittedRecord = record;
                }
                //提交偏移給queue中
                commitTOQueue();
            } catch (InterruptedException e) {
                //線程被interrupt,直接退出
                logger.info(Thread.currentThread() + "is interrupted");
            }

        }

    }

    //將當前的消費偏移量放到queue中, 由MsgReceiver進行提交
    private void commitTOQueue() {
        if(lastUncommittedRecord == null){
            return;
        }
        //如果消費了設定的條數, 比如又消費了commitLength消息
        boolean arrivedCommitLength = this.completeTask % commitLength == 0;
        //獲取當前時間, 看是否已經到了需要提交的時間
        LocalDateTime currentTime = LocalDateTime.now();
        boolean arrivedTime = currentTime.isAfter(lastTime.plus(commitTime));

        if(arrivedCommitLength || arrivedTime){
            lastTime = currentTime;
            long offset = lastUncommittedRecord.offset();
            int partition = lastUncommittedRecord.partition();
            String topic = lastUncommittedRecord.topic();
            TopicPartition topicPartition = new TopicPartition(topic, partition);
            logger.info("partition: " + topicPartition + " submit offset: " + (offset + 1L) + " to consumer task");
            Map<TopicPartition, OffsetAndMetadata> map = Collections.singletonMap(topicPartition, new OffsetAndMetadata(offset + 1L));
            commitQueue.add(map);
            //置空
            lastUncommittedRecord = null;
        }
    }

    //consumer線程向處理線程的隊列中添加record
    public void addRecordToQueue(ConsumerRecord<String, String> record) {
        try {
            queue.put(record);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    private void process(ConsumerRecord<String, String> record) {
        //具體業務邏輯
        //System.out.println(record);
    }
}

改進

對處理程序RecordProcessor進行抽象，抽象出BasePropessor父類。以後業務需求需要不同的處理程序RecordProcessor就可以靈活改變了。
反射來構建RecordProcessor？？在配置文件配置具體要new的RecordProcessor類路徑，然後在創建MsgReceiver的時候傳遞進去。

kafka系列 -- 多線程消費者實現

eating turn collect 處理程序 per message arr ren 線程安全看了一個星期的kafka，然後寫了消費Kafka數據的代碼。感覺自己還是很不合格。不能隨心所欲地操作數據，數據結構沒學好，spark的RDD操作沒學好。不能很好地組織

spring boot 集成kafka (多線程,消費者使用kafka的原生api實現,因為@KakfkaListener修改groupId無效)

初始化接收 .bat truct singleton test ops cati xtend application-test.properties 1 #kafka 2 kafka.consumer.zookeeper.connect=*:2181 3 kafk

多線程中sleep和wait的區別，以及多線程的實現方式及原因，定時器--Timer

守護驗證取消技術方法代碼安全接口 art 1. Java中sleep和wait的區別 ① 這兩個方法來自不同的類分別是，sleep來自Thread類，和wait來自Object類。 sleep是Thread的靜態類方法，誰調用的誰去睡覺，即使在a線程裏調用b

多線程的實現及其安全問題

多線程 runnable thread synchronized lock timer 一、進程和線程概述 1、進程：進程是一個具有獨立功能的程序關於某個數據集合的一次運行活動，簡單來說開啟一個程序就開啟了一個進程；如果開啟多個進程，它們之間是由於CPU的時間片在相互的切換； 2、

Java高級特性系列--多線程

lock 技術分享 star 啟動 .com 對象 blog 狀態 es2017 多線程相關概念：線程的5種狀態： 1，新建狀態（New）：線程對象被創建之後，就進入了新建狀態。Thread thread = new Thread(); 2, 就緒狀態（Runnabl

python多線程的實現

ini list div rgs app 調用 pri import 線程的創建入門案例 1 import threading,time 2 ‘‘‘ 3 #線程的創建有兩種方式，1.直接調用，2.繼承 4 ‘‘‘ 5 # def run(n): 6 #

用單進程、多線程並發、多線程分別實現爬一個或多個網站的所有鏈接，用瀏覽器打開所有鏈接並保存截圖 python

app imp mat 並發執行 cut h+ chrome 鏈接目錄 #coding=utf-8import requestsimport re,os,time,ConfigParserfrom selenium import webdriverfrom multipr

java多線程的實現

art 處理 lock urn 將不模式應用所有 -h 線程和進程之間的關系 ? 線程時在進程基礎之上創建並使用的更小的程序單元，所以線程依賴於進行的支持。線程的啟動速度要比進程快上很多，高並發處理的時候，線程的性能要高於進程多線程實現任何情況下，只要定義了多線程

多線程程序實現的方式3學習筆記

好處 rri sum exception clas this 創建線程筆記 ide 多線程程序實現的方式3的好處和弊端好處：可以有返回值可以拋出異常弊端：代碼比較復雜，所以一般不用 // 創建線程池對象 ExecutorServi

多線程的實現原理

註意 mesi ++ 直接時代 ron i++ 方式匯編指令 JMM怎麽解決原子性、可見性、有序性的問題？在java中提供了一系列和並發處理相關的關鍵字，比如volatile、synchronized、final、juc等，這些就是java內存模型封裝了底層的實現後

java——多線程的實現方式、兩種辦法解決線程賽跑

ble ali ide live nts nds extends sys add 多線程的實現方式：demo1、demo2 demo1：繼承Thread類，重寫run()方法 package thread_test; public class ThreadDemo1 e

Python3.5+PyQt5多線程+itchat實現微信防撤回桌面版代碼

logs rep not cio backup 界面 sel store for weChatThread線程類之前一直不會python多線程，寫這個程序的時候，發現不用多線程會陷入無限未響應狀態。於是學了半天python多線程，但是在主函數裏寫的時候，發現一個問題，

Java多線程消費者、生產者的基本思路

func don 判斷 this 定義 oid final zed () 多線程主要考察的就是線程的同步控制生產者消費者的思路就是，當一個線程執行時讓另一個線程掛起就行了 ThreadOne、ThreadTwo同時運行，添加一個變量在一個公共類（下邊的F

爬蟲系列---多線程爬取實例

not 圖片文件夾 nco get origin nal ade close 1.爬取站長圖片源碼 #爬取站長‘http://sc.chinaz.com/tupian/gudianmeinvtupian.html‘,所有的古典美女圖片 import os imp

多線程的實現方法

臨界區有一個分發 bec 三方時間出棧管理 art 第一題：線程的基本概念、線程的基本狀態及狀態之間的關系？概念：線程是進程中執行運算的最小單位，是進程中的一個實體，是被系統獨立調度和分派的基本單位，線程自己不擁有系統資源，只擁有一點在運行中必不可少的資

多線程的實現

分配 exc 方法 waiting The 概念 cpu 分享圖片 alt 多線程的實現　　（一）基本概念　　①程序：一個指令的集合；　　②進程：正在執行中的程序；（資源分配的單位）　　③線程：進程中的一個執行路徑。（調度和執行

【學習】003多線程之間實現通訊

sign .cn new 對象鎖對象 sync exce 以及 object 課程目標多線程之間如何通訊 wait、notify、notifyAll()方法 lock 停止線程多線程之間如何實現通訊什麽是多線程之間通訊？多線程之間通訊，其

Java 多線程系列2——多線程的生命周期及生產消費者模型

wait 重要 strong clas 經典關於 running 結束準備一、線程的生命周期及五種基本狀態關於Java中線程的生命周期，首先看一下下面這張較為經典的圖：上圖中基本上囊括了Java中多線程各重要知識點。掌握了上圖中的各知識點，Java中的多

Java多線程系列一——Java實現線程方法

多個 true dex extends nds one ash .get for Java實現線程的兩種方法繼承Thread類實現Runnable接口它們之間的區別如下： 1)Java的類為單繼承，但可以實現多個接口，因此Runnable可能在某些場景比Threa

Java多線程系列六——Map實現類

coo cut tab for http current color text 加鎖參考資料： https://crunchify.com/hashmap-vs-concurrenthashmap-vs-synchronizedmap-how-a-hashmap-can-

kafka系列 -- 多線程消費者實現

消費程序特點：

不好的地方：

流程圖

1. 管理程序

2. 消費者任務 MsgReceiver

3. 消息處理任務 RecordProcessor

改進

相關推薦