【大資料Kafka之 high-level--Consumer 】

阿新 • • 發佈：2020-10-09

>>>

一、特點：

不用關心offset, 會自動的讀zookeeper中該Consumer group的last offset

二、注意事項

1. 如果consumer比partition多，是浪費，因為kafka的設計是在一個partition上是不允許併發的，

所以consumer數不要大於partition數

2. 如果consumer比partition少，一個consumer會對應於多個partitions，

這裡主要合理分配consumer數和partition數，否則會導致partition裡面的資料被取的不均勻

最好partiton數目是consumer數目的整數倍，所以partition數目很重要，

比如取24，就很容易設定consumer數目

3. 如果consumer從多個partition讀到資料，不保證資料間的順序性，

kafka只保證在一個partition上資料是有序的，但多個partition，根據你讀的順序會有不同

4. 增減consumer，broker，partition會導致rebalance，

所以rebalance後consumer對應的partition會發生變化

5. High-level介面中獲取不到資料的時候是會block的

三、程式碼如下：

package kafkatest.kakfademo;

import java.io.UnsupportedEncodingException;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Properties;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

import kafka.consumer.Consumer;

import kafka.consumer.ConsumerConfig;

import kafka.consumer.ConsumerIterator;

import kafka.consumer.KafkaStream;

import kafka.javaapi.consumer.ConsumerConnector;

public class ConsumerDemo1 {

public static void main(String[] args) {

ConsumerDemo1 demo = new ConsumerDemo1();

demo.test();

}

@SuppressWarnings("rawtypes")

public void test() {

String topicName = "test";

int numThreads = 1;

Properties properties = new Properties();

properties.put("zookeeper.connect", "hadoop0:2181");// 宣告zk

properties.put("group.id", "group--demo");// 必須要使用別的組名稱，

// 如果生產者和消費者都在同一組，則不能訪問同一組內的topic資料

ConsumerConnector consumer = Consumer

.createJavaConsumerConnector(new ConsumerConfig(properties));

Map<String, Integer> topicCountMap = new HashMap<String, Integer>();

topicCountMap.put(topicName, numThreads); // 一次從主題中獲取一個數據

Map<String, List<KafkaStream<byte[], byte[]>>> messageStreams = consumer

.createMessageStreams(topicCountMap);

// 獲取每次接收到的這個資料

List<KafkaStream<byte[], byte[]>> streams = messageStreams

.get(topicName);

// now launch all the threads

ExecutorService executor = Executors.newFixedThreadPool(numThreads);

// now create an object to consume the messages

int threadNumber = 0;

for (final KafkaStream stream : streams) {

executor.execute(new ConsumerMsgTask(stream, threadNumber));

threadNumber++;

}

class ConsumerMsgTask implements Runnable {

private KafkaStream m_stream;

private int m_threadNumber;

public ConsumerMsgTask(KafkaStream stream, int threadNumber) {

m_threadNumber = threadNumber;

m_stream = stream;

}

public void run() {

ConsumerIterator<byte[], byte[]> it = m_stream.iterator();

long offset = 0;

try {

while (it.hasNext())

offset = it.next().offset();

byte[] bytes = it.next().message();

String msg = new String(bytes, "UTF-8");

System.out.print("offset: " + offset + ",msg:" + msg);

System.out.println("Shutting down Thread: " + m_threadNumber);

} catch (UnsupportedEncodingException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

四、實驗驗證

轉載於:https://my.oschina.net/boltwu/blog/703831

【大資料Kafka之 high-level--Consumer 】

>>> 一、特點：不用關心offset, 會自動的讀zookeeper中該Consumer group的last offset

大資料開發之Kafka生產過程的分析

1 Kafka生產過程分析 1.1 寫入方式 producer採用推（push）模式將訊息釋出到broker，每條訊息都被追加（append）到分割槽（patition）中，屬於順序寫磁碟（順序寫磁碟效率比隨機寫記憶體要高，保障kafka吞吐率）。

大資料開發之Kafka叢集部署的具體操作流程

1 環境準備 1.1 叢集規劃 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka 1.2 jar包下載 http://kafka.apache.org/downloads.html

【原創】大資料基礎之Hadoop（3）hdfs diskbalancer

hdfs單個節點內多個磁碟不均衡時（比如新加磁碟），需要手工進行diskbalancer操作，命令如下

大資料開發之如何處理Kafka叢集訊息積壓問題

通常情況下，企業中會採取輪詢或者隨機的方式，通過Kafka的producer向Kafka叢集生產資料，來儘可能保證Kafk分割槽之間的資料是均勻分佈的。

大資料開發之Kafka 儲存選型

1. Kafka 的儲存難點是什麼？為什麼說儲存設計是 Kafka 的精華所在？之前這篇文章做過分析，Kafka 通過簡化訊息模型，將自己退化成了一個海量訊息的儲存系統。

【Spark研究】用Apache Spark進行大資料處理之入門介紹

什麼是Spark Apache Spark是一個圍繞速度、易用性和複雜分析構建的大資料處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為Apache的開源專案之一。

大資料Hadoop之——Flink Table API 和 SQL（單機Kafka）

目錄一、Table API 和 Flink SQL 是什麼二、配置Table依賴（scala）三、兩種 planner（old & blink）的區別

【轉】大資料開發之 Spark 面試八股文

【轉】大資料開發之 Spark 面試八股文 1. Spark 的執行流程？具體執行流程如下：

大資料學習之kafka

kafka是一個分散式的基於釋出/訂閱模式的訊息佇列，只要應用於大資料實時處理領域

大資料Elasticsearch之Elasticsearch基本操作

文章目錄 1.索引的基本操作 1.1新建 Index 1.2刪除 Index 1.3新增記錄

【大資料】hive 分析 nginx 日誌

目錄1.nginx 日誌收集2.hive 建表載入資料3.分析資料4.資料視覺化 1.nginx 日誌收集

【大資料】Hadoop的偽分散式安裝

這幾天開始學習大資料，這離不開Hadoop這個Apache的經典專案。 Hadoop官網：https://hadoop.apache.org/

【大資料】Hadoop的全分散式安裝

準備叢集伺服器準備在虛擬機器中建立四個配置為1核，2G記憶體，20G儲存的虛擬機器。（在這裡有任何問題，請參考上篇博文——>傳送門）

【大資料】Hadoop的高可用叢集(HA)部署

這裡基於之前的博文，即在全分散式安裝的基礎上增量部署高可用叢集。叢集部署表如下：

【大資料】Hadoop的HDFS的API開發小實戰

在部署完了高可用的叢集的基礎上，開始對目前的叢集做一次小開發，練練手。

【大資料】MapReduce開發小實戰

Before：前提:hadoop叢集應部署完畢。一、實戰科目：做一個Map Reduce分散式開發，開發內容為統計檔案中的單詞出現次數。

【大資料分析】Ch.5：潛在語義分析·LSA（Latent Semantic Analysis）

本章的內容是對自然語言的分析，並非單純數與字元的統計，而是嘗試去理解人類的語言描述概念。自然語言通常是指一種自然地隨文化演化的語言。例如，漢語、英語、日語為自然語言的例子，這一種用法可見於自然

大資料專案之電商數倉（使用者行為資料採集）

大資料專案之電商數倉（使用者行為資料採集）資料倉庫簡介

【大資料】那些簡化操作的輔助指令碼

技術標籤：大資料大資料hadoophivezookeeperkafka 【大資料】那些簡化操作的輔助指令碼

【大資料Kafka之 high-level--Consumer 】

相關推薦