Spark 消費Kafka資料

阿新 • • 發佈：2018-12-16

spark RDD消費的哦，不是spark streaming。

導maven包：

注意版本哦，要跟自己機器的一致

        <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_2.10</artifactId>
            <version>0.9.0.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.9.0.0</version>
        </dependency>

導包：

import kafka.consumer.ConsumerConfig;
import kafka.consumer.ConsumerIterator;
import kafka.consumer.KafkaStream;
import kafka.javaapi.consumer.ConsumerConnector;
import kafka.serializer.StringDecoder;
import kafka.utils.VerifiableProperties;

import java.sql.Connection;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;

程式碼：

複製貼上，加簡單修改即可使用。

public class KafkaConsumer {
    private final ConsumerConnector consumer;

    private final static  String TOPIC="test";//你要消費的topic
    private final static  String sql="";
    private KafkaConsumer(){
        Properties props=new Properties();
        //zookeeper
        props.put("zookeeper.connect","192.168.163.120:2181");//你的zookeeper地址
        //topic
        props.put("group.id","logstest");//設定組
        //Zookeeper 超時
        props.put("zookeeper.session.timeout.ms", "4000");
        props.put("zookeeper.sync.time.ms", "200");
        props.put("auto.commit.interval.ms", "1000");
        props.put("auto.offset.reset", "smallest");
        props.put("serializer.class", "kafka.serializer.StringEncoder");
        ConsumerConfig config=new ConsumerConfig(props);
        consumer= kafka.consumer.Consumer.createJavaConsumerConnector(config);
    }

    void consume(){
        Map<String, Integer> topicCountMap = new HashMap<String, Integer>();
        topicCountMap.put(TOPIC, new Integer(1));
        StringDecoder keyDecoder = new StringDecoder(new VerifiableProperties());
        StringDecoder valueDecoder = new StringDecoder(new VerifiableProperties());
        Map<String, List<KafkaStream<String, String>>> consumerMap =
                consumer.createMessageStreams(topicCountMap,keyDecoder,valueDecoder);
        KafkaStream<String, String> stream = consumerMap.get(TOPIC).get(0);
        ConsumerIterator<String, String> it = stream.iterator();
        try{
            int messageCount = 0;
            while (it.hasNext()){
                System.out.println(it.next().message());
                messageCount++;
                if(messageCount%10 == 0){
                    System.out.println("Consumer端一共消費了" + messageCount + "條訊息！");
                }
            }
        }catch (Exception e){
            e.printStackTrace();
        }

    }

    public static void main(String[] args) {
        new KafkaConsumer().consume();
    }

}

希望能幫到有需要的朋友。

Spark 消費Kafka資料

spark RDD消費的哦，不是spark streaming。導maven包：注意版本哦，要跟自己機器的一致

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

Spark-streaming kafka資料接收兩種方式

@Author : Spinach | GHB @Link : http://blog.csdn.net/bocai8058 1 Receiver-based Approach import org.apache.spark.streaming.k

Storm-Kafka模組常用介面分析及消費kafka資料例子

使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來配置kafka broker host與partition的mapping資訊; 2. 使用KafkaConfig來配置一些與kaf

簡單Storm消費Kafka資料並存儲到redis例項（訂單資訊處理）

maven依賴 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId&g

storm實時消費kafka資料

程式環境，在kafka建立名稱為data的topic,開啟消費者模式，準備輸入資料。程式的pom.xml檔案 <dependencies> <dependency> <groupId>org.

storm消費kafka資料

http://blog.csdn.net/tonylee0329/article/details/43016385 使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來

Spark獲取Kafka資料的兩種方式（原始碼）

在sparkstreaming接受資料的時候有兩種方式（1）DirectKafkaInputDStream 使用的是 Direct 方式獲取資料；DirectKafkaInputDStream 繼承自 InputDStream （2）Socket

spark讀取kafka資料（兩種方式比較及flume配置檔案）

a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 a1.channels.c1.type = memory a1.channels.c1.capacity

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

python消費kafka資料批量插入到es

1、es的批量插入這是為了方便後期配置的更改，把配置資訊放在logging.conf中用elasticsearch來實現批量操作，先安裝依賴包，sudo pip install Elasticsearch2 from elasticsear

Spark Streaming消費Kafka的資料進行統計

流處理平臺：這裡是第四步的實現： Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。 package spark import org.apache.spark.SparkConf impo

Spark Streaming消費Kafka Direct方式資料零丟失實現

一、概述上次寫這篇文章文章的時候，Spark還是1.x，kafka還是0.8x版本，轉眼間spark到了2.x，kafka也到了2.x，儲存offset的方式也發生了改變，筆者根據上篇文章和網上文章，將offset儲存到Redis，既保證了併發也保證了資料不丟失，經過測試，有效。二、

Spark Streaming通過直連的方式消費Kafka中的資料

為什麼採用直連（createDirectStream）的方式，主要有以下幾個原因： 1.createDirectStream的方式從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，實現零資料丟失，保證不重複消費，比createS

spark streaming從指定offset處消費Kafka數據

tpc asi 4.2 nes 配置 sof 我們 erl examples spark streaming從指定offset處消費Kafka數據 2017-06-13 15:19 770人閱讀評論(2) 收藏舉報分類： spark（5）原文地址:htt

向spark集群提交消費kafka應用時kafka鑒權配置問題

clu params pac tid version 屬性。包含 conf red 提交消費kafka應用裏面包含sasl.jaas.config，通常需要配置文件。但是打成jar包後的應用，通過classload讀不到jar包中配置文件。需要初始化kafka時增加pro

SparkStreaming消費Kafka中的資料使用zookeeper和MySQL儲存偏移量的兩種方式

Spark讀取Kafka資料的方式有兩種，一種是receiver方式，另一種是直連方式。今天分享的SparkStreaming消費Kafka中的資料儲存偏移量的兩種方式都是基於直連方式上的話不多說直接上程式碼！第一種是使用zookeeper儲存偏移量 object Kafka

[Spark]Spark-streaming通過Receiver方式實時消費Kafka流程（Yarn-cluster）

1.啟動zookeeper 2.啟動kafka服務（broker） [[email protected] kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties 3.啟動kafka的producer（

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

簡單理解為：Receiver方式是通過zookeeper來連線kafka佇列，Direct方式是直接連線到kafka的節點上獲取資料回到頂部使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Exec

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

Receiver 使用Kafka的高層次Consumer API來實現 receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spark Streaming啟動的job會去處理那些資料要啟用高可靠機制，讓資料零丟失，就必須啟用Spark

Spark 消費Kafka資料

相關推薦