storm實時消費kafka資料

阿新 • • 發佈：2019-01-11

程式環境，在kafka建立名稱為data的topic,開啟消費者模式，準備輸入資料。
程式的pom.xml檔案



  <dependencies>

  <dependency>
    <groupId>org.apache.storm</groupId>
    <artifactId>storm-core</artifactId>
    <version>1.0.2</version>
    <scope>provided</scope>
</dependency 
>
<dependency>
    <groupId>org.apache.storm</groupId>
    <artifactId>storm-kafka</artifactId>
    <version>1.0.2</version>
</dependency>
<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka_2.10</artifactId 
>
    <version>0.8.2.0</version>
</dependency>

  <dependency>
    <groupId>log4j</groupId>
    <artifactId>log4j</artifactId>
    <version>1.2.14</version>
</dependency>


<dependency>
    <groupId>org.slf4j</groupId>
    <artifactId 
>log4j-over-slf4j</artifactId>
    <version>1.7.21</version>
</dependency>

  </dependencies>

3.spout程式碼


public class MykafkaSpout {

    /**
     * @param args
     * @throws AuthorizationException 
     */
    public static void main(String[] args) throws AuthorizationException {
        // TODO Auto-generated method stub

        String topic = "data" ;
        ZkHosts zkHosts = new ZkHosts("192.168.59.132:2181");
        SpoutConfig spoutConfig = new SpoutConfig(zkHosts, topic, 
                "", 
                "MyTrack") ;
        List<String> zkServers = new ArrayList<String>() ;
        zkServers.add("192.168.59.132");
        spoutConfig.zkServers = zkServers;
        spoutConfig.zkPort = 2181;
        spoutConfig.socketTimeoutMs = 60 * 1000 ;
        spoutConfig.scheme = new SchemeAsMultiScheme(new StringScheme()) ; 

        TopologyBuilder builder = new TopologyBuilder() ;
        builder.setSpout("spout", new KafkaSpout(spoutConfig) ,1) ;
        builder.setBolt("bolt1", new MyKafkaBolt(), 1).shuffleGrouping("spout") ;

        Config conf = new Config ();
        conf.setDebug(false) ;

        if (args.length > 0) {
            try {
                StormSubmitter.submitTopology(args[0], conf, builder.createTopology());
            } catch (AlreadyAliveException e) {
                e.printStackTrace();
            } catch (InvalidTopologyException e) {
                e.printStackTrace();
            }
        }else {
            LocalCluster localCluster = new LocalCluster();
            localCluster.submitTopology("mytopology", conf, builder.createTopology());
        }

    }

}

4.bolt程式碼，這裡為了簡化，只把資料打印出來



public class MyKafkaBolt implements IBasicBolt {

    /**
     * 
     */
    private static final long serialVersionUID = 1L;

    @Override
    public void cleanup() {
        // TODO Auto-generated method stub

    }

    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
        // TODO Auto-generated method stub

        String kafkaMsg = input.getString(0) ;
        System.err.println("bolt:"+kafkaMsg);
    }

    @Override
    public void prepare(Map stormConf, TopologyContext context) {
        // TODO Auto-generated method stub

    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        // TODO Auto-generated method stub

    }

    @Override
    public Map<String, Object> getComponentConfiguration() {
        // TODO Auto-generated method stub
        return null;
    }

}

5.如何確定SpoutConfig中的zkRoot,檢視kafka中的server.properties檔案，如果zookeeper.connect後面沒有跟/bc這種就是，直接為”“,否則zkRoot為bc,就類似於zookeeper.connect=localhostlei1:2181,localhostlei2:2181,localhostlei3:2181/bc

# Zookeeper connection string (see zookeeper docs for details).
# This is a comma separated host:port pairs, each corresponding to a zk
# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".
# You can also append an optional chroot string to the urls to specify the
# root directory for all kafka znodes.
zookeeper.connect=localhostlei1:2181,localhostlei2:2181,localhostlei3:2181

6.開始任務後，嘗試往kafka中寫入資料，資料就能馬上被storm所消費。

storm實時消費kafka資料

程式環境，在kafka建立名稱為data的topic,開啟消費者模式，準備輸入資料。程式的pom.xml檔案 <dependencies> <dependency> <groupId>org.

Storm-Kafka模組常用介面分析及消費kafka資料例子

使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來配置kafka broker host與partition的mapping資訊; 2. 使用KafkaConfig來配置一些與kaf

簡單Storm消費Kafka資料並存儲到redis例項（訂單資訊處理）

maven依賴 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId&g

storm消費kafka資料

http://blog.csdn.net/tonylee0329/article/details/43016385 使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來

[Spark]Spark-streaming通過Receiver方式實時消費Kafka流程（Yarn-cluster）

1.啟動zookeeper 2.啟動kafka服務（broker） [[email protected] kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties 3.啟動kafka的producer（

Spark 消費Kafka資料

spark RDD消費的哦，不是spark streaming。導maven包：注意版本哦，要跟自己機器的一致

vertica系統管理語句 + vertica實時消費kafka

--看鎖表及鎖的型別 select object_name,lock_mode,transaction_id,request_timestamp,transaction_description from locks; select transaction_id from lo

使用Java程式碼實現實時消費kafka的訊息

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/P

使用storm trident消費kafka訊息

一、前言 storm通過保證資料至少被處理一次來保證資料的完整性,由於元祖可以重發,對於一些需要資料精確的場景,可以考慮用storm trident實現。傳統的事物型拓撲中存在幾種bolt： 1.1 BasicBolt 這是最基本的Bolt,BasicBolt每次只能處理一個tuple,而且必

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

python消費kafka資料批量插入到es

1、es的批量插入這是為了方便後期配置的更改，把配置資訊放在logging.conf中用elasticsearch來實現批量操作，先安裝依賴包，sudo pip install Elasticsearch2 from elasticsear

Flume+Kafka+Storm+Redis構建大資料實時處理系統

資料處理方法分為離線處理和線上處理，今天寫到的就是基於Storm的線上處理。在下面給出的完整案例中，我們將會完成下面的幾項工作：如何一步步構建我們的實時處理系統（Flume+Kafka+Storm+Redis）實時處理網站的使用者訪問日誌，並統計出該網站的PV、UV 將實時

Flume讀取日誌資料並寫入到Kafka，ConsoleConsumer進行實時消費

最近大資料學習使用了Flume、Kafka等，今天就實現一下Flume實時讀取日誌資料並寫入到Kafka中，同時，讓Kafka的ConsoleConsumer對日誌資料進行消費。 1、Flume F

資料採集之解析Mysql的binlog日誌傳送至Kafka實時消費

本文采用Maxwell來實現實時解析mysql的binlog日誌傳送至kafka 1、開啟mysql binlog 環境中mysql是docker容器,所以需要進入容器修改mysql配置.

SparkStreaming消費Kafka中的資料使用zookeeper和MySQL儲存偏移量的兩種方式

Spark讀取Kafka資料的方式有兩種，一種是receiver方式，另一種是直連方式。今天分享的SparkStreaming消費Kafka中的資料儲存偏移量的兩種方式都是基於直連方式上的話不多說直接上程式碼！第一種是使用zookeeper儲存偏移量 object Kafka

kafka中topic的partition數量和customerGroup的customer數量關係以及storm消費kafka時並行度設定問題總結：

前段時間通過網上查詢和自己測試仔細研究了partition和customer關係以及工作中遇到的storm並行度調整的問題，認真梳理了一下現總結如下：一、先說kafka部分： produce方面：如果有多個分割槽，傳送的時候按照key值hashCode%partit

canal實時抽取mysql資料傳送到kafka

基本說明 canal 1.1.1版本之後, 預設支援將canal server接收到的binlog資料直接投遞到MQ, 目前預設支援的MQ系統有: kafka: https://github.com/apache/kafka RocketMQ : https://github.c

canal實戰（一）：canal連線kafka實現實時同步mysql資料

前面已經介紹過了canal-kafka的應用。canal-kafka是把kafka作為客戶端，嵌入到canal中，並且在canal基礎上對原始碼進行了修改，以達到特定的實現canal到kafka的傳送。 canal-kafka是阿里雲最近更新的一個新的

Spark Streaming消費Kafka的資料進行統計

流處理平臺：這裡是第四步的實現： Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。 package spark import org.apache.spark.SparkConf impo

Spark Streaming消費Kafka Direct方式資料零丟失實現

一、概述上次寫這篇文章文章的時候，Spark還是1.x，kafka還是0.8x版本，轉眼間spark到了2.x，kafka也到了2.x，儲存offset的方式也發生了改變，筆者根據上篇文章和網上文章，將offset儲存到Redis，既保證了併發也保證了資料不丟失，經過測試，有效。二、

storm實時消費kafka資料

相關推薦