spark streaming 通過zookeeper讀取kafka上的資料

阿新 • • 發佈：2019-02-13

maven 依賴如下

 <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId 
>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.0.2</version>
        </dependency> 
          <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-streaming-kafka-0-8_2.11</artifactId 
>
          <version>2.0.2</version>
      </dependency>


import java.util.HashMap;
import java.util.Map;
import java.util.function.Consumer;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache 
.spark.api.java.function.VoidFunction;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;

import scala.Tuple2;
@SuppressWarnings("serial")
public class JavaKafkaWordCount {

    private JavaKafkaWordCount() {
    }

    public static void main(String[] args) throws Exception {
        args = new String[4];
        args[0] = "192.168.80.4:2181,192.168.80.5:2181,192.168.80.8:2181";
        args[1] ="group1";
        args[2] ="testTopic";
        args[3]="3";
        if (args.length < 4) {
            System.err.println("Usage: JavaKafkaWordCount <zkQuorum> <group> <topics> <numThreads>");
            System.exit(1);
        }

        SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount").setMaster("local[2]");
        // Create the context with 2 seconds batch size
        JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(2000));

        int numThreads = Integer.parseInt(args[3]);
        Map<String, Integer> topicMap = new HashMap<>();
        String[] topics = args[2].split(",");
        for (String topic : topics) {
            topicMap.put(topic, numThreads);
        }

        JavaPairReceiverInputDStream<String, String> messages = KafkaUtils.createStream(jssc, args[0], args[1],
                topicMap);
        JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {
            @Override
            public String call(Tuple2<String, String> tuple2) {
                return tuple2._2();
            }
        });

        lines.foreachRDD(new VoidFunction<JavaRDD<String>>() {

            @Override
            public void call(JavaRDD<String> t) throws Exception {
                t.collect().forEach(new Consumer<String>() {

                    @Override
                    public void accept(String t) {
                        System.out.println(t);
                    }
                });
            }
        });
        jssc.start();
        jssc.awaitTermination();
    }
}

spark streaming 通過zookeeper讀取kafka上的資料

maven 依賴如下 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c

Spark Streaming通過直連的方式消費Kafka中的資料

為什麼採用直連（createDirectStream）的方式，主要有以下幾個原因： 1.createDirectStream的方式從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，實現零資料丟失，保證不重複消費，比createS

Spark Stream整合flum和kafka，資料儲存在HBASE上，分析後存入資料庫

開發環境：Hadoop+HBASE+Phoenix+flum+kafka+spark+MySQL 預設配置好了Hadoop的開發環境，並且已經安裝好HBASE等元件。下面通過一個簡單的案例進行整合：這是整個工作的流程圖：第一步：獲取資料來源　　由於外部埋點獲取資源較為繁瑣

[Spark]Spark-streaming通過Receiver方式實時消費Kafka流程（Yarn-cluster）

1.啟動zookeeper 2.啟動kafka服務（broker） [[email protected] kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties 3.啟動kafka的producer（

spark+phoenix 通過jdbc讀取表中的資料

廢話不說，直接程式碼，解決燃煤之急新增maven配置<dependency> <groupId>org.apache.phoenix</groupId>

spark streaming小實戰之kafka讀取與儲存

本次小實戰主要介紹一下spark streaming如何讀取kafka資料涉及理論部分在這就不多說了，自己也剛入門先說下需求待處理日誌格式為ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

利用pyspark 讀取 S3上資料

spark = SparkSession.builder.master('local').appName("hxy_test_script").getOrCreate() sc = spark.sparkContext # s3環境 sc._jsc.hadoopC

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的

JAVA程式碼通過Socket讀取返回的資料

package net.java2000.net;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.InetAdd

spark streaming應用提交到yarn上一直處於ACCEPTED狀態，也未報錯

原因已經找到，這裡做個記錄，防止下次再犯類似的錯誤。實際上是因為程式碼中將執行模式設定為本地模式，在提交到yarn上後driver端的程式碼正常執行，並且也正常運行了很多批次。但由於是本地模式，所以driver不會向resourcemanager申請資源，所以也就不會向rm註

讓 Spark Streaming 程式在 YARN 叢集上長時間執行（二）—— 日誌、監控、Metrics

前段時間看到了外國朋友寫的一篇文章，覺得還不錯，於是就把他翻譯一下，供大家參考和學習。如果沒看過第一篇文章，建議先去看一下上一篇文章哈，這裡是接著上一篇文章來寫的哈~ 日誌訪問 Spark 應用程式日誌的最簡單方法是配置 Log4j 控

spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

問題：因為CDH叢集環境問題，我spark streaming程式的依賴就依照其版本來進行，但這就遇到一個問題，叢集spark2支援的kafka版本是0.9.0，而我們程式操作zookeeper的ZkUtils類就不相容了。解決方案：重新KafkaCluster類，

spark-streaming 程式設計(三)連線kafka消費資料

spark-streaming支援kafka消費，有以下方式：我實驗的版本是kafka0.10，試驗的是spark-streaming-kafka-0.8的接入方式。另外，spark-streaming-kafka-0.10的分支並沒有研究。 spar

storm trident讀取kafka中資料

1. 建立kafka spout public TransactionalTridentKafkaSpout kafkaSpout(String topic) { StormConfig stormConfig = StormConfig.getIns

spark 連線mysql資料庫讀取、寫入資料

資料庫連線並獲取資料： JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("sparkApp").setMaster("local[5]"));

關於Spark Streaming 如何進行commit kafka的offset

收到就提交提交方式記為 X：接收到資料就會直接commit，假如某個batch失敗，重啟job，則消費會從上次commit的offset消費，所以會導致失敗的那個batch的部分資料丟失。 batch結束才commit的方式記為 Y: 會有訊息重複消費的問題。如果

使用Spark Streaming SQL基於時間視窗進行資料統計

2.時間窗語法說明 Spark Streaming SQL支援兩類視窗操作：滾動視窗（TUMBLING）和滑動視窗（HOPPING）。 2.1滾動視窗滾動視窗（TUMBLING）根據每條資料的時間欄位將資料分配到一個指定大小的視窗中進行操作，視窗以視窗大小為步長進行滑動，視窗之間不會出現重疊。

Spark Streaming +Kafka 使用底層API直接讀取Kafka的Partition資料，手動更新Offset到Zookeeper叢集

Spark Streaming +Kafka 使用底層API直接讀取Kafka的Partition資料，正常Offset儲存在CheckPoint中。但是這樣無法實現Kafka監控工具對Kafka的監控，所以手動更新Offset到Zookeeper叢集中

spark streaming讀取kafka資料，記錄offset

如下是pom.xml檔案<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

spark streaming 通過zookeeper讀取kafka上的資料

相關推薦