spark streaming 消費kafka資料

阿新 • • 發佈：2022-03-03

1.在虛擬機器啟動zookeeper和kafka，新建topic test1,這裡使用的topic 是test1。

2.Scala程式

要修改 3.定義 Kafka 引數中的主機名稱以及要消費的topic名稱

package scala.spark
import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

 
object Kafka {
  def main(args: Array[String]): Unit = {

    //1.建立 SparkConf
    val sparkConf: SparkConf = new SparkConf().setAppName("ReceiverWordCount").setMaster("local[*]")

    //2.建立 StreamingContext
    val ssc = new StreamingContext(sparkConf, Seconds(3))

    //3.定義 Kafka 引數
    val kafkaPara: Map[String, Object] = Map[String, Object]( ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG ->
      " 
hadoop02:9092", ConsumerConfig.GROUP_ID_CONFIG -> "test1", "key.deserializer" ->
      "org.apache.kafka.common.serialization.StringDeserializer", "value.deserializer" ->
      "org.apache.kafka.common.serialization.StringDeserializer"
    )

    //4.讀取 Kafka 資料建立 DStream
    val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](ssc,
      LocationStrategies.PreferConsistent, ConsumerStrategies.Subscribe[String, String](Set( 
"test1"), kafkaPara))

    //5.將每條訊息的 KV 取出
    val valueDStream: DStream[String] = kafkaDStream.map(record => record.value())

      //6. 計 算
    valueDStream.flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      .print()

    //7. 開 啟 任 務 ssc.start() ssc.awaitTermination()
    ssc.start()
    ssc.awaitTermination()
  }
}

3.啟動kafka生產者

消費到了好椰

spark streaming 消費kafka資料

1.在虛擬機器啟動zookeeper和kafka，新建topic test1,這裡使用的topic 是test1。 2.Scala程式

Spark Streaming讀取Kafka資料的兩種方式

Kafka在0.8和0.10之間引入了一種新的消費者API,因此,Spark Streaming與Kafka整合,有兩種包可以選擇:spark-streaming-kafka-0-8與spark-streaming-kafka-0-10。在使用時應注意以下幾點:

scala spark streaming 列印kafka 資料

how-to-fix-java-io-notserializableexception-org-apache-kafka-clients-consumer The Kafka Consumer record object is received from Dstream. When you try to print it, it gives error because that object is

基於Spark Streaming + Canal + Kafka對Mysql增量資料實時進行監測分析

1.Canal是什麼？2.如何編寫Canal客戶端？3.如何編寫一個數據庫操作的Spark程式程式碼？4.開發Spark專案時容易發生哪些衝突問題？Spark中的Spark Streaming可以用於實時流專案的開發，實時流專案的資料來源除了可以來

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

spark-streaming整合Kafka處理實時資料

在這篇文章裡，我們模擬了一個場景，實時分析訂單資料，統計實時收益。場景模擬

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

python 消費 kafka 資料教程

1.安裝python模組 pip install --user kafka-python==1.4.3 如果報錯壓縮相關的錯嘗試安裝下面的依賴

Spark Streaming整合Kafka調優

調優 Spark Streaming整合Kafka時，當資料量較小時預設配置一般都能滿足我們的需要，但是當資料量大的時候，就需要進行一定的調整和優化。

大資料實戰（十七）：電商數倉（十）之使用者行為資料採集（十）元件安裝（六）消費Kafka資料Flume

0 簡介叢集規劃伺服器hadoop102 伺服器hadoop103 伺服器hadoop104 Flume（消費Kafka） Flume

spark-streaming與kafka的整合

1. 概述在2.x中，spark有兩個用來與kafka整合的程式碼，版本代號為0.8和0.10，由於在0.8，kafka有兩套消費者api，根據高階api得到了Receiver-based Approach，根據低階api得到了Direct Approach，而在0.10由於kaf

Scala實現Flink消費kafka資料並用連線流過濾後存入PostgreSQL資料庫

1 前言公司有一個專案整體的架構是要消費kafka資料並存入資料庫，以前選用的工具是spark streaming，最近flink已經變得比較流行了，所以也嘗試一下flink消費資料與spark streaming的區別。首先來簡單瞭解一下flink，

SparkStreaming消費Kafka資料並計算後往Redis寫資料案列

package com.lg.blgdata.streaming import org.apache.spark.streaming.StreamingContext import org.apache.kafka.common.serialization.StringDeserializer

java8下spark-streaming結合kafka程式設計（spark 2.3 kafka 0.10）

前面有說道spark-streaming的簡單demo，也有說到kafka成功跑通的例子，這裡就結合二者，也是常用的使用之一。

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（redis方式，利用pipeline）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到Redis中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（mysql方式，利用事務）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到MySQL中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中非聚合類運算如何和kafka保持exactly once一致性語義（冪等性方式）

object KafkaToHbase { def main(args: Array[String]): Unit = { //true a1 g1 ta,tb val Array(isLocal, appName, groupId, allTopics) = args

kafka資料如何被重複消費

近段時間學習極客時間李玥老師的後端儲存實戰課時，看到一個很多意思的東西：用kafka儲存點選流的資料，並重復處理。在以往的使用中，kafka只是一個訊息傳輸的載體，訊息被消費後就不能再次消費。新知識與印象相沖突

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明