SparkStreaming消費kafka數據

阿新 • • 發佈：2018-10-31

字符串 targe val offset 1.0 error .org 依賴 oot

概要：本例子為SparkStreaming消費kafka消息的例子，實現的功能是將數據實時的進行抽取、過濾、轉換，然後存儲到HDFS中。

實例代碼

package com.fwmagic.test

import com.alibaba.fastjson.{JSON, JSONException}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.slf4j.LoggerFactory

/**
  * created by fwmagic
  */
object RealtimeEtl {

  private val logger = LoggerFactory.getLogger(PVUV.getClass)

  def main(args: Array[String]): Unit = {
    System.setProperty("HADOOP_USER_NAME", "hadoop")

    val conf = new SparkConf().setAppName("RealtimeEtl").setMaster("local[*]")

    val spark = SparkSession.builder().config(conf).getOrCreate()

    val streamContext = new StreamingContext(spark.sparkContext, Seconds(5))

    //直連方式相當於跟kafka的Topic至直接連接
    //"auto.offset.reset:earliest(每次重啟重新開始消費)，latest(重啟時會從最新的offset開始讀取)
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hd1:9092,hd2:9092,hd3:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "fwmagic",
      "auto.offset.reset" -> "latest",
      "enable.auto.commit" -> (false: java.lang.Boolean)
    )

    val topics = Array("access")

    val kafkaDStream = KafkaUtils.createDirectStream[String, String](
      streamContext,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
    )

    //如果使用SparkStream和Kafka直連方式整合，生成的kafkaDStream必須調用foreachRDD
    kafkaDStream.foreachRDD(kafkaRDD => {
      if (!kafkaRDD.isEmpty()) {
        //獲取當前批次的RDD的偏移量
        val offsetRanges = kafkaRDD.asInstanceOf[HasOffsetRanges].offsetRanges

        //拿出kafka中的數據
        val lines = kafkaRDD.map(_.value())
        //將lines字符串轉換成json對象
        val logBeanRDD = lines.map(line => {
          var logBean: LogBean = null
          try {
            logBean = JSON.parseObject(line, classOf[LogBean])
          } catch {
            case e: JSONException => {
              //logger記錄
              logger.error("json解析錯誤！line:" + line, e)
            }
          }
          logBean
        })

        //過濾
        val filteredRDD = logBeanRDD.filter(_ != null)

        //將RDD轉化成DataFrame,因為RDD中裝的是case class
        import spark.implicits._

        val df = filteredRDD.toDF()

        df.show()
        //將數據寫到hdfs中:hdfs://hd1:9000/360
        df.repartition(1).write.mode(SaveMode.Append).parquet(args(0))

        //提交當前批次的偏移量，偏移量最後寫入kafka
        kafkaDStream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      }
    })

    //啟動
    streamContext.start()
    streamContext.awaitTermination()
    streamContext.stop()

  }

}

case class LogBean(time:String,
                   longitude:Double,
                   latitude:Double,
                   openid:String,
                   page:String,
                   evnet_type:Int)

依賴環境（pom.xml）

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.fwmagic.360</groupId>
    <artifactId>fwmagic-360</artifactId>
    <version>1.0</version>

    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.11.7</scala.version>
        <spark.version>2.2.2</spark.version>
        <hadoop.version>2.7.7</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 導入scala的依賴 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- 導入spark的依賴 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- 導入spark-sql的依賴 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- spark streamingd的依賴 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- 指定hadoop-client API的版本 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <!-- 指定hadoop-client API的版本 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.39</version>
        </dependency>

    </dependencies>

    <build>
        <pluginManagement>
            <plugins>
                <!-- 編譯scala的插件 -->
                <plugin>
                    <groupId>net.alchim31.maven</groupId>
                    <artifactId>scala-maven-plugin</artifactId>
                    <version>3.2.2</version>
                </plugin>
                <!-- 編譯java的插件 -->
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>3.5.1</version>
                </plugin>
            </plugins>
        </pluginManagement>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>scala-test-compile</id>
                        <phase>process-test-resources</phase>
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <executions>
                    <execution>
                        <phase>compile</phase>
                        <goals>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <!-- 打jar插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

SparkStreaming消費kafka數據

字符串 targe val offset 1.0 error .org 依賴 oot 概要：本例子為SparkStreaming消費kafka消息的例子，實現的功能是將數據實時的進行抽取、過濾、轉換，然後存儲到HDFS中。實例代碼 package com.fwmagic.

SparkStreaming消費Kafka數據限速問題

使用 font cor 計算 ont 消息易用 per stream SparkStreaming消費Kafka數據的時候，當有大量初始化數據時會拖累整個streaming程序的運行，問有什麽辦法？總體來說這個問題大概有兩種解決思路： 1.在Spark端設置限速；2

spark streaming從指定offset處消費Kafka數據

tpc asi 4.2 nes 配置 sof 我們 erl examples spark streaming從指定offset處消費Kafka數據 2017-06-13 15:19 770人閱讀評論(2) 收藏舉報分類： spark（5）原文地址:htt

Kafka數據輔助和Failover

ssa over 會有更新操作 namo 多個版本兩個數據輔助與Failover CAP理論（它具有一致性、可用性、分區容忍性） CAP理論：分布式系統中，一致性、可用性、分區容忍性最多只可同時滿足兩個。一般分區容忍性都要求有保障，因此很多時候在可用

flume 讀取kafka 數據

any from 原來 string strac span value ive erro 本文介紹flume讀取kafka數據的方法代碼： /*********

kafka數據禍福和failover

ilo 讀取數據 img ado 動態 slave 比較 comm 強一致性 k CAP帽子理論。 consistency：一致性 Availability：可用性 partition tolerance：分區容忍型 CA ：mysql oracle（拋棄

python 多進程——使用進程池，多進程消費的數據）是一個隊列的時候，他會自動去隊列裏依次取數據

10個 sta find 因此 pool 時間 import nbsp load 我的mac 4核，因此每次執行的時候同時開啟4個線程處理： # coding: utf-8 import time from multiprocessing import Pool d

SparkStreaming消費Kafka中的資料使用zookeeper和MySQL儲存偏移量的兩種方式

Spark讀取Kafka資料的方式有兩種，一種是receiver方式，另一種是直連方式。今天分享的SparkStreaming消費Kafka中的資料儲存偏移量的兩種方式都是基於直連方式上的話不多說直接上程式碼！第一種是使用zookeeper儲存偏移量 object Kafka

sparkstreaming消費kafka如何保證輸出結果只會產生一次？（事務性）

最近開始使用sparkstreaming+kafka0.10，使用過程中碰到問題： steaming採用的direct方式，(這種方式和receiver方式的對比效能會好很多)，spark計算完資料之後有一個結果入庫操作，現在問題來了，採用自動提交的時候程式二次啟

kafka數據可靠傳輸

發送數據 efault 復制最好取出永遠正在個數實時再說復制Kafka 的復制機制和分區的多副本架構是Kafka 可靠性保證的核心。把消息寫入多個副本可以使Kafka 在發生崩憤時仍能保證消息的持久性。Kafka 的主題被分為多個分區，分區是基本的數據塊。分區

Kafka數據遷移

sql語句 follow 同學提高 http 正常的 lis 允許多個實例 1.概述 Kafka的使用場景非常廣泛，一些實時流數據業務場景，均依賴Kafka來做數據分流。而在分布式應用場景中，數據遷移是一個比較常見的問題。關於Kafka集群數據如何遷移，今天筆者將為大

工具篇-Spark-Streaming獲取kafka數據的兩種方式（轉載）

min 但是 col 必須 hdfs span 保存 memory 簡單轉載自：https://blog.csdn.net/wisgood/article/details/51815845 一、基於Receiver的方式原理 Receiver從Kafka中獲取的數

關於kafka重新消費數據問題

關於無法 bsp 刪除通過 sum 指定重復設置我們在使用consumer消費數據時，有些情況下我們需要對已經消費過的數據進行重新消費，這裏介紹kafka中兩種重新消費數據的方法。 1. 修改offset 我們在使用consumer消費的時候，每個topic會

sparkStreaming 讀kafka的數據

bsp 正常 jar包信息 .sh 功能 sleep next await 目標：sparkStreaming每2s中讀取一次kafka中的數據，進行單詞計數。 topic:topic1 broker list:192.168.1.126:9092,192.168.1.1

【轉】Kafka某topic無法消費解決方案&Kafka某Topic數據清理

清0 logs -s 重點找到使用 on和off image ica 由於項目原因，最近經常碰到Kafka消息隊列某topic在集群宕機重啟後無法消費的情況。碰到這種情況，有三步去判斷原因所在： step A：如果用kafka串口（即console-consumer）

Kafka 使用Java實現數據的生產和消費demo

== 輸入流是你 www esc 驗證 rri else 分開前言在上一篇中講述如何搭建kafka集群，本篇則講述如何簡單的使用 kafka 。不過在使用kafka的時候，還是應該簡單的了解下kafka。 Kafka的介紹 Kafka是一種高吞吐量的分布式發布訂閱消息

logstash 消費數據到kafka異常

查看但是垃圾回收 produce pro 問題 failed 是否 producer 報錯：[logstash.outputs.kafka ] Sending batch to Kafka failed. Will retry after a delay. {:

Kafka在高並發的情況下，如何避免消息丟失和消息重復？kafka消費怎麽保證數據消費一次？數據的一致性和統一性？數據的完整性？

least 業務針對 mar 完整 fse 依靠更新 follow 1、kafka在高並發的情況下,如何避免消息丟失和消息重復? 消息丟失解決方案: 首先對kafka進行限速，其次啟用重試機制，重試間隔時間設置長一些，最後Kafka設置acks=all，即需要相應的所

kafka消費者實時消費數據存入hdfs java scalca 代碼

cto tel exec prope println support asn 我們 main hadoop-client依賴很亂調試很多次cdh版本好多jar沒有用hadoop2.7.3可以自定義輸出流的池子進行流管理 publi

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

SparkStreaming消費kafka數據

實例代碼

依賴環境（pom.xml）

相關推薦