Spark Streaming整合flume實戰

阿新 • • 發佈：2018-12-09

Spark Streaming對接Flume有兩種方式

Poll：Spark Streaming從flume 中拉取資料
Push：Flume將訊息Push推給Spark Streaming

1、安裝flume1.6以上

2、下載依賴包

spark-streaming-flume-sink_2.11-2.0.2.jar放入到flume的lib目錄下

3、生成資料

伺服器上的 /root/data目錄下準備資料檔案data.txt

vi data.txt

hadoop spark hive spark
hadoop sqoop flume redis flume hadoop
solr kafka solr hadoop

4、配置採集方案

vi flume-poll.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
#source
a1.sources.r1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/data
a1.sources.r1.fileHeader = true
#channel
a1.channels.c1.type =memory
a1.channels.c1.capacity = 20000
a1.channels.c1.transactionCapacity=5000
#sinks
a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.spark.streaming.flume.sink.SparkSink
a1.sinks.k1.hostname=hdp-node-01
a1.sinks.k1.port = 8888
a1.sinks.k1.batchSize= 2000

5、新增依賴

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-flume_2.10</artifactId>
    <version>2.0.2</version>
</dependency>

6、程式碼實現

package cn.cheng.spark
import java.net.InetSocketAddress
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * sparkStreaming整合flume 拉模式Poll

  */
object SparkStreaming_Flume_Poll {
  //newValues 表示當前批次彙總成的(word,1)中相同單詞的所有的1
  //runningCount 歷史的所有相同key的value總和
  def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
    val newCount =runningCount.getOrElse(0)+newValues.sum
    Some(newCount)
  }


  def main(args: Array[String]): Unit = {
    //配置sparkConf引數
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreaming_Flume_Poll").setMaster("local[2]")
    //構建sparkContext物件
    val sc: SparkContext = new SparkContext(sparkConf)
    //構建StreamingContext物件，每個批處理的時間間隔
    val scc: StreamingContext = new StreamingContext(sc, Seconds(5))
    //設定checkpoint
      scc.checkpoint("./")
    //設定flume的地址，可以設定多臺
    val address=Seq(new InetSocketAddress("192.168.200.160",8888))
    // 從flume中拉取資料
    val flumeStream: ReceiverInputDStream[SparkFlumeEvent] = FlumeUtils.createPollingStream(scc,address,StorageLevel.MEMORY_AND_DISK)

    //獲取flume中資料，資料存在event的body中，轉化為String
    val lineStream: DStream[String] = flumeStream.map(x=>new String(x.event.getBody.array()))
    //實現單詞彙總
   val result: DStream[(String, Int)] = lineStream.flatMap(_.split(" ")).map((_,1)).updateStateByKey(updateFunction)

    result.print()
    scc.start()
    scc.awaitTermination()
  }

}

7、啟動flume

flume-ng agent -n a1 -c /opt/bigdata/flume/conf -f /opt/bigdata/flume/conf/flume-poll.conf -Dflume.root.logger=INFO,console

8、啟動spark-streaming應用程式

9、檢視結果

這裡寫圖片描述

flume將訊息Push推給Spark Streaming

1、配置採集方案

vi flume-push.conf

#push mode
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#source
a1.sources.r1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/data
a1.sources.r1.fileHeader = true
#channel
a1.channels.c1.type =memory
a1.channels.c1.capacity = 20000
a1.channels.c1.transactionCapacity=5000
#sinks
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname=172.16.43.63
a1.sinks.k1.port = 8888
a1.sinks.k1.batchSize= 2000

注意配置檔案中指明的hostname和port是spark應用程式所在伺服器的ip地址和埠。

2、程式碼實現

package cn.cheng.spark

import java.net.InetSocketAddress

import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * sparkStreaming整合flume  推模式Push
  */
object SparkStreaming_Flume_Push {
  //newValues 表示當前批次彙總成的(word,1)中相同單詞的所有的1
  //runningCount 歷史的所有相同key的value總和
  def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
    val newCount =runningCount.getOrElse(0)+newValues.sum
    Some(newCount)
  }


  def main(args: Array[String]): Unit = {
    //配置sparkConf引數
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreaming_Flume_Push").setMaster("local[2]")
    //構建sparkContext物件
    val sc: SparkContext = new SparkContext(sparkConf)
    //構建StreamingContext物件，每個批處理的時間間隔
    val scc: StreamingContext = new StreamingContext(sc, Seconds(5))
    //設定日誌輸出級別
    sc.setLogLevel("WARN")
    //設定檢查點目錄
    scc.checkpoint("./")
    //flume推資料過來
    // 當前應用程式部署的伺服器ip地址，跟flume配置檔案保持一致
    val flumeStream: ReceiverInputDStream[SparkFlumeEvent] = FlumeUtils.createStream(scc,"172.16.43.63",8888,StorageLevel.MEMORY_AND_DISK)

    //獲取flume中資料，資料存在event的body中，轉化為String
    val lineStream: DStream[String] = flumeStream.map(x=>new String(x.event.getBody.array()))
    //實現單詞彙總
   val result: DStream[(String, Int)] = lineStream.flatMap(_.split(" ")).map((_,1)).updateStateByKey(updateFunction)

    result.print()
    scc.start()
    scc.awaitTermination()
  }

}
}

3、啟動spark-streaming應用程式

4、生成資料

cp data.txt data2.txt

5、啟動flume

flume-ng agent -n a1 -c /opt/bigdata/flume/conf -f /opt/bigdata/flume/conf/flume-push.conf -Dflume.root.logger=INFO,console

6、檢視結果

這裡寫圖片描述

Spark Streaming整合flume實戰

Spark Streaming對接Flume有兩種方式 Poll：Spark Streaming從flume 中拉取資料 Push：Flume將訊息Push推給Spark Streaming 1、安裝flume1.6以上 2、下載依賴包 spark-streaming

spark筆記之Spark Streaming整合flume實戰

a1.sources = r1 a1.sinks = k1 a1.channels = c1 #source a1.sources.r1.channels = c1 a1.sources.r1.type = spooldir a1.sources.r1.

Spark學習筆記（15）——Spark Streaming 整合 Flume

1 flume 配置檔案在 flume-env.sh 裡配置 JAVA_HOME 1.1 flume-pull.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.chan

Spark Streaming整合flume(Poll方式和Push方式)

flume作為日誌實時採集的框架，可以與SparkStreaming實時處理框架進行對接，flume實時產生資料，sparkStreaming做實時處理。 Spark Streaming對接FlumeNG有兩種方式，一種是FlumeNG將訊息Push推給Spark Streaming，還

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的

Spark學習（拾壹）- Spark Streaming整合Flume

文章目錄 Push方式整合之概述 Push方式整合之Flume Agent配置開發 Push方式整合之Spark Streaming應用開發 Push方式整合之本地IDEA環境聯調 Push方式整合之伺服器環境聯調

spark筆記之Spark Streaming整合kafka實戰

kafka作為一個實時的分散式訊息佇列，實時的生產和消費訊息，這裡我們可以利用SparkStreaming實時地讀取kafka中的資料，然後進行相關計算。在Spark1.3版本後，KafkaUtils裡面提供了兩個建立dstream的方法，一種為KafkaUtils.cr

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。二、推送式方法在推送式方法 (Flume-style Push-based Appr

Spark Streaming從Flume Poll資料案例實戰和內幕原始碼解密

本博文內容主要包括以下幾點內容： 1、Spark Streaming on Polling from Flume實戰 2、Spark Streaming on Polling from Flume原始碼一、推模式(Flume push SparkStre

Flume+Kakfa+Spark Streaming整合（執行WordCount小例子）

環境版本：Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0 Flume/Kafka的安裝配置請看我之前的部落格: http://blog.c

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

obj required word 錯誤 prope apache rop sta move Maven組件如下： <dependency> <groupId>org.apache.spark</groupId> <

spark streaming整合kafka-直連的方式

import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import kafka.utils.{ZKGroupTopicDi

Spark學習筆記（16）——Spark Streaming 整合Kafka

1 啟動 zk(zookeeper-3.4.8) 三個節點同時操作 zkServer.sh start 2 啟動 Kafka 三個節點同時操作 kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/conf

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

Spark Streaming 整合 SparkSQL處理流式計算

Spark Streaming之所以成為現在主流的流處理開發計算框架，不僅僅是因為它具有流處理和批處理的能力及支援離線和實時計算雙重特點，更重要的是Spark具有良好的生態，它不僅可以整合Hadoop生態的Hive，使用Hive on Spark進行離線分析，整合Yarn模式，使用Spark

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(基於Receiver的方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(直接讀取方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark學習（拾貳）- Spark Streaming整合Kafka

文章目錄 Spark Streaming整合Kafka的版本選擇詳解以下是基於spark2.2的測試： Receiver方式整合之概述 Receiver方式整合之Kafka測試 Receiver方式整合之Sp

Spark Streaming整合Kafka實現網站點選流實時統計

安裝並配置zk 安裝並配置Kafka 啟動zk 啟動Kafka 建立topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --

Spark Streaming整合flume實戰

1、安裝flume1.6以上

2、下載依賴包

3、生成資料

4、配置採集方案

5、新增依賴

6、程式碼實現

7、啟動flume

8、啟動spark-streaming應用程式

9、檢視結果

flume將訊息Push推給Spark Streaming

1、配置採集方案

2、程式碼實現

3、啟動spark-streaming應用程式

4、生成資料

5、啟動flume

6、檢視結果

相關推薦