Spark Streaming整合Spark SQL之wordcount案例

阿新 • • 發佈：2018-11-14

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala

案例原始碼：

package cn.ysjh

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext, Time}

object SparkStreamingSql {

  def main(args: Array[String]): Unit = {

    val cf: SparkConf = new SparkConf().setAppName("SparkStreamingSql").setMaster("local[2]")

    val streaming: StreamingContext = new StreamingContext(cf, Seconds(5))


    val lines = streaming.socketTextStream("192.168.220.134", 6789)
    val words = lines.flatMap(_.split(" "))

    // 將單詞DStream的RDD轉換為DataFrame並執行SQL查詢
    words.foreachRDD { (rdd: RDD[String], time: Time) =>
      // 獲取SparkSession的單例例項
      val spark = SparkSessionSingleton.getInstance(rdd.sparkContext.getConf)
      import spark.implicits._

      //將RDD [String]轉換為RDD [case class]到DataFrame
      val wordsDataFrame = rdd.map(w => Record(w)).toDF()

      // 使用DataFrame建立臨時檢視
      wordsDataFrame.createOrReplaceTempView("words")

      // 使用SQL對錶進行單詞計數並列印它
      val wordCountsDataFrame =
        spark.sql("select word, count(*) as total from words group by word")
      println(s"========= $time =========")
      wordCountsDataFrame.show()
    }


    streaming.start()

    streaming.awaitTermination()

  }


//  將RDD轉換為DataFrame的案例類
  case class Record(word: String)


// 例項化SparkSession的單例例項
  object SparkSessionSingleton {

    @transient private var instance: SparkSession = _

    def getInstance(sparkConf: SparkConf): SparkSession = {
      if (instance == null) {
        instance = SparkSession
          .builder
          .config(sparkConf)
          .getOrCreate()
      }
      instance
    }

  }

}

可以看出將Spark Streaming中接收到的資料建立成表，然後使用Spark SQL來進行一系列的操作，在實際生產中使用的非常多

執行截圖：

這裡仍然使用netcat來產生socket資料進行測試

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

spark筆記之Spark Streaming整合flume實戰

a1.sources = r1 a1.sinks = k1 a1.channels = c1 #source a1.sources.r1.channels = c1 a1.sources.r1.type = spooldir a1.sources.r1.

spark筆記之Spark Streaming整合kafka實戰

kafka作為一個實時的分散式訊息佇列，實時的生產和消費訊息，這裡我們可以利用SparkStreaming實時地讀取kafka中的資料，然後進行相關計算。在Spark1.3版本後，KafkaUtils裡面提供了兩個建立dstream的方法，一種為KafkaUtils.cr

Flume+Kakfa+Spark Streaming整合（執行WordCount小例子）

環境版本：Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0 Flume/Kafka的安裝配置請看我之前的部落格: http://blog.c

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

obj required word 錯誤 prope apache rop sta move Maven組件如下： <dependency> <groupId>org.apache.spark</groupId> <

spark streaming整合kafka-直連的方式

import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import kafka.utils.{ZKGroupTopicDi

Spark學習筆記（16）——Spark Streaming 整合Kafka

1 啟動 zk(zookeeper-3.4.8) 三個節點同時操作 zkServer.sh start 2 啟動 Kafka 三個節點同時操作 kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/conf

Spark學習筆記（15）——Spark Streaming 整合 Flume

1 flume 配置檔案在 flume-env.sh 裡配置 JAVA_HOME 1.1 flume-pull.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.chan

Spark Streaming整合flume(Poll方式和Push方式)

flume作為日誌實時採集的框架，可以與SparkStreaming實時處理框架進行對接，flume實時產生資料，sparkStreaming做實時處理。 Spark Streaming對接FlumeNG有兩種方式，一種是FlumeNG將訊息Push推給Spark Streaming，還

Spark Streaming 整合 SparkSQL處理流式計算

Spark Streaming之所以成為現在主流的流處理開發計算框架，不僅僅是因為它具有流處理和批處理的能力及支援離線和實時計算雙重特點，更重要的是Spark具有良好的生態，它不僅可以整合Hadoop生態的Hive，使用Hive on Spark進行離線分析，整合Yarn模式，使用Spark

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(基於Receiver的方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(直接讀取方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的

Spark學習（拾貳）- Spark Streaming整合Kafka

文章目錄 Spark Streaming整合Kafka的版本選擇詳解以下是基於spark2.2的測試： Receiver方式整合之概述 Receiver方式整合之Kafka測試 Receiver方式整合之Sp

Spark學習（拾壹）- Spark Streaming整合Flume

文章目錄 Push方式整合之概述 Push方式整合之Flume Agent配置開發 Push方式整合之Spark Streaming應用開發 Push方式整合之本地IDEA環境聯調 Push方式整合之伺服器環境聯調

Spark Streaming整合flume實戰

Spark Streaming對接Flume有兩種方式 Poll：Spark Streaming從flume 中拉取資料 Push：Flume將訊息Push推給Spark Streaming 1、安裝flume1.6以上 2、下載依賴包 spark-streaming

Spark Streaming整合Kafka實現網站點選流實時統計

安裝並配置zk 安裝並配置Kafka 啟動zk 啟動Kafka 建立topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --

【十五】Spark Streaming整合Kafka使用Direct方式（使用Scala語言）

官網介紹 Kafka提供了新的consumer api 在0.8版本和0.10版本之間。0.8的整合是相容0.9和0.10的。但是0.10的整合不相容以前的版本。這裡使用的整合是spark-streaming-kafka-0-8。官方文件配置SparkStrea

Spark Streaming整合Spark SQL之wordcount案例

相關推薦