Spark Streaming 整合 SparkSQL處理流式計算

阿新 • • 發佈：2018-11-28

Spark Streaming之所以成為現在主流的流處理開發計算框架，不僅僅是因為它具有流處理和批處理的能力及支援離線和實時計算雙重特點，更重要的是Spark具有良好的生態，它不僅可以整合Hadoop生態的Hive，使用Hive on Spark進行離線分析，整合Yarn模式，使用Spark on Yarn進行資源排程，更有自身的Spark SQL及GraphX和machine learning進行更高層次的研究分析。
今天給大家分享下Spark Streaming整合SparkSQL處理流式計算
程式碼如下：


import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkStreamingAndSparkSQL {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("SocketWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(1))
    val lines = ssc.socketTextStream("node1",6666)
    val words = lines.flatMap(_.split(" "))
    words.foreachRDD(rdd=>{
    val spark = SparkSessionSingleton.getInstance(sparkConf)
    import spark.implicits._
    val RDDToDF = rdd.map(t=>Record(t)).toDF
    RDDToDF.createOrReplaceTempView("wordtest")
    val wordcountDF = spark.sql("select word,count(1) as total from wordtest group by word")
    wordcountDF.show()
  })
    ssc.start()
    ssc.awaitTermination()
  }
}
case class Record(word:String)
object SparkSessionSingleton {
  private var instance: SparkSession = _
  def getInstance(sparkConf: SparkConf): SparkSession = {
    if (instance == null) {
      instance = SparkSession
        .builder
        .config(sparkConf)
        .getOrCreate()
    }
    instance
  }
}

在啟動程式之前，先開啟socket輸入埠
在這裡插入圖片描述
下面是列印在控制檯的計數輸出

在這裡插入圖片描述

在這裡插入圖片描述
通過以上的輸出可以看到，這個程式是分批次計數的，而不是將所有的單詞計數，那麼我們怎樣實現所有批次單詞的計數呢？今天先分享到這裡，回頭再補充

Spark Streaming 整合 SparkSQL處理流式計算

Spark Streaming 整合 SparkSQL處理流式計算

java實現spark streaming與kafka整合進行流式計算

hadoop（十三）storm流式計算（實時處理）

spark streming流式計算一架構設計

流式計算--整合kafka+flume+storm

Spark Streaming整合Kafka實現網站點選流實時統計

大資料處理系統都有哪些？(流式計算系統)

關於Spark執行流式計算程式中跑一段時間出現GC overhead limit exceeded

Spark Streaming高級特性在NDCG計算實踐

storm 流式計算框架

Storm簡介——實時流式計算介紹

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

spark streaming整合kafka-直連的方式

流式計算簡介

Spark學習筆記（16）——Spark Streaming 整合Kafka

Spark學習筆記（15）——Spark Streaming 整合 Flume

Spark Streaming整合flume(Poll方式和Push方式)

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

Flink 流式計算框架（學習一）

Spark Streaming整合Spark SQL之wordcount案例

Spark Streaming 整合 SparkSQL處理流式計算

相關推薦