Spark Streaming vs. Structured Streaming

阿新 • • 發佈：2019-12-22

簡介

Spark Streaming

Spark Streaming是spark最初的流處理框架，使用了微批的形式來進行流處理。

提供了基於RDDs的Dstream API，每個時間間隔內的資料為一個RDD，源源不斷對RDD進行處理來實現流計算

Structured Streaming

Spark 2.X出來的流框架，採用了無界表的概念，流資料相當於往一個表上不斷追加行。

基於Spark SQL引擎實現，可以使用大多數Spark SQL的function

區別

1. 流模型

Spark Streaming

Spark Streaming採用微批的處理方法。每一個批處理間隔的為一個批，也就是一個RDD，我們對RDD進行操作就可以源源不斷的接收、處理資料。

spark streaming微批終是批

Structured Streaming

Structured Streaming is to treat a live data stream as a table that is being continuously appended

Structured Streaming將實時資料當做被連續追加的表。流上的每一條資料都類似於將一行新資料新增到表中。

以上圖為例，每隔1秒從輸入源獲取資料到Input Table，並觸發Query計算，然後將結果寫入Result Table，之後根據指定的Output模式進行寫出。

上面的1秒是指定的觸發間隔（trigger interval），如果不指定的話，先前資料的處理完成後，系統將立即檢查是否有新資料。

需要注意的是，Spark Streaming本身設計就是一批批的以批處理間隔劃分RDD；而Structured Streaming中並沒有提出批的概念，Structured Streaming按照每個Trigger Interval接收資料到Input Table，將資料處理後再追加到無邊界的Result Table中，想要何種方式輸出結果取決於指定的模式。所以，雖說Structured Streaming也有類似於Spark Streaming的Interval，其本質概念是不一樣的。Structured Streaming更像流模式。

2. RDD vs. DataFrame、DataSet

Spark Streaming中的DStream程式設計介面是RDD，我們需要對RDD進行處理，處理起來較為費勁且不美觀。

stream.foreachRDD(rdd => {
    balabala(rdd)
})

Structured Streaming使用DataFrame、DataSet的程式設計介面，處理資料時可以使用Spark SQL中提供的方法，資料的轉換和輸出會變得更加簡單。

spark
    .readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "hadoop01:9092")
    .option("subscribe", "order_data")
    .load()
    .select($"value".cast("string"))
    .as[String]
    .writeStream
    .outputMode("complete")
    .format("console")

3. Process Time vs. Event Time

Process Time：流處理引擎接收到資料的時間

Event Time：時間真正發生的時間

Spark Streaming中由於其微批的概念，會將一段時間內接收的資料放入一個批內，進而對資料進行處理。劃分批的時間是Process Time，而不是Event Time，Spark Streaming沒有提供對Event Time的支援。

Structured Streaming提供了基於事件時間處理資料的功能，如果資料包含事件的時間戳，就可以基於事件時間進行處理。

這裡以視窗計數為例說明一下區別：

我們這裡以10分鐘為視窗間隔，5分鐘為滑動間隔，每隔5分鐘統計過去10分鐘網站的pv

假設有一些遲到的點選資料，其本身事件時間是12:01，被spark接收到的時間是12:11；在spark streaming的統計中，會毫不猶豫的將它算作是12:05-12:15這個範圍內的pv，這顯然是不恰當的；在structured streaming中，可以使用事件時間將它劃分到12:00-12:10的範圍內，這才是我們想要的效果。

4. 可靠性保障

兩者在可靠性保證方面都是使用了checkpoint機制。

checkpoint通過設定檢查點，將資料儲存到檔案系統，在出現出故障的時候進行資料恢復。

在spark streaming中，如果我們需要修改流程式的程式碼，在修改程式碼重新提交任務時，是不能從checkpoint中恢復資料的（程式就跑不起來），是因為spark不認識修改後的程式了。

在structured streaming中，對於指定的程式碼修改操作，是不影響修改後從checkpoint中恢復資料的。具體可參見文件。

5. sink

二者的輸出資料（寫入下游）的方式有很大的不同。

spark streaming中提供了foreachRDD()方法，通過自己程式設計實現將每個批的資料寫出。

stream.foreachRDD(rdd => {
    save(rdd)
})

structured streaming自身提供了一些sink(Console Sink、File Sink、Kafka Sink等)，只要通過option配置就可以使用；對於需要自定義的Sink，提供了ForeachWriter的程式設計介面，實現相關方法就可以完成。

// console sink
val query = res
    .writeStream
    .outputMode("append")
    .format("console")
    .start()

最後

總體來說，structured streaming有更簡潔的API、更完善的流功能、更適用於流處理。而spark streaming，更適用於與偏批處理的場景。

在流處理引擎方面，flink最近也很火，值得我們去學習一番。

reference

https://blog.knoldus.com/spark-streaming-vs-structured-streaming/

https://dzone.com/articles/spark-streaming-vs-structured-streaming

https://spark.apache.org/docs/2.0.2/streaming-programming-guide.html

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html

以上為個人理解，如有不對的地方，歡迎交流指正。

個人公眾號：碼農峰，推送最新行業資訊，每週釋出原創技術文章，歡迎大家關注

Spark Streaming vs. Structured Streaming

簡介 Spark Streaming Spark Streaming是spark最初的流處理框架，使用了微批的形式來進行流處理。提供了基於RDDs的Dstream API，每個時間間隔內的資料為一個RDD，源源不斷對RDD進行處理來實現流計算 Structured Streaming Spark 2.X出來

谷歌Dataflow程式設計模型和spark 2.0 structured streaming

作者：劉旭暉 Raymond 轉載請註明出處主要介紹一下Dataflow程式設計模型的基本思想，最後面再簡單比較一下spark 2.0 structured streaming的程式設計模型== 是什麼 ==谷歌Dataflow首先是一個服務https://cloud.google.com/dataflow，

Spark Structured Streaming框架(5)之進程管理

ntp 框架 manager lis ive term red ogr pan 　　Structured Streaming提供一些API來管理Streaming對象。用戶可以通過這些API來手動管理已經啟動的Streaming，保證在系統中的Streaming有序執行。

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

ack loss set div top 過程 pan check use 事情經過：之前該topic(M_A)已經存在，而且正常消費了一段時間，後來刪除了topic(M_A)，重新創建了topic（M-B），程序使用新創建的topic（M-B）進行實時統計操作，執行過程中

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

eas array 記錄 splay span ack timestamp b- each 需求：目前kafka的topic上有一批數據，這些數據被分配到9個不同的partition中（就是發布時key:{m1,m2,m3,m4...m9},value:{records

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast總結

背景：需要在spark2.2.0更新broadcast中的內容，網上也搜尋了不少文章，都在講解spark streaming中如何更新，但沒有spark structured streaming更新broadcast的用法，於是就這幾天進行了反覆測試。經過了一下兩個測試：：Spark Streaming更

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows視窗是否可以實現最近一小時統計

WaterMark除了可以限定來遲資料範圍，是否可以實現最近一小時統計？ WaterMark目的用來限定引數計算資料的範圍：比如當前計算資料內max timestamp是12::00，waterMark限定資料分為是60 minutes，那麼如果此時輸入11:00之前的資料就會被捨棄不參與統計，視為來遲範圍

Spark2.3（三十五）Spark Structured Streaming原始碼剖析(從CSDN中看到別人分析的原始碼的文章值得收藏)

從CSDN中讀取到關於spark structured streaming原始碼分析不錯的幾篇文章 spark原始碼分析--事件匯流排LiveListenerBus spark事件匯流排的核心是LiveListenerBus，其內部維護了多個AsyncEventQueue佇列用於儲存和分發

Spark Structured Streaming + Kafka使用筆記

這篇部落格將會記錄Structured Streaming + Kafka的一些基本使用(Java 版) spark 2.3.0 1. 概述 Structured Streaming （結構化流）是一種基於 Spark SQL 引擎構建的可擴充套件且容錯的 st

Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗記憶體比較多的問題（Memory issue with spark structured streaming）調研

在spark中《Memory usage of state in Spark Structured Streaming》講解Spark記憶體分配情況，以及提到了HDFSBackedStateStoreProvider儲存多個版本的影響；從stackoverflow上也可以看到別人遇到了structured s

Spark Streaming vs. Structured Streaming

簡介

Spark Streaming

Structured Streaming

區別

1. 流模型

Spark Streaming

Structured Streaming

2. RDD vs. DataFrame、DataSet

3. Process Time vs. Event Time

4. 可靠性保障

5. sink

最後

reference

Spark Streaming vs. Structured Streaming

谷歌Dataflow程式設計模型和spark 2.0 structured streaming

Spark Structured Streaming框架(5)之進程管理

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast總結

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows視窗是否可以實現最近一小時統計

Spark2.3（三十五）Spark Structured Streaming原始碼剖析(從CSDN中看到別人分析的原始碼的文章值得收藏)

Spark Structured Streaming + Kafka使用筆記

Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗記憶體比較多的問題（Memory issue with spark structured streaming）調研

Learn How to Code and Deploy Machine Learning Models on Spark Structured Streaming

Watermarking in Spark Structured Streaming

Structured Streaming VS Flink

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

Spark Structured Streaming入門程式設計指南

Structured-Streaming之窗口操作

Spark 學習筆記之 Streaming Window

Structured Streaming + Kafka Integration Guide 結構化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)

Structured Streaming教程(1) —— 基本概念與使用

Spark Streaming vs. Structured Streaming

簡介

Spark Streaming

Structured Streaming

區別

1. 流模型

Spark Streaming

Structured Streaming

2. RDD vs. DataFrame、DataSet

3. Process Time vs. Event Time

4. 可靠性保障

5. sink

最後

reference

相關推薦