1. 程式人生 > >【SPARK】Spark Streaming簡介

【SPARK】Spark Streaming簡介

Spark Streaming可以整合多種輸入資料來源,如Kafka、Flume、HDFS甚至是普通的TCP套接字。經處理後的資料可儲存至檔案系統、資料庫、或顯示在儀表盤。

Spark Streaming執行流程

Spark Streaming的基本原理是將實時輸入資料流以時間片(秒級)為單位進行拆分,然後經Spark引擎以類擬批處理的方式處理每個時間片資料

DStream操作示意圖

Spark Streaming最主要的抽象是DStream(Discretized Stream,離散化資料流),表示連續不斷的資料流。在內部實現上,Spark Streaming的輸入資料按照時間片(如1秒)

Spark輸入源