1. 程式人生 > >實時計算Spark Streaming初識

實時計算Spark Streaming初識

Spark Streaming是核心Spark API的擴充套件,可實現實時資料流的可擴充套件,高吞吐量,容錯流處理。資料可以從許多來源(如Kafka,Flume,Kinesis或TCP套接字)中獲取,並且可以使用以高階函式表示的複雜演算法進行處理map,例如reduce,join和window。最後,處理後的資料可以推送到檔案系統,資料庫和實時儀表板。實際上,也可以在資料流上應用Spark的機器學習和圖形處理演算法

 

Spark Streaming接收實時輸入資料流並將資料分成批處理,然後由Spark引擎處理,以批量生成最終結果流

 可以看出,Spark Streaming是微批次處理架構,跟Storm的完全流式處理是不同的,Storm是完全流式處理,延遲低,對於實時性要求特別高的場景有適合,而Spark的優勢是吞吐量大,並且有一個完整的生態,響應時間也可以接受,並且在程式設計以及後續維護上要比Storm容易得多,只能說各有各的優勢吧