1. 程式人生 > >Kafka與Spark的集成

Kafka與Spark的集成

apach 活動 實時數據 吞吐量 中心 分享 處理 我們 inf

在本章中,我們將討論如何將Apache Kafka與Spark Streaming API集成.

關於 Spark

Spark Streaming API支持實時數據流的可擴展,高吞吐量,容錯流處理.數據可以從註入Kafka,Flume,Twitter等許多源中提取,並且可以使用復雜的算法來處理.例如地圖,縮小,連接和窗口等高級功能.最後,處理的數據可以推送到文件系統,數據庫和活動儀表板.彈性分布式數據及(RDD)是Spark的基本數據結構.它是一個不可變的分布式對象集合.RDD中的每個數據集劃分為邏輯分區,可以在集群的不同節點上計算.

與Spark集成

Kafka是Spark流式傳輸的潛在消息傳遞和集成平臺.Kafka充當實時數據流的中心樞紐.並使用Spark Streaming中的復雜算法進行處理.一旦數據被處理,Spark Streaming可以將結果發布到另一個Kafka主題或存儲在HDFS,數據庫或儀表板中,下圖描述概念流程.

技術分享圖片

Kafka與Spark的集成