1. 程式人生 > >一 Spark與kafka基本特點

一 Spark與kafka基本特點

spark與kafka的介紹
一 spark是什麼
hadoop MapReduce:從叢集中讀取資料,分片讀取 進行一次處理,將結果寫到叢集,從叢集中讀取更新後的資料,進行下一次的處理,將結果寫到叢集
Spark :從叢集中讀取資料,把資料放入到記憶體種,完成所有必須的分析處理,將結果寫回叢集。資料探勘要比hadoop快100倍
Spark的資料物件儲存在分佈於資料叢集中的叫做彈性分散式資料集,
RDD(Resilient Distributed Dataset)這些資料物件既可以放在記憶體,也可以放在磁碟,所以RDD同樣也可以提供完成的災難恢復功能

二 spark能做什麼
實時流計算,與Storm很相似
RDD ResultSet:一開始沒有資料集,讀取資料進行處理,把結果再寫入mysql和叢集中

三 kafka是什麼
kafka是一中非同步通訊框架,底層採用Scala語言,通訊框架採用AKK框架
SPark 與 kafka都是採用Scala語言寫的。
kafka吞吐量非常高

Kafka可以訊息回放:從新播放,可以訊息持久化,但是RabbitMQ不能從新恢復訊息,
 訊息持久化
 非常簡單方便的分散式
 分組讀取訊息(容災,負載均衡讀取資料)容災,一個掛了,其它的來頂替它。
 每一組消費者只能有一個消費這些資料,各種之間又只有一組

kafka相對於其他的MQ有什麼優點


spark與Kafka如何進行流計算
kafka實時接收資料,採用Spark平行計算能力,來做使用者的行為分析。

Spark最好安裝在hadoop當中