一 Spark與kafka基本特點
阿新 • • 發佈:2018-12-28
spark與kafka的介紹 一 spark是什麼 hadoop MapReduce:從叢集中讀取資料,分片讀取 進行一次處理,將結果寫到叢集,從叢集中讀取更新後的資料,進行下一次的處理,將結果寫到叢集 Spark :從叢集中讀取資料,把資料放入到記憶體種,完成所有必須的分析處理,將結果寫回叢集。資料探勘要比hadoop快100倍 Spark的資料物件儲存在分佈於資料叢集中的叫做彈性分散式資料集, RDD(Resilient Distributed Dataset)這些資料物件既可以放在記憶體,也可以放在磁碟,所以RDD同樣也可以提供完成的災難恢復功能 二 spark能做什麼 實時流計算,與Storm很相似 RDD ResultSet:一開始沒有資料集,讀取資料進行處理,把結果再寫入mysql和叢集中 三 kafka是什麼 kafka是一中非同步通訊框架,底層採用Scala語言,通訊框架採用AKK框架 SPark 與 kafka都是採用Scala語言寫的。 kafka吞吐量非常高 Kafka可以訊息回放:從新播放,可以訊息持久化,但是RabbitMQ不能從新恢復訊息, 訊息持久化 非常簡單方便的分散式 分組讀取訊息(容災,負載均衡讀取資料)容災,一個掛了,其它的來頂替它。 每一組消費者只能有一個消費這些資料,各種之間又只有一組 kafka相對於其他的MQ有什麼優點 spark與Kafka如何進行流計算 kafka實時接收資料,採用Spark平行計算能力,來做使用者的行為分析。 Spark最好安裝在hadoop當中