1. 程式人生 > >Hadoop和Spark區別

Hadoop和Spark區別

1、Hadoop對資料進行儲存分析,spark基於記憶體,只進行分析:spark可以使用Hadoop的HDFS或者其它基於雲的資料平臺,一般使用HDFS,畢竟兩者的結合最好,Hadoop可以使用基於HDFS的hbase,能對資料進行修改刪除,HDFS只能追加和全表刪除

2、spark資料處理快於Hadoop:Hadoop從叢集讀取資料後,通過MapReduce將中間處理結果寫入叢集,然後重新讀取新資料再處理,迴圈往復直到處理完畢,spark讀取叢集資料後,全部處理完畢才存入叢集

3、Hadoop是一個大模組,spark可融入Hadoop生態,是對Hadoop的補充

4、災難恢復方面,Hadoop磁碟讀寫,天生具有彈性恢復,spark基於RDD,放在記憶體或者磁碟中,也能進行災難恢復