與 Hadoop 對比,如何看待 Spark 技術?
阿新 • • 發佈:2019-02-19
hadoop和Spark是兩種不同的大資料處理框架,他們的元件都非常多,往往也不容易學,我把他們兩者整理在一幅圖中,給大家一個全貌的感覺。
以上這些大資料元件是日常大資料工作中經常會碰到的,每個元件大概的功能,我已經在圖中做了標識。下面,針對這幅圖我給大家兩點重要提示:
a.藍色部分,是Hadoop生態系統元件,黃色部分是Spark生態元件,雖然他們是兩種不同的大資料處理框架,但它們不是互斥的,Spark與hadoop 中的MapReduce是一種相互共生的關係。Hadoop提供了Spark許多沒有的功能,比如分散式檔案系統,而Spark 提供了實時記憶體計算,速度非常快。有一點大家要注意,Spark並不是一定要依附於Hadoop才能生存,除了Hadoop的HDFS,還可以基於其他的雲平臺,當然啦,大家一致認為Spark與Hadoop配合默契最好罷了。
b.技術趨勢:Spark在崛起,hadoop和Storm中的一些元件在消退。大家在學習使用相關技術的時候,記得與時俱進掌握好新的趨勢、新的替代技術,以保持自己的職業競爭力。
HSQL未來可能會被Spark SQL替代,現在很多企業都是HIVE SQL和Spark SQL兩種工具共存,當Spark SQL逐步成熟的時候,就有可能替換HSQL;
MapReduce也有可能被Spark 替換,趨勢是這樣,但目前Spark還不夠成熟穩定,還有比較長的路要走;
Hadoop中的演算法庫Mahout正被Spark中的演算法庫MLib所替代,為了不落後,大家注意去學習Mlib演算法庫;
Storm會被Spark Streaming