Spark從入門到精通(一)
阿新 • • 發佈:2018-11-30
什麼是Spark
- 大資料計算框架
- 離線批處理
- 大資料體系架構圖(Spark)
- Spark包含了大資料領域常見的各種計算框架:比如Spark Core用於離線計算,Spark SQL用於互動式查詢,Spark Streaming用於實時流式計算,Spark MLib用於機器學習,Spark GraphX用於圖計算
- Spark主要用於大資料的計算,而Hadoop以後主要用於大資料的儲存(比如HDFS、Hive、HBase)等,,以及資源排程(Yarn)
- Spark+hadoop的組合是大資料領域最熱門的組合,也是最有前景的組合
Spark與MapReduce計算過程,Spark基於記憶體進行計算
Spark整體架構圖
Spark的特點
- 速度快:基於記憶體進行計算(當然也有部分計算基於磁碟,比如shuffle)
- 容易上手開發:Spark的基於RDD的計算模型,比Hadoop的基於Map-Reduce的計算模型要更加易於理解,更加易於上手開發,實現各種複雜功能,比如二次排序,topn等複雜操作時,更加便捷
- 超強的通用性:Spark提供了多種計算元件
- 整合Hadoop:Spark與Hadoop進行了高度的繼承,完成double win
- 極高的活躍度
待續...