1. 程式人生 > >Spark從入門到精通(一)

Spark從入門到精通(一)

什麼是Spark

  1. 大資料計算框架
  2. 離線批處理
  3. 大資料體系架構圖(Spark)
  4. Spark包含了大資料領域常見的各種計算框架:比如Spark Core用於離線計算,Spark SQL用於互動式查詢,Spark Streaming用於實時流式計算,Spark MLib用於機器學習,Spark GraphX用於圖計算
  5. Spark主要用於大資料的計算,而Hadoop以後主要用於大資料的儲存(比如HDFS、Hive、HBase)等,,以及資源排程(Yarn)
  6. Spark+hadoop的組合是大資料領域最熱門的組合,也是最有前景的組合
  7. Spark與MapReduce計算過程,Spark基於記憶體進行計算

    ,所以速度更快

  8. Spark整體架構圖

Spark的特點

  1. 速度快:基於記憶體進行計算(當然也有部分計算基於磁碟,比如shuffle)
  2. 容易上手開發:Spark的基於RDD的計算模型,比Hadoop的基於Map-Reduce的計算模型要更加易於理解,更加易於上手開發,實現各種複雜功能,比如二次排序,topn等複雜操作時,更加便捷
  3. 超強的通用性:Spark提供了多種計算元件
  4. 整合Hadoop:Spark與Hadoop進行了高度的繼承,完成double win
  5. 極高的活躍度

待續...