大數據處理為何選擇Spark，而不是Hadoop

阿新 • • 發佈：2018-11-25

pre 相互 map -o 分布式系 tac 底層技術分享分享圖片

一.基礎知識
1.Spark
Spark是一個用來實現快速而通用的集群計算的平臺。
在速度方面，Spark擴展了廣泛使用的MapReduce計算模型，而且高效地支持更多計算模式，包括交互式查詢和流處理。
Spark項目包含多個緊密集成的組件。Spark的核心是一個對由很多計算任務組成的、運行在多個工作機器或者是一個計算集群上的應用進行調度、分發以及監控的計算引擎。

技術分享圖片

Spark的各個組件
2.Hadoop
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

二.大數據處理選擇
根據Spark和Hadoop的基礎知識，我們了解Spark和Hadoop都可以進行大數據處理，那我們如何選擇處理平臺呢？
1.處理速度和性能
Spark擴展了廣泛使用的MapReduce計算模型，其中Spark有個Directed Acyclic Graph（DAG有向無環圖）執行引擎，支持循環數據流和內存計算。
Hadoop是磁盤級計算，進行計算時，都需要從磁盤讀或者寫數據，同時整個計算模型需要網絡傳輸，導致MapReduce具有高延遲的致命弱點。
據統計，基於Spark內存的計算速度比Hadoop MapReduce快100倍以上，基於磁盤的計算速度也要快10倍以上。
2.開發難易度
Spark提供多語言(包括Scala、Java、Python)API，能夠快速實現應用，相比MapReduce更簡潔的代碼，安裝部署也無需復雜配置。使用API可以輕松地構建分布式應用，同時也可以使用Scala和Python腳本進行交互式編程。

3.兼容性
Spark提供了一個強大的技術棧，基於”One Stack to rule them all”的理念實現一體化、多元化的大數據處理平臺，輕松應對大數據處理的查詢語言Spark SQL、機器學習工具MLlib、圖計算工具GraphX、實時流處理工具Spark Streaming無縫連接。
Hadoop的技術棧則相對獨立復雜，各個框架都是獨立的系統，給集成帶來了很大的復雜和不確定性。
4.相互集成性
Spark可以運行在Hadoop集群管理Yarn上，這使得Spark可以讀取Hadoop的任何數據。同時它也能讀取HDFS、HBase、Hive、Cassandra以及任何Hadoop數據源。

大數據處理為何選擇Spark，而不是Hadoop

pre 相互 map -o 分布式系 tac 底層技術分享分享圖片一.基礎知識1.SparkSpark是一個用來實現快速而通用的集群計算的平臺。在速度方面，Spark擴展了廣泛使用的MapReduce計算模型，而且高效地支持更多計算模式，包括交互式查詢和流處理。Spa

大數據處理為何選擇Spark，而不是Hadoop

大數據處理為何選擇Spark，而不是Hadoop

大資料處理為何選擇Spark，而不是Hadoop

win7和ubuntu雙系統，直接進入windows啟動項選擇選單，而不進入grub的解決方案。

【大數據處理】高效能，大數據量存儲方案SqlBulkCopy

java dbcp連接池，大數據處理循環多表操作插入事例

（如數據結構算法題）編程不是難在處理問題的思路，而在用代碼將思路描述出來。

Spark SQL大數據處理並寫入Elasticsearch

Spark與Flink大數據處理引擎對比分析！

上：Spark VS Flink – 下一代大數據計算引擎之爭，誰主沈浮？

帆軟發布大數據直連引擎FineDirect，對焦大數據BI

挨踢部落坐診第三期:Python在大數據處理上的優勢分析

tomcat優化---大數據量提交tomcat時，tomcat無法接收導致頁面無反應

Java大數據人才應用領域廣，就業薪酬高

翻譯-In-Stream Big Data Processing 流式大數據處理

新一代大數據處理引擎 Apache Flink

大數據處理框架

PHP大數據處理【轉】

大數據學習遇到的問題，大數據薪資多高崗位空缺大

Python大數據處理模塊Pandas

大數據引發混合雲井噴，了解四大場景與三大關鍵技術

大數據處理為何選擇Spark，而不是Hadoop

相關推薦