spark為什麼比hadoop的mr要快？

阿新 • • 發佈：2019-01-04

1.前言

Spark是基於記憶體的計算，而Hadoop是基於磁碟的計算；Spark是一種記憶體計算技術。

但是事實上，不光Spark是記憶體計算，Hadoop其實也是記憶體計算。

Spark和Hadoop的根本差異是多個任務之間的資料通訊問題：Spark多個任務之間資料通訊是基於記憶體，而Hadoop是基於磁碟。

Spark SQL比Hadoop Hive快，是有一定條件的，而且不是Spark SQL的引擎一定比Hive的引擎快，相反，Hive的HQL引擎還比Spark SQL的引擎更快。

2.記憶體計算技術

記憶體計算技術是指將資料持久化至記憶體RAM中進行加工處理的技術。Spark並不支援將資料持久化至記憶體中，我們通常所說的是spark的資料快取技術，如將RDD資料快取至記憶體，但並沒有實現持久化。快取資料是可以擦除的，擦除後同樣是需要我們重新計算的。Spark的資料處理是在記憶體中進行的，這話並沒有錯，其實當前的所有作業系統的資料處理都是在記憶體中進行的。所以，這記憶體計算並不是Spark的特性。

Spark是允許我們利用快取技術和LRU演算法快取資料的。Spark的所有運算並不是全部都在記憶體中，當shuffle發生的時候，資料同樣是需要寫入磁碟的。所以，Spark並不是基於記憶體的技術，而是使用了快取機制的技術。

3. 那Spark主要快在哪裡呢？

Spark最引以為豪的就是官網介紹的經典案例。這個案例是邏輯迴歸機器學習演算法，該演算法主要特徵是對同一份資料的反覆迭代運算。Spark是記憶體快取，所以資料只加載一次，Hadoop則需要反覆載入。實際情況下，Spark通常比Hadoop快十倍以內是合理的。主要快在哪裡呢？

其實，關鍵還是在於Spark 本身快。

Spark比Hadoop快的主要原因有：

1.消除了冗餘的HDFS讀寫
Hadoop每次shuffle操作後，必須寫到磁碟，而Spark在shuffle後不一定落盤，可以cache到記憶體中，以便迭代時使用。如果操作複雜，很多的shufle操作，那麼Hadoop的讀寫IO時間會大大增加。

2.消除了冗餘的MapReduce階段
Hadoop的shuffle操作一定連著完整的MapReduce操作，冗餘繁瑣。而Spark基於RDD提供了豐富的運算元操作，且reduce操作產生shuffle資料，可以快取在記憶體中。

3.JVM的優化
Spark Task的啟動時間快。Spark採用fork執行緒的方式，Spark每次MapReduce操作是基於執行緒的，只在啟動。而Hadoop採用建立新的程序的方式，啟動一個Task便會啟動一次JVM。

Spark的Executor是啟動一次JVM，記憶體的Task操作是線上程池內執行緒複用的。

每次啟動JVM的時間可能就需要幾秒甚至十幾秒，那麼當Task多了，這個時間Hadoop不知道比Spark慢了多少。

spark為什麼比hadoop的mr要快？

spark為什麼比hadoop的mr要快？

為什麼使用二分查詢的速率要比按其他比例分割的查詢速率要快???

百度面試總結：spark比MapReduce快的原因是什麼？（比較完整）

spark比MapReduce快的原因是什麼？（比較完整）

spark是什麼？spark和MapReduce的區別？spark為什麼比hive速度快？

總結Spark比Hadoop快的原因

為什麼快速排序比堆排序要快？

spark比mapreduce快的一個原因

為什麼使用迭代器iterator遍歷Linkedlist要比普通for快

spark比hadoop快的原因

spark部分：spark的四種執行模式，Spark 比 MapReduce 快的原因，spark執行程式流程，spark運算元種類，spark持久化運算元，cache 和 persist，調節引數的方式

sql解惑2(謎題45)join比case when要快？

Spark比MR快是因為在記憶體中計算？錯！

Redis 的多執行緒版本比 Redis 本身要快 5 倍

QList介紹（QList比QVector更快，這是由它們在內存中的存儲方式決定的。QStringList是在QList的基礎上針對字符串提供額外的函數。at()操作比操作符[]更快，因為它不需要深度復制）非常實用

為什麽python的多線程不能利用多核CPU，但是咱們在寫代碼的時候，多線程的確是在並發，而且還比單線程快。

比傳統事務快10倍？一張圖讀懂阿裏雲全局事務服務GTS

為什麽寄存器比內存快？

2018年新手實惠/高性價比/穩定/速度快VPS選購指南

BugKu 速度要快

spark為什麼比hadoop的mr要快？

相關推薦