科普Spark，Spark是什麽，如何使用Spark

阿新 • • 發佈：2017-09-01

部分但是本地模式數據挖掘 add sof action 函數實現 src

1.Spark基於什麽算法的分布式計算（很簡單）

2.Spark與MapReduce不同在什麽地方

3.Spark為什麽比Hadoop靈活

4.Spark局限是什麽

5.什麽情況下適合使用Spark

技術分享

什麽是Spark

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的並行計算框架，Spark基於map reduce算法實現的分布式計算，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要叠代的map reduce的算法。其架構如下圖所示：

技術分享

Spark與Hadoop的對比

Spark的中間數據放到內存中，對於叠代運算效率更高。

Spark更適合於叠代運算比較多的ML和DM運算。因為在Spark裏面，有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。

這些多種多樣的數據集操作類型，給給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。

不過由於RDD的特性，Spark不適用那種異步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。

容錯性

在分布式數據集計算時通過checkpoint來實現容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制采用哪種方式來實現容錯。

可用性

Spark通過提供豐富的Scala, Java，Python API及交互式Shell來提高可用性。

Spark與Hadoop的結合

Spark可以直接對HDFS進行數據的讀寫，同樣支持Spark on YARN。Spark可以與MapReduce運行於同集群中，共享存儲資源與計算，數據倉庫Shark實現上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基於內存的叠代計算框架，適用於需要多次操作特定數據集的應用場合。需要反復操作的次數越多，所需讀取的數據量越大，受益越大，數據量小但是計算密集度較大的場合，受益就相對較小（大數據庫架構中這是是否考慮使用Spark的重要因素）

由於RDD的特性，Spark不適用那種異步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。總的來說Spark的適用面比較廣泛且比較通用。

運行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生態系統

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎上提供和Hive一樣的H iveQL命令接口，為了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query Parsing和 Logic Plan generation，最後的PhysicalPlan execution階段用Spark代替Hadoop MapReduce。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習算法，使得SQL數據查詢和運算分析能結合在一起，最大化RDD的重復使用。

Spark streaming: 構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分成小的時間片斷（幾秒），以類似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因為Spark的低延遲執行引擎（100ms+）可以用於實時計算，另一方面相比基於Record的其它處理框架（如Storm），RDD數據集更容易做高效的容錯處理。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和算法。方便了一些需要歷史數據和實時數據聯合分析的特定應用場合。

Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現了Google的PageRank算法。

科普Spark，Spark是什麽，如何使用Spark

科普Spark，Spark是什麽，如何使用Spark

Spark入門——什麽是Hadoop，為什麽是Spark?

科普Spark，Spark是什麽，如何使用Spark

大數據學習：Spark是什麽，如何用Spark進行數據分析

spark成長之路（1）spark究竟是什麽？

異常的數字拋出，為什麽會出現錯誤？（未解決）

mysql互為主從的環境，更新一條語句同時提交，為什麽會出現數據不一致？

手機APP制作先選Android還是iOS，為什麽？

有了套路，為什麽還是解決不了問題

19年的桌面KDE的風雨和陪伴，沒有什麽能夠割舍

JNDI是什麽，怎麽理解

SpringBoot學習遇到的問題(1) - 配置文件有日誌的debug模式等配置項，為什麽不起作用

免費雲盤，為什麽不用？

磁盤I/O高居不下，通過什麽來查看占用I/O的進程？

25歲做什麽，可以讓你在5年後受益匪淺？

輕量級線程和重量級線程的定義是什麽，他們的區別是什麽？如何區分？

如何選擇JAVA培訓機構，兼議什麽樣的人適合培訓機構

一位月入30W的微商大卡，講“什麽是商業模式以及如何創業”！

酷雷曼360全景有哪些拍攝技巧，為什麽酒店都在用它?

老男孩教育每日一題-第82天-發現文件系統只讀了，是什麽原因？如何解決？

什麽是死鏈接，為什麽要檢查死鏈？

科普Spark，Spark是什麽，如何使用Spark

相關推薦