1. 程式人生 > >Spark 原理與實踐

Spark 原理與實踐

Spark 系統是分散式批處理系統和分析挖掘引擎 ; AMP LAB 貢獻到 Apache 社群的開源專案,是 AMP 大資料棧的基礎元件;做什麼 資料處理( Data Processing ):可以用來快速處理資料,兼具容錯性和可擴充套件性。迭代計算( Iterative Computation ):支援迭代計算,有效應對多步的資料處理邏輯。 資料探勘 ( Data Mining ):在海量資料基礎上進行復雜的挖掘分析,可支援各種資料探勘和 機器學習 演算法。作者詳細介紹了Spark的特點、資料共享機制、彈性分散式資料集、容錯機制、Lineage。並分享了幾個案例,在具體操作中程式碼的結構。














原文https://www.slidestalk.com/s/Spark_Principle_and_Practice
在這裡插入圖片描述