Spark的歷史與發展（目錄）

阿新 • • 發佈：2019-01-18

對於一個具有相當技術門檻與複雜度的平臺，Spark從誕生到正式版本的成熟，經歷的時間如此之短，讓人感到驚詫。2009年，Spark誕生於伯克利大學AMPLab，最開初屬於伯克利大學的研究性專案。它於2010年正式開源，並於2013年成為了Aparch基金專案，並於2014年成為Aparch基金的頂級專案，整個過程不到五年時間。

下面點滴記錄 Spark 的版本發展過程。

now
2018-02-28，Spark 2.3.0釋出
- 這也是 2.x 系列中的第四個版本。此版本增加了對 Structured Streaming 中的 Continuous Processing 以及全新的 Kubernetes Scheduler 後端的支援。其他主要更新包括新的 DataSource 和 Structured Streaming v2 API，以及一些 PySpark 效能增強。此外，此版本繼續針對專案的可用性、穩定性進行改進，並持續潤色程式碼。
2017-12-01，Spark 2.2.1釋出
2017-10-09，Spark 2.1.2釋出
2017-07-11，Spark 2.2.0釋出
- 這也是 2.x 系列的第三個版本。此版本移除了 Structured Streaming 的實驗標記（experimental tag），意味著已可以放心在線上使用。
- 該版本的主要更新內容主要針對的是系統的可用性、穩定性以及程式碼潤色。包括：
  1. Core 和 Spark SQL 的 API 升級和效能、穩定性改進，比如支援從 Hive metastore 2.0/2.1 中讀取資料；支援解析多行的 JSON 或 CSV 檔案；移除對 Java 7 的支援；移除對 Hadoop 2.5 及更早版本的支援等
  2. SparkR 針對現有的 Spark SQL 功能添加了更廣泛的支援，比如 Structured Streaming 為 R 語言提供的 API ；R 語言支援完整的 Catalog API ；R 語言支援 DataFrame checkpointing 等
2017-05-02，Spark 2.1.1釋出
2016-12-28，Spark 2.1.0釋出
- 這是 2.x 版本線的第二個發行版。此發行版在為Structured Streaming進入生產環境做出了重大突破，Structured Streaming現在支援了event time watermarks了，並且支援Kafka 0.10。此外，此版本更側重於可用性，穩定性和優雅(polish)，並解決了1200多個tickets。
2016-11-24，Spark 2.0.2釋出
2016-11-07，Spark 1.6.3釋出
2016-10-03，Spark 2.0.1釋出
2016-07-26，Spark 2.0.0釋出
- 該版本主要更新APIs，支援SQL 2003，支援R UDF ，增強其效能。300個開發者貢獻了2500補丁程式。
2016-06-25，Spark 1.6.2釋出
2016-03-09，Spark 1.6.1釋出
2016-01-04，Spark 1.6.0釋出
- 該版本含了超過1000個patches，在這裡主要展示三個方面的主題：新的Dataset API，效能提升(讀取Parquet 50%的效能提升，自動記憶體管理，streaming state management十倍的效能提升），以及大量新的機器學習和統計分析演算法。
- 在Spark1.3.0引入DataFrame，它可以提供high-level functions讓Spark更好的處理資料結構和計算。這讓Catalyst optimizer 和Tungsten execution engine自動加速大資料分析。釋出DataFrame之後開發者收到了很多反饋，其中一個主要的是大家反映缺乏編譯時型別安全。為了解決這個問題，Spark採用新的Dataset API (DataFrame API的型別擴充套件)。Dataset API擴充套件DataFrame API支援靜態型別和執行已經存在的Scala或Java語言的使用者自定義函式。對比傳統的RDD API，Dataset API提供更好的記憶體管理，特別是在長任務中有更好的效能提升。
2015-11-02，Spark 1.5.2釋出
2015-10-06，Spark 1.5.1釋出
2015-09-09，Spark 1.5.0釋出
- Spark 1.5.0是1.x線上的第6個發行版。這個版本共處理了來自230+contributors和80+機構的1400+個patches。
- Spark 1.5的許多改變都是圍繞在提升Spark的效能、可用性以及操作穩定性。
- Spark 1.5.0焦點在Tungsten專案，它主要是通過對低層次的組建進行優化從而提升Spark的效能。
- Spark 1.5版本為Streaming增加了operational特性，比如支援backpressure。另外比較重要的更新就是新增加了一些機器學習演算法和工具，並擴充套件了Spark R的相關API。
2015-07-15，Spark 1.4.1釋出
- DataFrame API及Streaming，Python，SQL和MLlib的bug修復
2015-06-11，Spark 1.4.0釋出
- 該版本將 R API 引入 Spark，同時提升了 Spark 的核心引擎和 MLlib ，以及 Spark Streaming 的可用性。
2015-03-13，Spark 1.3.0釋出
- 該版本釋出的最大亮點是新引入的DataFrame API，對於結構型的DataSet，它提供了更方便更強大的操作運算。。除了DataFrame之外，還值得關注的一點是Spark SQL成為了正式版本，這意味著它將更加的穩定，更加的全面。
2015-02-09，Spark 1.2.1釋出
- Spark核心API及Streaming，Python，SQL，GraphX和MLlib的bug修復
2014-12-18，Spark 1.2.0釋出
2014-11-26，Spark 1.1.1釋出
- Spark核心API及Streaming，Python，SQL，GraphX和MLlib的bug修復
2014-09-11，Spark 1.1.0釋出
2014-08-05，Spark 1.0.2釋出
- Spark核心API及Streaming，Python，MLlib的bug修復
2014-07-11，Spark 1.0.1釋出
- 增加了Spark SQL的新特性和堆JSON資料的支援等
2014-05-30，Spark 1.0.0釋出
- 增加了Spark SQL、MLlib、GraphX和Spark Streaming都增加了新特性並進行了優化。Spark核心引擎還增加了對安全YARN叢集的支援
2014-04-09，Spark 0.9.1釋出
- 增加使用YARN的穩定性，改進Scala和Python API的奇偶性
2014-02-02，Spark 0.9.0釋出
- 增加了GraphX，機器學習新特性，流式計算新特性，核心引擎優化（外部聚合、加強對YARN的支援）等
2013-12-19，Spark 0.8.1釋出
- 支援Scala 2.9，YARN 2.2，Standalone部署模式下排程的高可用性，shuffle的優化等
2013-09-25，Spark 0.8.0釋出
- 一些新功能及可用性改進
2013-07-16，Spark 0.7.3釋出
- 一些bug的解決，更新Spark Streaming API等
2013-06-21，Spark接受進入Apache孵化器
2013-06-02，Spark 0.7.2釋出
2013-02-27，Spark 0.7.0釋出
- 增加了更多關鍵特性，例如：Python API、Spark Streaming的alpha版本等
2013-02-07，Spark 0.6.2釋出
- 解決了一些bug，並增強了系統的可用性
2012-10-15，Spark 0.6.0釋出
- 大範圍的效能改進，增加了一些新特性，並對Standalone部署模式進行了簡化
2010 ，Spark正式對外開源
2009 ，Spark誕生於UCBerkeley的AMP實驗室

Spark的歷史與發展（目錄）

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

二進制包 1.10 不能 mapr 修復 att 機器 mave end 【註】該系列文章以及使用到安裝包/測試數據能夠在《[傾情大奉送–Spark入門實戰系列] (http://blog.csdn.net/yirenboy/article/deta

Spark 精品文章轉載（目錄）

學習 Spark 中，別人整理不錯的文章，轉載至本部落格，方便自己學習，並按照不同的模組歸檔整理。每個文章作者能力不同，寫文章所處的時間點不同，可能會略有差異，在閱讀的同時，注意當時的文章的內容是否已經過時。文章分類 Spark Core Spark SQL Spark Streamin

Spark原始碼分析系列（目錄）

記錄自己學習研究 Spark 的探索過程，為後續總結奠定基礎。本文程式碼研究以 Spark 2.3.0 原始碼為基準，如果看本文，請閱讀時，下載對應的 Spark 版本。圖1 伯克利的資料分析軟體棧BDAS（Berkeley Data Analytics Stack）這裡要先說BDAS（伯克利

呼叫中心的起源與發展（下篇）

呼叫中心的發展經歷了以下幾個階段：第一代呼叫中心：簡單的人工熱線電話；第二代呼叫中心：互動式自動語音應答系

Spark Streaming筆記整理（三）：DS的transformation與output操作

job watermark number 這樣的格式 current fix work eat DStream的各種transformation Transformation Meaning map(func) 對DStream中的各個元素進行func函數操作，然後

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Git的學習與使用（八）——Git 檢視提交歷史

Git 檢視提交歷史在使用 Git 提交了若干更新之後，又或者克隆了某個專案，想回顧下提交歷史，我們可以使用 git log 命令檢視。針對我們前一章節的操作，使用 git log 命令列出歷史提交記錄如下： $ git log commit 88afe0e02ad

Spark入門到精通（入門）——第二節 Spark 2.0.0 檢視job 歷史日誌

本文十分的重要，希望對大家的spark學習有一些幫助： 1 引言：在使用Spark的時候，有時候我們會關注job的歷史日誌，但是在Spark中預設情況下，歷史日誌是關閉的，在本篇部落格中主要介紹一下如何啟動spark的歷史日誌。 2 開啟歷史日誌伺服器 2.

影象處理與計算機視覺：基礎，經典以及最近發展（4）影象處理與分析

Last update: 2012-6-3 本章主要討論影象處理與分析。雖然後面計算機視覺部分的有些內容比如特徵提取等也可以歸結到影象分析中來，但鑑於它們與計算機視覺的緊密聯絡，以及它們的出處，沒有把它們納入到影象處理與分析中來。同樣，這裡面也有一些也可以劃歸到計算機視覺中

影象處理與計算機視覺：基礎，經典以及最近發展（5）計算機視覺

Last update: 2012-6-7 這一章是計算機視覺部分，主要側重在底層特徵提取，視訊分析，跟蹤，目標檢測和識別方面等方面。對於自己不太熟悉的領域比如攝像機標定和立體視覺，僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章，個人非常喜歡，也列出來

影象處理與計算機視覺：基礎，經典以及最近發展（1）序

1. 為什麼要寫這篇文章從2002年到現在，接觸影象快十年了。雖然沒有做出什麼很出色的工作，不過在這個領域摸爬滾打了十年之後，發現自己對影象處理和計算機視覺的感情越來越深厚。下班之後看看相關的書籍和文獻是一件很愜意的事情。平常的一大業餘愛好就是收集一些相關的文章，尤其

Spark 官方博文專區（目錄）

關於轉載一些 Spark 官方的文件以及 DataBricks 公司博文，本系列基本是中英雙語，主要是為了提高自己的英語水平。文章分類 spark databricks 文章來源 http://spark.apache.org/docs https://databricks.

深入理解Spark 2.1 Core （一）：RDD的原理與原始碼分析

本文連結：http://blog.csdn.net/u011239443/article/details/53894611 該論文來自Berkeley實驗室，英文標題為：Resilient Distributed Datasets: A Fault-Toler

php學習之目錄與檔案（2）

demo1 //開啟一個檔案 //第一個為檔名第二表明模式 //如果 file.txt已經有資料了那麼刪除這個檔案重新建立 //如果沒有這個檔案則自行建立 fopen返回的是資源型別resource $fp=fopen('file.txt','w');

Java基礎——建立資料夾（目錄）與空檔案

建立目錄： String path = request.getSession().getServletContext().getRealPath("upload/temp/20180716"); File filePath = new File(path); //判斷該

深入理解Spark 2.1 Core （六）：Standalone模式執行的原理與原始碼分析

我們講到了如何啟動Master和Worker，還講到了如何回收資源。但是，我們沒有將AppClient是如何啟動的，其實它們的啟動也涉及到了資源是如何排程的。這篇博文，我們就來講一下AppClient的啟動和邏輯與物理上的資源排程。啟動AppClient 呼叫棧如下： S

linux應用之vim的安裝與配置（centos）

utf8 power scroll pbo gb2312 nco pla red vma 1.vim的安裝 #yum search vim //查看vim相關軟件信息 #yum install -y vim* //在線安裝vim 2.vim的配置（1）~/.vimi

斷點相關技術與原理（2）

def pan 保存 ollydbg php class 工具 code http 繼續對OD的斷點技術做個筆記。 1、硬件斷點： Intel CPU中有8個調試寄存器（Debug Register）DR0 — DR7，當中DR0 — DR3用於設置硬件斷點地址，D

Spark的歷史與發展（目錄）

相關推薦