Spark原始碼分析系列（目錄）

阿新 • • 發佈：2019-01-18

記錄自己學習研究 Spark 的探索過程，為後續總結奠定基礎。

本文程式碼研究以 Spark 2.3.0 原始碼為基準，如果看本文，請閱讀時，下載對應的 Spark 版本。

圖1 伯克利的資料分析軟體棧BDAS（Berkeley Data Analytics Stack）

這裡要先說BDAS（伯克利資料分析棧），是伯克利大學的AMPLab打造的用於大資料的分析的一套開源軟體棧，這其中包括了這兩年火的爆棚的Spark（Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等元件，這些元件分別處理Spark Core提供記憶體計算框架、SparkStreaming的實時處理應用、Spark SQL的即時查詢、MLlib或MLbase的機器學習和GraphX的圖處理

），也包括了冉冉升起的分散式記憶體系統Alluxio（Tachyon），當然還包括著名的資源管理的開源軟體Mesos。可以說Amplab最近幾年引領了大資料發展的技術創新的浪潮。從它的官網可以看到這張圖片，其中，有不少文字是有連結，指向各自專案的主頁的。要檢視這些連結，可以到上面BDAS的官網。

1、論文篇

2、準備篇

3、核心篇

圖2 一個 Spark 作業執行圖

1）Spark 的初始化

Spark 核心篇-SparkConf
Spark 核心篇-RpcEnv
Spark 核心篇-SparkStatusTracker
Spark 核心篇-SecurityManager

Spark 核心篇-SparkUI
Spark 核心篇-MetricsSystem

2）Spark 記憶體模型

......

3）Spark 儲存體系

Spark 核心篇-SerializerManager
Spark 核心篇-BroadcastManager
Spark 核心篇-ShuffleManager
Spark 核心篇-MemoryManager
Spark 核心篇-NettyBlockTransferService
Spark 核心篇-BlockManagerMaster
Spark 核心篇-BlockManager

4）Spark 計算體系

Spark 核心篇-LiveListenerBus
Spark 核心篇-MapOutputTracker
Spark 核心篇-DAGScheduler
Spark 核心篇-TaskScheduler
Spark 核心篇-ExecutorAllocationManager
Spark 核心篇-OutputCommitCoordinator
Spark 核心篇-ContextClearner

5）Spark 執行模式

......

4、元件篇

1）Spark SQL

......

2）Spark Streaming

......

3）Spark MLib

......

4）Spark Graphx

......

5、公共篇

1）Tags

Spark原始碼分析系列（目錄）

Spark原始碼分析系列（目錄）

Spring5原始碼分析系列（四）Spring5原始碼分析2

Spring5原始碼分析系列（九）Spring事務原理詳解

開源中國APP Android端原始碼分析系列（一）

DbUtils原始碼分析系列（一）

Spring原理與原始碼分析系列（七）- Spring AOP實現過程與實戰

QEMU原始碼分析系列（三）

Spring5原始碼分析系列（四）IOC容器

Spring5原始碼分析系列（十）SpringAOP設計原理及應用場景

iOS Block原始碼分析系列（一）————2分鐘明白Block究竟是什麼？

Hadoop Yarn原始碼閱讀系列（二）Yarn原始碼目錄組織結構

源碼分析系列（五）x264_ratecontrol_dataflow

源碼分析系列（一）x264_main_dataflow

源碼分析系列（四）x264_nal_dataflow

源碼分析系列（三）x264_deblocking_dataflow

2018年ElasticSearch6.2.2教程ELK搭建日誌采集分析系統（目錄）

SNMP原始碼分析之（一）配置檔案部分

Hadoop Yarn原始碼閱讀系列（一）Yarn架構

Spark採坑系列（三）Spark操作Hive的坑

Spark採坑系列（二）使用Scala編寫的工程Maven打包沒有Scala檔案

Spark原始碼分析系列（目錄）

相關推薦