Spark核心架構深度剖析

阿新 • • 發佈：2018-12-11

1(圖中流程標號)：當我們在strandalone模式下提交我們的spark應用時，會建立和構造一個DriverActor程序出來，這個程序會執行我們的Application應用程式。。。

2：寫過spark應用程式的都知道，第一步需要構造SparkConf然後建立一個SC(SparkContext)，重點來了，SparkContext在初始化的時候最重要的是幹兩件事：就是構造DAGScheduler和TaskScheDuler。

3：然後，TaskScheduler會負責，通過他的一個後臺程序，去連線Master,向Master註冊Application.

4：Master接收到TaskScheduler的註冊請求後，會使用自己的資源排程演算法，在Spark叢集的Worker上為Application申請多個Executor，並且通知Worker啟動相應的Executor。（實際中有許多的Worker和Executor，這裡只用一個來畫圖展示）

5：Worker會為Application啟動相應的Executor。

6：Executor啟動後會把自己反向註冊到Taskscheduler上面去，至此SparkContext的初始化結束，Driver繼續執行我們的程式。

7：每當執行到一個action操作(例如：foreach...)的時候，就會建立一個job，並將job提交給DAGSheduler，DAGScheduler會將job劃分為多個stage（按照寬依賴進行劃分），然後每個stage建立一個TaskSet，並將TaskSet交給TaskSheduler。

8：TaskSheduler會將每一個TaskSet中的每一個task提交到executor上執行（task分配演算法）。

9：Executor每接收到一個task,就會用TaskRunner來封裝task,然後丟入執行緒池進行執行。

總結：spark應用程式的執行，就是stage分批次的作為task提交到executor執行，每一個task針對RDD的partition,執行我們的運算元和函式，以此類推，直到所有的操作執行完為止。

Spark核心架構深度剖析

1(圖中流程標號)：當我們在strandalone模式下提交我們的spark應用時，會建立和構造一個DriverActor程序出來，這個程序會執行我們的Application應用程式。。。 2：寫過spark應用程式的都知道，第一步需要構造SparkConf然後建立

Spark:核心架構深度剖析

1、術語定義 1、Application：Spark應用程式指的是使用者編寫的Spark應用程式，包含了Driver功能程式碼和分佈在叢集中多個節點上執行的Executor程式碼。 Spark應用程式，由一個或多個作業JOB組成，如下圖所示: 2、Driver：驅動程式 S

Spark核心原始碼深度剖析（1） - Spark整體流程和寬依賴和窄依賴

1 Spark 整體流程 2 寬依賴和窄依賴 2.1 窄依賴 Narrow Dependency，一個RDD對它的父RDD,只有簡單的一對一的依賴關係。即RDD的每個 partition僅僅依賴於父RDD中的一個 partition。父RDD和子RDD的

Spark核心原始碼深度剖析：基於Yarn的兩種提交模式深度剖析

1.Spark的三種提交模式 1、Spark核心架構，其實就是第一種模式，standalone模式，基於Spark自己的Master-Worker叢集。 2、第二種，是基於YARN的yarn-clu

Spark核心原始碼深度剖析：Master註冊機制原理剖析與原始碼分析

1.Master註冊機制原理剖析（圖解） 2.部分原始碼分析 master.scala中的Application註冊原理程式碼分析： case RegisterApplication(

Spark核心原始碼深度剖析：SparkContext原理剖析與原始碼分析

1.SparkContex原理剖析 1.圖解： 2.SparkContext原始碼分析 1.TaskScheduler建立： SparkContext.scala // Create and start the scheduler p

spark核心架構剖析--Application執行過程

以standalone模式（基於spark的Master—Worker）解析spark核心架構，先羅列spark核心中的幾個概念再詳解程式的執行流程。一、常用名詞1、Application2、spark-submit3、Driver4、SparkContext5、Master

認識KafKa-KafKa架構深度剖析

為什麼會有訊息佇列解耦擴充套件能力持久化峰值處理能力可恢復訊息佇列種類 ActivaMQ 基於JMS規範支援事務 KafKa 輕量級，不完全服從JMS 無狀態代理消費者

LINUX核心研究----IO複用函式epoll核心原始碼深度剖析

select和poll的效率瓶頸有兩個 1、每次呼叫這些函式的時候都需要將監控的fd和需要監控的事件從使用者空間拷貝到核心空間，非常影響效率。而epoll就是自己儲存使用者空間拷入的fd和需要監控

第13課Spark核心架構解密

第一階段：Spark streaming、spark sql、kafka、spark核心原理（必須有一個大型專案經驗）；第二階段：spark執行的各種環境，各種故障的解決，效能優化（精通spark核心、執行原理）；第三階段：流處理、機器學習為鰲頭，需要首先掌握前兩個階

Hadoop 3.0 新特性原理及架構深度剖析

Hadoop 3.0在HDFS，Yarn，MapReduce核心部分有哪些變化呢？經過多年的發展，Hadoop已經日趨成熟，3.0版本釋出，預示著Hadoop進入了新的發展階段，那麼Hadoop3.0有哪些內容，哪些值得注意的地方？都是我們值得研究的部分

SparkSQL 之 Shuffle Join 核心原理及應用深度剖析-Spark商業原始碼實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。

《深入理解Spark-核心思想與源碼分析》（二）第二章Spark設計理念和基本架構

基礎知識 cut info 負責驅動源碼分析 spa spark 節點若夫乘天地之正，而禦六氣之辯解，以遊無窮者，彼且惡乎待哉？

揭開芯面紗主流平板電腦方案深度剖析之ARMv5,v6,v7架構陣營

全文框架按陣營分為： Ⅰ、ARMv5架構陣營，代表核心： ARM9核心 Ⅱ、ARMv6架構陣營，代表核心： ARM11核心 Ⅲ、ARMv7架構陣營，代表核心： ①高通Scorpion核心 ②Cortex A8核心

白話文剖析[spring4.2.1.RELEASE] IOC核心架構

在這篇文章中,我將用第一人稱的方式向你闡述spring4.2.1.RELEASE IOC部分的基本架構,你可以用如下的簡單demo開啟原始碼debug之旅 demo包含三個檔案 User.java public class User {

深度剖析——超融合架構應用與實踐分享

大家好，我是青雲的 lester ，目前負責青雲QingCloud 的超融合產品系列。今天由我向大家分享 QingCloud 對超融合架構的理解，以及在超融合架構方面的實踐經驗。今天分享的話題主要分三部分： 1、什麼是超融合架構。 2、從資料中心的發展趨

spark從入門到放棄十二: 深度剖析寬依賴與窄依賴

文章地址：http://www.haha174.top/article/details/256658 根據hello world 的例子介紹一個什麼是寬依賴和窄依賴。窄依賴：英文全名，Narrow Dependence.什麼樣的情況，叫做窄依賴呢？一

乾貨曝光（三）| 資深架構師深度剖析：基於深度學習的End-to-End

origin: http://www.sohu.com/a/162012646_7956222017-08-03 16:58 作業系統 /百度 7月22日，百度自動駕駛事業部資深架構師、資料平臺專家楊凡，百度自動駕駛

Spark:基於Yarn的兩種提交模式深度剖析

Spark的三種提交模式 Spark核心架構，其實就是第一種模式，standalone模式，基於Spark自己的Master-Worker叢集第二種，是基於YARN的yarn-cluster模式第三種，是基於YARN的yarn-client模式。如果，

Spark:寬依賴與窄依賴深度剖析

窄依賴窄依賴就是指父RDD的每個分割槽只被一個子RDD分割槽使用，子RDD分割槽通常只對應常數個父RDD分割槽，如下圖所示: 窄依賴有分為兩種：一種是一對一的依賴，即OneToOneDependency 還有一個是範圍的依賴，即RangeDependency，

Spark核心架構深度剖析

1(圖中流程標號)：當我們在strandalone模式下提交我們的spark應用時，會建立和構造一個DriverActor程序出來，這個程序會執行我們的Application應用程式。。。

2：寫過spark應用程式的都知道，第一步需要構造SparkConf然後建立一個SC(SparkContext)，重點來了，SparkContext在初始化的時候最重要的是幹兩件事：就是構造DAGScheduler和TaskScheDuler。

3：然後，TaskScheduler會負責，通過他的一個後臺程序，去連線Master,向Master註冊Application.

4：Master接收到TaskScheduler的註冊請求後，會使用自己的資源排程演算法，在Spark叢集的Worker上為Application申請多個Executor，並且通知Worker啟動相應的Executor。（實際中有許多的Worker和Executor，這裡只用一個來畫圖展示）

5：Worker會為Application啟動相應的Executor。

6：Executor啟動後會把自己反向註冊到Taskscheduler上面去，至此SparkContext的初始化結束，Driver繼續執行我們的程式。

7：每當執行到一個action操作(例如：foreach...)的時候，就會建立一個job，並將job提交給DAGSheduler，DAGScheduler會將job劃分為多個stage（按照寬依賴進行劃分），然後每個stage建立一個TaskSet，並將TaskSet交給TaskSheduler。

8：TaskSheduler會將每一個TaskSet中的每一個task提交到executor上執行（task分配演算法）。

9：Executor每接收到一個task,就會用TaskRunner來封裝task,然後丟入執行緒池進行執行。

總結：spark應用程式的執行，就是stage分批次的作為task提交到executor執行，每一個task針對RDD的partition,執行我們的運算元和函式，以此類推，直到所有的操作執行完為止。

相關推薦