spark基本概念與執行架構

阿新 • • 發佈：2018-12-02

Apache Spark是一個分散式計算框架，旨在簡化運行於計算機叢集上的並行程式的編寫。

RDD：彈性分散式資料集(Resilient Distributed Dataset)是分散式記憶體的一個抽象概念，提供了一個高度受限的共享記憶體模型。一個RDD包含多個分割槽(Partition)。

DAG：有向無環圖(Directed Acyclic Graph)反應RDD之間的依賴關係。

Executor：執行在工作節點(WorkNode)的一個程序，負責執行Task。

Application：使用者編寫的Spark程式。

Task：執行在Executor上的工作單元。

Job

：一個Job包含多個RDD及作用於相應RDD上的各種操作。

Stage：是Job的基本排程單位，一個Job會分為多組Task，每組Task被稱為Stage，或者也被稱為TaskSet，代表了一組由關聯的、相互之間沒有shuffle依賴關係的任務組成的任務集。

與MapReduce相比的優勢：

利用多執行緒來執行具體的任務，減少任務的啟動開銷
Executor中有一個BlockManager儲存模組，會將記憶體和磁碟共同作為儲存裝置，減少IO開銷

為應用構建起基本的執行環境，即由Driver建立一個SparkContext進行資源的申請、任務的分配和監控。

資源管理器為Executor分配資源，並Executor啟動程序。
SparkContext根據RDD的依賴關係構建DAG圖，DAG圖提交給DAGScheduler解析成Stage，然後把一個個TaskSet提交給底層排程器TaskScheduler處理；Executor向SparkContext申請Task，TaskScheduler將Task發放給Executor執行並提供應用程式程式碼。
Task在Executor上執行把執行結果反饋給TaskSchedulor，然後反饋給DAGScheduler，執行完畢後寫入資料並釋放所有資源。

Spark執行架構特點

：

每個Application都有自己專屬的Executor程序，並且該程序在Application執行期間一直駐留。Executor程序以多執行緒的方式執行Task。
Spark執行過程與資源管理器無關，只要能夠獲取Executor程序並儲存通訊即可。
Task採用資料本地性和推測執行等優化機制。

（廈門大學大資料公開課筆記）

spark基本概念與執行架構

Apache Spark是一個分散式計算框架，旨在簡化運行於計算機叢集上的並行程式的編寫。 RDD：彈性分散式資料集(Resilient Distributed Dataset)是分散式記憶體的一個抽象概念，提供了一個高度受限的共享記憶體模型。一個RDD包含多個分割槽(Partition)。

多執行緒的基本概念與執行緒安全問題

多執行緒: 基本概念程式:是一個可執行的檔案. 程序:是一個正在執行的程式.在記憶體中開闢了一塊兒空間執行緒:負責程式的執行,可以看做程式執行的一條通道或者一個執行單元.所以我們通常將

Druid.io系列（二）：基本概念與架構

在介紹Druid架構之前，我們先結合有關OLAP的基本原理來理解Druid中的一些基本概念。 1 資料以圖3.1為例，結合我們在第一章中介紹的OLAP基本概念，按列的型別上述資料可以分成以下三類：時間序列(Timestamp)，Druid既是記憶

【Spark深入學習-11】Spark基本概念和運行模式

nmf 磁盤大數據平臺並不是鼠標 .cn 管理系統大型數據集 spa ----本節內容------- 1.大數據基礎 1.1大數據平臺基本框架 1.2學習大數據的基礎 1.3學習Spark的Hadoop基礎 2.Hadoop生態基本介紹 2.1

【Python】 Web開發框架的基本概念與開發的準備工作

世紀依賴包 ade 並不是模板界面 inux tar cal Web框架基本概念現在再來寫這篇文章顯然有些馬後炮的意思。不過正是因為已經學習了Flask框架，並且未來計劃學習更加體系化的Django框架，在學習過程中碰到的很多術語等等，非常有必要通過這樣一篇

Spark基本概念

ams lec all count 抽象類 sil 測試內容 pre Spark基本概念 1.SparkContent 　　a.Driver programs通過SparkContent對象訪問Spark 　　b.SparkContent代表和一個集群的鏈接　　c.在s

計算機網路基礎 - 一些基本概念與網絡結構

logs 網路兩個 wdm comment quest 利用 gin 規範 1. 基本概念計算機網絡 = 通信技術+計算機技術，是兩項技術緊密結合的產物。通信系統的基礎模型：計算機網絡，是指將地理位置不同、具有獨立功能的多臺計算機及其外部設備，通過通信線路連接，在

Oracle sequence的基本概念與理解

side frame create varchar2 inf sel *** 順序 -s 1.如何查看sequence的定義 2.dba_sequences相關字的定義 3.如何修改sequence *************************************

Structured Streaming教程(1) —— 基本概念與使用

repr 開放 let 結果可靠技術分享 lines ole sock 近年來，大數據的計算引擎越來越受到關註，spark作為最受歡迎的大數據計算框架，也在不斷的學習和完善中。在Spark2.x中，新開放了一個基於DataFrame的無下限的流式處理組件——Struc

2.spark基本概念

executor shuff 分享圖片 jvm ive schedule adf RKE 立即執行 Application 用戶編寫的Spark應用程序。Application的main方法為應用程序的入口，用戶通過Spark的API，定義了RDD和對RDD的操作。 Jo

SpringMVC基本概念和執行流程

基本概念： MVC：一種架構模式，包括模型層（需要哪些資料）、檢視層（如何展現）、控制層（呼叫哪些業務邏輯）。業務資料的抽取與業務資料的呈現相分離。 DispatcherServlet：前端控制器，負責接收使用者請求，分發到合適的cont

[Flink基本概念與部署]--Flink 程式設計模型【一】

一、Flink基本程式設計模型圖1 1、Stateful Stream Processing 它位於最底層，是core API 的底層實現；推薦學習時使用，生產中以穩定為主，不建議使用。 processFunction：開

Maven基本概念與核心配置

Maven的安裝與核心配置 1、安裝Maven 1）、官網下載 Maven （http://maven.apache.org/download.cgi）； 2）、解壓指定目錄； 3）、配置環境變數； 4）、使用mvn -version檢視Maven是否安裝成功

圖的基本概念與相關術語

1、圖（Graph）是由頂點的有窮非空集合和頂點之間邊的集合組成，通常表示為：G(V,E)，其中，G表示一個圖，V是圖G中頂點的集合，E是圖G中邊的集合。 2、對於圖的定義，我們需要明確幾個注意的地方：（1）線性表中我們把資料元素叫元素，樹中叫結點，在圖中資料元素我們則稱之為頂點(V

freertos- 任務基本概念與任務掛起和恢復解析

1、任務狀態任務實體 2、任務的優先順序 3、任務掛起和恢復的情形 4、任務掛起和恢復實現掛起任務列表 5、任務掛起和阻塞，認識恢復和

elasticsearch基本概念與查詢語法

序言後面有大量類似於mysql的sum， group by查詢elk=== elk總體架構 https://www.elastic.co/cn/products Beat 基於go語言寫的輕量型資料採集器，讀取資料，迅速傳送到Logstash進行解析，亦

資料結構與演算法——基本概念與術語

概述資料、資料元素、資料物件資料（data）是對客觀事物的符號表示，在電腦科學中是指所有能輸入到計算機中並被計算機程式處理的程式的總稱。資料元素（data element）是資料的基本單位，在計算機程式中通常作為一個整體進行考慮和處理。一個數據元素可由若干個資料項（data ite

【Spark核心原始碼】Spark基本概念及特點

目錄 Hadoop MapReduce的不足 Spark的基本概念 RDD DAG Partition NarrowDependency ShuffleDependency Job Stage Task Shuffle Spark的基本元件 Clu

HDFS基本概念與重新梳理（hdfs檔案資訊介紹）

HDFS（Hadoop Distributed File System ）Hadoop分散式檔案系統。是根據google發表的論文翻版的。論文為GFS（Google File System）Google 檔案系統（中文，英文）。 HDFS有很多特點： 1.儲存多個副本，且提供容錯機制，副

spark基本概念及入門

spark spark背景什麼是spark Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個包含多個子專案的集

spark基本概念與執行架構

相關推薦