spark面試必知必會

阿新 • • 發佈：2021-11-03

哈哈哈，沒想到腦海裡復現的是這麼熟悉的話，必知必會，三天入門。

1:SparkSession內部封裝了SparkContext，所以計算實際上是由SparkContext完成的。

session = session.SparkSession \
            .builder \
            .appName(job_name) \
            .enableHiveSupport() \
            .getOrCreate()

如把Spark叢集當作服務端，那Spark Driver就是客戶端，SparkContext則是客戶端的核心；如註釋所說 SparkContext用於連線Spark叢集、建立RDD、累加器（accumlator）、廣播變數（broadcast variables），所以說SparkContext為Spark程式的根本都不為過，可以理解為main函式。

2：Spark支援的三種典型叢集部署方式，即standalone、Spark on Mesos和Spark on YARN

3：

Application:Appliction都是指使用者編寫的Spark應用程式，其中包括一個Driver功能的程式碼和分佈在叢集中多個節點上執行的Executor程式碼
Driver:Spark中的Driver即執行上述Application的main函式並建立SparkContext，建立SparkContext的目的是為了準備Spark應用程式的執行環境，在Spark中有SparkContext負責與ClusterManager通訊，進行資源申請、任務的分配和監控

等，當Executor部分執行完畢後，Driver同時負責將SparkContext關閉，通常用SparkContext代表Driver
Executor:某個Application執行在worker節點上的一個程序，該程序負責執行某些Task，並且負責將資料存到記憶體或磁碟上，每個Application都有各自獨立的一批Executor，在Spark on Yarn模式下，其程序名稱為CoarseGrainedExecutor Backend。一個CoarseGrainedExecutor Backend有且僅有一個Executor物件，負責將Task包裝成taskRunner,並從執行緒池中抽取一個空閒執行緒執行Task，這個每一個oarseGrainedExecutor Backend能並行執行Task的數量取決與分配給它的cpu個數

Worker:叢集中任何可以執行Application程式碼的節點，在Standalone模式中指的是通過slave檔案配置的Worker節點，在Spark on Yarn模式下就是NoteManager節點
Task:被送到某個Executor上的工作單元，但hadoopMR中的MapTask和ReduceTask概念一樣，是執行Application的基本單位，多個Task組成一個Stage，而Task的排程和管理等是由TaskScheduler負責
Job:包含多個Task組成的平行計算，往往由Spark Action觸發生成，一個Application中往往會產生多個Job
Stage:每個Job會被拆分成多組Task，作為一個TaskSet，其名稱為Stage，Stage的劃分和排程是有DAGScheduler來負責的，Stage有非最終的Stage（Shuffle Map Stage）和最終的Stage（Result Stage）兩種，Stage的邊界就是發生shuffle的地方
DAGScheduler:根據Job構建基於Stage的DAG（Directed Acyclic Graph有向無環圖)，並提交Stage給TASkScheduler。其劃分Stage的依據是RDD之間的依賴的關係找出開銷最小的排程方法
Job=多個stage，Stage=多個同種task, Task分為ShuffleMapTask和ResultTask，Dependency分為ShuffleDependency和NarrowDependency

# ref:

https://www.cnblogs.com/xia520pi/p/8609602.html

https://www.cnblogs.com/cxxjohnson/p/8909578.html

spark面試必知必會

哈哈哈，沒想到腦海裡復現的是這麼熟悉的話，必知必會，三天入門。 1:SparkSession內部封裝了SparkContext，所以計算實際上是由SparkContext完成的。

前端新人關注的Web前端飽和性分析？前端面試必知必會的十點！

現在前端市場是不是已經飽和了？巴巴巴巴巴...... 還有：XXX行業是否已經飽和？

Android高頻網路面試專題必知必會

要論時下最火的網路請求框架，當屬OkHttp了。自從Android4.4開始，google已經開始將原始碼中的HttpURLConnection替換為OkHttp，而在Android6.0之後的SDK中google更是移除了對於HttpClient的支援，而市面上流行的Retr

面試前必知必會的二分查詢及其變種

需要更多演算法動圖詳解，可以微信搜尋[袁廚的演算法小屋] 今天給大家帶來的是二分查詢及其變種的總結，大家一定要看到最後呀，用心滿滿，廢話不多說，讓導演幫我們把鏡頭切到袁記菜館吧！

Android中高階面試必知必會，Android開發教程入門

面試大綱 1.java基礎、面向物件、集合、執行緒使用； 2.Android 機型適配、SDK適配、記憶體優化、記憶體溢位、記憶體洩漏；3.MVC/MVP/MVVM的使用場景；

Android中高階面試必知必會，近期有面試的必看

不清楚你是不是知道，咱們中國有相當大的一部分軟體公司，他們的軟體開發團隊都小的可憐，甚至只有1-3個人，連一個專案小組都算不上，而這樣的團隊卻要承擔一個軟體公司所有的軟體開發任務，在軟體上線和開發的關鍵

Java 必知必會的 URL 和 URLConnection使用

java.net.URL 類將 URL 地址進行了封裝，並提供瞭解析 URL 地址的基本方法，比如獲取 URL 的主機名和埠號。

MySQL必知必會——第27章全球化和本地化讀書筆記

本章介紹MySQL處理不同字符集和語言的基礎知識。 1 字符集和校對順序資料庫表用來儲存和檢索資料。

SQL必知必會筆記（一）

SQL必知必會（一） 1，任何人一直學習任何一門手藝都會有些煩躁 2，休息好和玩好是學好的前提

SQL必知必會筆記（二）

#過濾資料（wherehaving） SELECT vend_id,COUNT(*) AS num_prods FROM products WHERE prod_price >=4

《MySQL必知必會》19~23章

第十九~第二十三章第十九章 INSERT 是用來插入（或新增）行到資料庫表的，有以下幾種方式

MySQL必知必會(四)閱讀筆記

第十四章使用子查詢子查詢例:查詢訂購物品TNT2的所有顧客資訊 //1:檢索包含物品TNT2的所有訂單的編號

必知必會的8個Python列表技巧

原作者：Nik Piepenbreier 翻譯&內容補充：費弗裡原文地址：https://towardsdatascience.com/advanced-python-list-techniques-c6195fa699a3

Linux 程式必知必會

上一篇文章只是簡單的描述了一下 Linux 基本概念，通過幾個例子來說明 Linux 基本應用程式，然後以 Linux 基本核心構造來結尾。那麼本篇文章我們就深入理解一下 Linux 核心來理解 Linux 的基本概念之程式和執行緒。系

MySQL基礎之MySQL必知必會(二)MySQL簡介

什麼是MySQL MySQL是一種DBMS(資料庫管理系統), 即它是一種資料庫軟體 MySQL得到廣泛使用的原因:

MySQL基礎之MySQL必知必會(三)使用MySQL

連線 MySQL與其他所有客戶機-伺服器DBMS一樣, 要求在能執行命令之前登入到DBMS。MySQL在內部儲存自己的使用者列表, 並且把每個使用者與各種許可權關聯起來

MySQL基礎之MySQL必知必會(四)檢索資料

SELECT語句每個SQL語句都是由一個或多個關鍵字構成的。最常使用的SQL語句是SELECT語句。它的用途是從一個或多個表中檢索資訊。

MySQL基礎之MySQL必知必會(五)排序檢索資料

排序資料使用SELECT檢索出來的順序並不是以純粹的隨機順序顯示的, 如果不排序, 資料一般將以它在底層表中出現的順序顯示。這可以是資料最初新增到表的順序。但是, 如果資料後來進行過更新和刪除, 則此順序將會受到M

MySQL基礎之MySQL必知必會(六)過濾資料

使用WHERE子句通常會根據操作或報告的需要提取表中的資料的子集。只檢索所需資料需要指定的搜尋條件, 搜尋條件也稱為過濾條件

MySQL基礎之MySQL必知必會(七)資料過濾

組合WHERE子句為了進行更強的過濾控制, MySQL允許給出多個WHERE子句。這些子句可以兩種方式使用: 以AND子句的方式或OR子句的方式使用。

spark面試必知必會

相關推薦