Spark筆記整理（二）：RDD與spark核心概念名詞

阿新 • • 發佈：2018-04-25

大數據 Spark

[TOC]

Spark RDD

非常基本的說明，下面一張圖就能夠有基本的理解：

技術分享圖片

Spark RDD基本說明

1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全部或部分可以緩存在內存中，在多次計算間重用。

2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分布在集群中的不同Worker節點上，從而讓RDD中的數據可以被並行操作。（分布式數據集）

3、RDD通常通過Hadoop上的文件，即HDFS文件或者Hive表，來進行創建；有時也可以通過RDD的本地創建轉換而來。

4、傳統的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優點，但是其最大缺點是采用非循環式的數據流模型，使得在叠代計算式要進行大量的磁盤IO操作（每跑完一個Job，拿到其中間結果後，再跑下一個Job，聯想使用MR做數據清洗的案例）。RDD正是解決這一缺點的抽象方法。RDD最重要的特性就是，提供了容錯性，可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition，因為節點故障，導致數據丟了，那麽RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。RDD的lineage特性（類似於族譜，像上面的圖，假如某個partition的數據丟失了，找到其父partition重新計算即可，我稱之為溯源）。

5、RDD的數據默認情況下存放在內存中的，但是在內存資源不足時，Spark會自動將RDD數據寫入磁盤。（彈性）

RDD在Spark中的地位和作用

（1）為什麽會有Spark？因為傳統的並行計算模型無法有效的解決叠代計算（iterative）和交互式計算（interactive）；而Spark的使命便是解決這兩個問題，這也是他存在的價值和理由。

（2）Spark如何解決叠代計算？其主要實現思想就是RDD，把所有計算的數據保存在分布式的內存中。叠代計算通常情況下都是對同一個數據集做反復的叠代計算，數據在內存中將大大提升IO操作。這也是Spark涉及的核心：內存計算。（一行搞定wc：sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)

，這就是典型的叠代計算了）

（3）Spark如何實現交互式計算？因為Spark是用scala語言實現的，Spark和scala能夠緊密的集成，所以Spark可以完美的運用scala的解釋器，使得其中的scala可以向操作本地集合對象一樣輕松操作分布式數據集。

（4）Spark和RDD的關系？可以理解為：RDD是一種具有容錯性基於內存的集群計算抽象方法，Spark則是這個抽象方法的實現。

Spark常用核心模塊

1、核心模塊開發：離線批處理 Spark Core
2、實時計算：底層也是基於RDD Spark Streaming
3、Spark SQL/Hive：交互式分析
4、Spark Graphx：圖計算
5、Spark Mlib： 數據挖掘和機器學習

核心概念名詞

大多數應該都要實地寫過spark程序和提交任務到spark集群後才有更好的理解。

ClusterManager：在Standalone模式中即為Master（主節點），控制整個集群，監控Worker。在YARN模式中為資源管理器。
Worker：從節點，負責控制計算節點，啟動Executor。在YARN模式中為NodeManager，負責計算節點的控制。
Driver：運行Application的main()函數並創建SparkContext。
Executor：執行器，在worker node上執行任務的組件、用於啟動線程池運行任務。每個Application擁有獨立的一組Executors。
SparkContext：整個應用的上下文，控制應用的生命周期。
RDD：Spark的基本計算單元，一組RDD可形成執行的有向無環圖RDD Graph。
DAG Scheduler：實現將Spark作業分解成一到多個Stage，每個Stage根據RDD的Partition個數決定Task的個數，然後生成相應的Task set放到TaskScheduler中。
TaskScheduler：將任務（Task）分發給Executor執行。（所以Executor執行的就是我們的代碼）
Stage：一個Spark作業一般包含一到多個Stage。
Task：一個Stage包含一到多個Task，通過多個Task實現並行運行的功能。
Transformations：轉換(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是說從一個RDD轉換生成另一個RDD的操作不是馬上執行，Spark在遇到Transformations操作時只會記錄需要這樣的操作，並不會去執行，需要等到有Actions操作的時候才會真正啟動計算過程進行計算。（後面的wc例子就會有很好的說明）
Actions：操作(Actions) (如：count, collect, save等)，Actions操作會返回結果或把RDD數據寫到存儲系統中。Actions是觸發Spark啟動計算的動因。
SparkEnv：線程級別的上下文，存儲運行時的重要組件的引用。SparkEnv內創建並包含如下一些重要組件的引用。
- MapOutPutTracker：負責Shuffle元信息的存儲。
- BroadcastManager：負責廣播變量的控制與元信息的存儲。
- BlockManager：負責存儲管理、創建和查找塊。
- MetricsSystem：監控運行時性能指標信息。
- SparkConf：負責存儲配置信息。

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

Spark筆記整理（二）：RDD與spark核心概念名詞

Spark RDD

Spark RDD基本說明

RDD在Spark中的地位和作用

Spark常用核心模塊

核心概念名詞

Spark筆記整理（二）：RDD與spark核心概念名詞

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

Kafka筆記整理（二）：Kafka Java API使用

Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建

ElasticSearch筆記整理（二）：CURL操作、ES插件、集群安裝與核心概念

Storm筆記整理（二）：Storm本地開發案例—總和計算與單詞統計

Scala筆記整理（二）：Scala數據結構—數組、map與tuple

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

Spark筆記整理（三）：Spark WC開發與應用部署

Storm筆記整理（一）：簡介與設計思想

Machine Learning筆記整理 ------ （二）訓練集與測試集的劃分

React 入門學習筆記整理（二）—— JSX簡介與語法

Spark Streaming筆記整理（三）：DS的transformation與output操作

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

Hive筆記整理（二）

HBase筆記整理（二）

Kafka筆記整理（三）：消費形式驗證與性能測試

Redis筆記整理（一）：Redis安裝配置與數據類型操作

Spark筆記整理（二）：RDD與spark核心概念名詞

Spark RDD

Spark RDD基本說明

RDD在Spark中的地位和作用

Spark常用核心模塊

核心概念名詞

相關推薦