1. 程式人生 > >spark2.0從入門到精通(一)

spark2.0從入門到精通(一)

。RDD介紹

。Spark基本工作原理

。Spark開發入門

              。編寫WorkCount程式

              。使用本地模式進行測試

              。使用spark-submit提交到叢集執行(spark-submit倉用引數說明)

              。Spark程式開發流程總結

              。sark-shell的使用(編寫workcount程式)

。建立rdd:並行化集合,基於檔案建立rdd

。操作rdd:transformation和action,java8和舊版本的區別,操作key-value對

。RDD常用操作全程案例實戰

。rdd持久化:cache()和persist(),幾種持久化策略

。共享變數:broadcast variable,accumulator

。rdd高階程式設計:基於排序演算法的wordcount,二次排序,topn,combineByKey

spark核心概覽

            。spark核心概覽

             。spark工作流程

             。spark執行模式

。sparkContext原理剖析與原始碼分析

。job出發流程原理剖析與原始碼分析

。Master原理剖析(資源排程演算法)

             。高可用機制原理剖析

             。註冊機制原理剖析

             。executor失敗容錯直至原理剖析

             。資源排程演算法剖析

。Worker原理剖析

。DAGScheduer原理剖析

            。stage劃分演算法

。TaskScheduler原理剖析

           。task分配演算法

。Executor原理剖析

。shuffleMap和resultTask原理剖析

。shuffle原理剖析

。storage模組原理剖析

            。BlockManager原理剖析

            。Cache原理剖析

            。Checkpoint原理剖析