spark2.0從入門到精通(一)
。RDD介紹
。Spark基本工作原理
。Spark開發入門
。編寫WorkCount程式
。使用本地模式進行測試
。使用spark-submit提交到叢集執行(spark-submit倉用引數說明)
。Spark程式開發流程總結
。sark-shell的使用(編寫workcount程式)
。建立rdd:並行化集合,基於檔案建立rdd
。操作rdd:transformation和action,java8和舊版本的區別,操作key-value對
。RDD常用操作全程案例實戰
。rdd持久化:cache()和persist(),幾種持久化策略
。共享變數:broadcast variable,accumulator
。rdd高階程式設計:基於排序演算法的wordcount,二次排序,topn,combineByKey
spark核心概覽
。spark核心概覽
。spark工作流程
。spark執行模式
。sparkContext原理剖析與原始碼分析
。job出發流程原理剖析與原始碼分析
。Master原理剖析(資源排程演算法)
。高可用機制原理剖析
。註冊機制原理剖析
。executor失敗容錯直至原理剖析
。資源排程演算法剖析
。Worker原理剖析
。DAGScheduer原理剖析
。stage劃分演算法
。TaskScheduler原理剖析
。task分配演算法
。Executor原理剖析
。shuffleMap和resultTask原理剖析
。shuffle原理剖析
。storage模組原理剖析
。BlockManager原理剖析
。Cache原理剖析
。Checkpoint原理剖析