【備忘】年薪50萬2017年最新Spark2.0從入門到精通教程
阿新 • • 發佈:2018-12-25
Spark從入門到精通(Scala程式設計、案例實戰、高階特性、Spark核心原始碼剖析、Hadoop高階)
下載地址:http://www.javaxxz.com/thread-342081-1-1.html
本課程主要講解目前大資料領域最熱門、最火爆、最有前景的技術——Spark。在本課程中,會從淺入深,基於大量案例實戰,深度剖析和講解Spark,並且會包含完全從企...
適合人群:中級
課時數量:278課時
用到技術:Scala、Spark、Spark SQL、Spark Streaming
涉及專案:每日uv和銷售額統計、各品類top3熱賣商品統計、每日top3熱點搜尋詞統計、廣告計費實時過濾、熱點搜尋詞滑動統計、各品類top3熱賣商品滑動實時統計
一、Scala程式設計詳解:
第1講-Spark的前世今生
第2講-課程介紹、特色與價值
第3講-Scala程式設計詳解:基礎語法
第4講-Scala程式設計詳解:條件控制與迴圈
第5講-Scala程式設計詳解:函式入門
第6講-Scala程式設計詳解:函式入門之預設引數和帶名引數
第7講-Scala程式設計詳解:函式入門之變長引數
第8講-Scala程式設計詳解:函式入門之過程、lazy值和異常
第9講-Scala程式設計詳解:陣列操作之Array、ArrayBuffer以及遍歷陣列
第10講-Scala程式設計詳解:陣列操作之陣列轉換
第11講-Scala程式設計詳解:Map與Tuple
第12講-Scala程式設計詳解:面向物件程式設計之類
第13講-Scala程式設計詳解:面向物件程式設計之物件
第14講-Scala程式設計詳解:面向物件程式設計之繼承
第15講-Scala程式設計詳解:面向物件程式設計之Trait
第16講-Scala程式設計詳解:函數語言程式設計
第17講-Scala程式設計詳解:函數語言程式設計之集合操作
第18講-Scala程式設計詳解:模式匹配
第19講-Scala程式設計詳解:型別引數
第20講-Scala程式設計詳解:隱式轉換與隱式引數
第21講-Scala程式設計詳解:Actor入門
二、課程環境搭建:
第22講-課程環境搭建:CentOS 6.5叢集搭建
第23講-課程環境搭建:Hadoop 2.4.1叢集搭建
第24講-課程環境搭建:Hive 0.13搭建
第25講-課程環境搭建:ZooKeeper 3.4.5叢集搭建
第26講-課程環境搭建:kafka_2.9.2-0.8.1叢集搭建
第27講-課程環境搭建:Spark 1.3.0叢集搭建
三、Spark核心程式設計:
第28講-Spark核心程式設計:Spark基本工作原理與RDD
第29講-Spark核心程式設計:使用Java、Scala和spark-shell開發wordcount程式
第30講-Spark核心程式設計:wordcount程式原理深度剖析
第31講-Spark核心程式設計:Spark架構原理
第32講-Spark核心程式設計:建立RDD實戰(集合、本地檔案、HDFS檔案)
第33講-Spark核心程式設計:操作RDD實戰(transformation和action案例實戰)
第34講-Spark核心程式設計:transformation操作開發案例實戰
第35講-Spark核心程式設計:action操作開發案例實戰
第36講-Spark核心程式設計:RDD持久化詳解
第37講-Spark核心程式設計:共享變數(Broadcast Variable和Accumulator)
第38講-Spark核心程式設計:高階程式設計之基於排序機制的wordcount程式
第39講-Spark核心程式設計:高階程式設計之二次排序實戰
第40講-Spark核心程式設計:高階程式設計之topn與分組取topn實戰
四、Spark核心原始碼深度剖析:
第41講-Spark核心原始碼深度剖析:Spark核心架構深度剖析
第42講-Spark核心原始碼深度剖析:寬依賴與窄依賴深度剖析
第43講-Spark核心原始碼深度剖析:基於Yarn的兩種提交模式深度剖析
第44講-Spark核心原始碼深度剖析:SparkContext初始化原理剖析與原始碼分析
第45講-Spark核心原始碼深度剖析:Master主備切換機制原理剖析與原始碼分析
第46講-Spark核心原始碼深度剖析:Master註冊機制原理剖析與原始碼分析
第47講-Spark核心原始碼深度剖析:Master狀態改變處理機制原理剖析與原始碼分析
第48講-Spark核心原始碼深度剖析:Master資源排程演算法原理剖析與原始碼分析
第49講-Spark核心原始碼深度剖析:Worker原理剖析與原始碼分析
第50講-Spark核心原始碼深度剖析:Job觸發流程原理剖析與原始碼分析
第51講-Spark核心原始碼深度剖析:DAGScheduler原理剖析與原始碼分析(stage劃分演算法與task最佳位置演算法)
第52講-Spark核心原始碼深度剖析:TaskScheduler原理剖析與原始碼分析(task分配演算法)
第53講-Spark核心原始碼深度剖析:Executor原理剖析與原始碼分析
第54講-Spark核心原始碼深度剖析:Task原理剖析與原始碼分析
第55講-Spark核心原始碼深度剖析:Shuffle原理剖析與原始碼分析(普通Shuffle與優化後的Shuffle)
第56講-Spark核心原始碼深度剖析:BlockManager原理剖析與原始碼分析(Spark底層儲存機制)
第57講-Spark核心原始碼深度剖析:CacheManager原理剖析與原始碼分析
第58講-Spark核心原始碼深度剖析:Checkpoint原理剖析與原始碼分析
五、Spark效能優化:
第59講-Spark效能優化:效能優化概覽
第60講-Spark效能優化:診斷記憶體的消耗
第61講-Spark效能優化:高效能序列化類庫
第62講-Spark效能優化:優化資料結構
第63講-Spark效能優化:對多次使用的RDD進行持久化或Checkpoint
第64講-Spark效能優化:使用序列化的持久化級別
第65講-Spark效能優化:Java虛擬機器垃圾回收調優
第66講-Spark效能優化:提高並行度
第67講-Spark效能優化:廣播共享資料
第68講-Spark效能優化:資料本地化
第69講-Spark效能優化:reduceByKey和groupByKey
第70講-Spark效能優化:shuffle效能優化
六、Spark SQL:
第71講-課程環境搭建:Spark 1.5.1新版本特性、原始碼編譯、叢集搭建
第72講-Spark SQL:前世今生
第73講-Spark SQL:DataFrame的使用
第74講-Spark SQL:使用反射方式將RDD轉換為DataFrame
第75講-Spark SQL:使用程式設計方式將RDD轉換為DataFrame
第76講-Spark SQL:資料來源之通用的load和save操作
第77講-Spark SQL:Parquet資料來源之使用程式設計方式載入資料
第78講-Spark SQL:Parquet資料來源之自動分割槽推斷
第79講-Spark SQL:Parquet資料來源之合併元資料
第80講-Spark SQL:JSON資料來源複雜綜合案例實戰
第81講-Spark SQL:Hive資料來源複雜綜合案例實戰
第82講-Spark SQL:JDBC資料來源複雜綜合案例實戰
第83講-Spark SQL:內建函式以及每日uv和銷售額統計案例實戰
第84講-Spark SQL:開窗函式以及top3銷售額統計案例實戰
第85講-Spark SQL:UDF自定義函式實戰
第86講-Spark SQL:UDAF自定義聚合函式實戰
第87講-Spark SQL:工作原理剖析以及效能優化
第87講-Spark SQL:與Spark Core整合之每日top3熱點搜尋詞統計案例實戰
第87講-Spark SQL:核心原始碼深度剖析(DataFrame lazy特性、Optimizer優化策略等)
第87講-Spark SQL:延伸知識之Hive On Spark
七、Spark Streaming:
第88講-Spark Streaming:大資料實時計算介紹
第89講-Spark Streaming:DStream以及基本工作原理
第90講-Spark Streaming:與Storm的對比分析
第91講-Spark Streaming:實時wordcount程式開發
第92講-Spark Streaming:StreamingContext詳解
第93講-Spark Streaming:輸入DStream和Receiver詳解
第94講-Spark Streaming:輸入DStream之基礎資料來源以及基於HDFS的實時wordcount案例實戰
第95講-Spark Streaming:輸入DStream之Kafka資料來源實戰(基於Receiver的方式)
第96講-Spark Streaming:輸入DStream之Kafka資料來源實戰(基於Direct的方式)
第97講-Spark Streaming:DStream的transformation操作概覽
第98講-Spark Streaming:updateStateByKey以及基於快取的實時wordcount案例實戰
第99講-Spark Streaming:transform以及廣告計費日誌實時黑名單過濾案例實戰
第100講-Spark Streaming:window滑動視窗以及熱點搜尋詞滑動統計案例實戰
第101講-Spark Streaming:DStream的output操作以及foreachRDD效能優化詳解
第102講-Spark Streaming:與Spark SQL結合使用之top3熱門商品實時統計案例實戰
第103講-Spark Streaming:快取與持久化機制詳解
第104講-Spark Streaming:Checkpoint機制詳解(Driver高可靠方案詳解)
第105講-Spark Streaming:部署、升級和監控實時應用程式
第106講-Spark Streaming:容錯機制以及事務語義詳解
第107講-Spark Streaming:架構原理深度剖析
第108講-Spark Streaming:StreamingContext初始化與Receiver啟動原理剖析與原始碼分析
第109講-Spark Streaming:資料接收原理剖析與原始碼分析
第110講-Spark Streaming:資料處理原理剖析與原始碼分析(block與batch關係透徹解析)
第111講-Spark Streaming:效能調優詳解
第112講-課程總結(學到了什麼?達到了什麼水平?)
Spark開發進階(升級內容!)
一、Scala程式設計進階:
第113講-Scala程式設計進階:Scaladoc的使用
第114講-Scala程式設計進階:跳出迴圈語句的3種方法
第115講-Scala程式設計進階:多維陣列、Java陣列與Scala陣列的隱式轉換
第116講-Scala程式設計進階:Tuple拉鍊操作、Java Map與Scala Map的隱式轉換
第117講-Scala程式設計進階:擴大內部類作用域的2種方法、內部類獲取外部類引用
第118講-Scala程式設計進階:package與import實戰詳解
第119講-Scala程式設計進階:重寫field的提前定義、Scala繼承層級、物件相等性
第120講-Scala程式設計進階:檔案操作實戰詳解
第121講-Scala程式設計進階:偏函式實戰詳解
第122講-Scala程式設計進階:執行外部命令
第123講-Scala程式設計進階:正則表示式支援
第124講-Scala程式設計進階:提取器實戰詳解
第125講-Scala程式設計進階:樣例類的提取器實戰詳解
第126講-Scala程式設計進階:只有一個引數的提取器
第127講-Scala程式設計進階:註解實戰詳解
第128講-Scala程式設計進階:常用註解介紹
第129講-Scala程式設計進階:XML基礎操作實戰詳解
第130講-Scala程式設計進階:XML中嵌入scala程式碼
第131講-Scala程式設計進階:XML修改元素實戰詳解
第132講-Scala程式設計進階:XML載入和寫入外部文件
第133講-Scala程式設計進階:集合元素操作
第134講-Scala程式設計進階:集合的常用操作方法
第135講-Scala程式設計進階:map、flatMap、collect、foreach實戰詳解
第136講-Scala程式設計進階:reduce和fold實戰詳解
二、Spark核心程式設計進階:
第137講-環境搭建-CentOS 6.4虛擬機器安裝
第138講-環境搭建-Hadoop 2.5偽分散式叢集搭建
第139講-環境搭建-Spark 1.5偽分散式叢集搭建
第140講-第一次課程升級大綱介紹以及要點說明
第141講-Spark核心程式設計進階-Spark叢集架構概覽
第142講-Spark核心程式設計進階-Spark叢集架構的幾點特別說明
第143講-Spark核心程式設計進階-Spark的核心術語講解
第144講-Spark核心程式設計進階-Spark Standalone叢集架構
第145講-Spark核心程式設計進階-單獨啟動master和worker指令碼詳解
第146講-Spark核心程式設計進階-實驗:單獨啟動master和worker程序以及啟動日誌檢視
第147講-Spark核心程式設計進階-worker節點配置以及spark-evn.sh引數詳解
第148講-Spark核心程式設計進階-實驗:local模式提交spark作業
第149講-Spark核心程式設計進階-實驗:standalone client模式提交spark作業
第150講-Spark核心程式設計進階-實驗:standalone cluster模式提交spark作業
第151講-Spark核心程式設計進階-standalone模式下的多作業資源排程
第152講-Spark核心程式設計進階-standalone模式下的作業監控與日誌記錄
第153講-Spark核心程式設計進階-實驗:執行中作業監控以及手工列印日誌
第154講-Spark核心程式設計進階-yarn-client模式原理講解
第155講-Spark核心程式設計進階-yarn-cluster模式原理講解
第156講-Spark核心程式設計進階-實驗:yarn-client模式提交spark作業
第157講-Spark核心程式設計進階-yarn模式下日誌檢視詳解
第158講-Spark核心程式設計進階-yarn模式相關引數詳解
第159講-Spark核心程式設計進階-spark工程打包以及spark-submit詳解
第160講-Spark核心程式設計進階-spark-submit示例以及基礎引數講解
第161講-Spark核心程式設計進階-實驗:spark-submit簡單版本提交spark作業
第162講-Spark核心程式設計進階-實驗:spark-submit給main類傳遞引數
第163講-Spark核心程式設計進階-spark-submit多個示例以及常用引數詳解
第164講-Spark核心程式設計進階-SparkConf、spark-submit以及spark-defaults.conf
第165講-Spark核心程式設計進階-spark-submit配置第三方依賴
第166講-Spark核心程式設計進階-spark運算元的閉包原理詳解
第167講-Spark核心程式設計進階-實驗:對閉包變數進行累加操作的無效現象
第168講-Spark核心程式設計進階-實驗:在運算元內列印資料的無法看到現象
第169講-Spark核心程式設計進階-mapPartitions以及學生成績查詢案例
第170講-Spark核心程式設計進階-mapPartitionsWithIndex以開學分班案例
第171講-Spark核心程式設計進階-sample以及公司年會抽獎案例
第172講-Spark核心程式設計進階-union以及公司部門合併案例
第173講-Spark核心程式設計進階-intersection以及公司跨多專案人員查詢案例
第174講-Spark核心程式設計進階-distinct以及網站uv統計案例
第175講-Spark核心程式設計進階-aggregateByKey以及單詞計數案例
第176講-Spark核心程式設計進階-cartesian以及服裝搭配案例
第177講-Spark核心程式設計進階-coalesce以及公司部門整合案例
第178講-Spark核心程式設計進階-repartition以及公司新增部門案例
第179講-Spark核心程式設計進階-takeSampled以及公司年會抽獎案例
第180講-Spark核心程式設計進階-shuffle操作原理詳解
第181講-Spark核心程式設計進階-shuffle操作過程中進行資料排序
第182講-Spark核心程式設計進階-會觸發shuffle操作的運算元
第183講-Spark核心程式設計進階-shuffle操作對效能消耗的原理詳解
第184講-Spark核心程式設計進階-shuffle操作所有相關引數詳解以及效能調優
第185講-Spark核心程式設計進階-綜合案例1:移動端app訪問流量日誌分析
第186講-Spark核心程式設計進階-綜合案例1:日誌檔案格式分析
第187講-Spark核心程式設計進階-綜合案例1:讀取日誌檔案並建立RDD
第188講-Spark核心程式設計進階-綜合案例1:建立自定義的可序列化類
第189講-Spark核心程式設計進階-綜合案例1:將RDD對映為key-value格式
第190講-Spark核心程式設計進階-綜合案例1:基於deviceID進行聚合操作
第191講-Spark核心程式設計進階-綜合案例1:自定義二次排序key類
第192講-Spark核心程式設計進階-綜合案例1:將二次排序key對映為RDD的key
第193講-Spark核心程式設計進階-綜合案例1:執行二次排序以及獲取top10資料
第194講-Spark核心程式設計進階-綜合案例1:程式執行測試以及程式碼除錯
第195講-Spark核心程式設計進階-部署第二臺CentOS機器
第196講-Spark核心程式設計進階-部署第二個Hadoop節點
第197講-Spark核心程式設計進階-將第二個Hadoop節點動態加入叢集
第198講-Spark核心程式設計進階-使用yarn-client和yarn-cluster提交spark作業
三、Spark核心原理進階:
第199講-Spark核心原理進階-union運算元內部實現原理剖析
第200講-Spark核心原理進階-groupByKey運算元內部實現原理剖析
第201講-Spark核心原理進階-reduceByKey運算元內部實現原理剖析
第202講-Spark核心原理進階-distinct運算元內部實現原理剖析
第203講-Spark核心原理進階-cogroup運算元內部實現原理剖析
第204講-Spark核心原理進階-intersection運算元內部實現原理剖析
第205講-Spark核心原理進階-join運算元內部實現原理剖析
第206講-Spark核心原理進階-sortByKey運算元內部實現原理剖析
第207講-Spark核心原理進階-cartesian運算元內部實現原理剖析
第208講-Spark核心原理進階-coalesce運算元內部實現原理剖析
第209講-Spark核心原理進階-repartition運算元內部實現原理剖析
四、Spark SQL實戰開發進階:
第210講-Spark SQL實戰開發進階-Hive 0.13安裝與測試
第211講-Spark SQL實戰開發進階-Thrift JDBC、ODBC Server
第212講-Spark SQL實戰開發進階-CLI命令列使用
第213講-Spark SQL實戰開發進階-綜合案例2:新聞網站關鍵指標離線統計
第214講-Spark SQL實戰開發進階-綜合案例2:頁面pv統計以及排序和企業級專案開發流程說明
第215講-Spark SQL實戰開發進階-綜合案例2:頁面uv統計以及排序和count(distinct) bug說明
第216講-Spark SQL實戰開發進階-綜合案例2:新使用者註冊比例統計
第217講-Spark SQL實戰開發進階-綜合案例2:使用者跳出率統計
第218講-Spark SQL實戰開發進階-綜合案例2:版塊熱度排行榜統計
第219講-Spark SQL實戰開發進階-綜合案例2:測試與除錯
五、Spark Streaming實戰開發進階:
第220講-Spark Streaming實戰開發進階-flume安裝
第221講-Spark Streaming實戰開發進階-接收flume實時資料流-flume風格的基於push的方式
第222講-Spark Streaming實戰開發進階-接收flume實時資料流-自定義sink的基於poll的方式
第223講-Spark Streaming實戰開發進階-高階技術之自定義Receiver
第224講-Spark Streaming實戰開發進階-kafka安裝
第225講-Spark Streaming實戰開發進階-綜合案例3:新聞網站關鍵指標實時統計
第226講-Spark Streaming實戰開發進階-綜合案例3:頁面pv實時統計
第227講-Spark Streaming實戰開發進階-綜合案例3:頁面uv實時統計
第228講-Spark Streaming實戰開發進階-綜合案例3:註冊使用者數實時統計
第229講-Spark Streaming實戰開發進階-綜合案例3:使用者跳出量實時統計
第230講-Spark Streaming實戰開發進階-綜合案例3:版塊pv實時統計
六、Spark運維管理進階:
第231講-Spark運維管理進階-基於ZooKeeper實現HA高可用性以及自動主備切換
第232講-Spark運維管理進階-實驗:基於ZooKeeper實現HA高可用性以及自動主備切換
第233講-Spark運維管理進階-基於檔案系統實現HA高可用性以及手動主備切換
第234講-Spark運維管理進階-實驗:基於檔案系統實現HA高可用性以及手動主備切換
第235講-Spark運維管理進階-作業監控-實驗:通過Spark Web UI進行作業監控
第236講-Spark運維管理進階-作業監控-實驗:standalone模式下檢視歷史作業的Web UI
第237講-Spark運維管理進階-作業監控-實驗:啟動HistoryServer檢視歷史作業的Web UI
第238講-Spark運維管理進階-作業監控-實驗:使用curl+REST API進行作業監控
第239講-Spark運維管理進階-作業監控-實驗:Spark Metrics系統以及自定義Metrics Sink
第240講-Spark運維管理進階-作業資源排程-靜態資源分配原理
第241講-Spark運維管理進階-作業資源排程-動態資源分配原理
第242講-Spark運維管理進階-作業資源排程-實驗:standalone模式下使用動態資源分配
第243講-Spark運維管理進階-作業資源排程-實驗:yarn模式下使用動態資源分配
第244講-Spark運維管理進階-作業資源排程-多個job資源排程原理
第245講-Spark運維管理進階-作業資源排程-Fair Scheduler使用詳解
Spark2.0(升級內容!)
七、Spark 2.0深入淺出
第246講-Spark 2.0-新特性介紹
第247講-Spark 2.0-新特性介紹-易用性:標準化SQL支援以及更合理的API
第248講-Spark 2.0-新特性介紹-高效能:讓Spark作為編譯器來執行
第249講-Spark 2.0-新特性介紹-智慧化:Structured Streaming介紹
第250講-Spark 2.0-新特性介紹-Spark 1.x的Volcano Iterator Model技術缺陷分析
第251講-Spark 2.0-新特性介紹-whole-stage code generation技術和vectorization技術
第252講-Spark 2.0-Spark 2.x與1.x對比以及分析、學習建議以及使用建議
第253講-Spark 2.0-課程環境搭建:虛擬機器、CentOS、Hadoop、Spark等
第254講-Spark 2.0-開發環境搭建:Eclipse+Maven+Scala+Spark
第255講-Spark 2.0-SparkSession、Dataframe、Dataset開發入門
第256講-Spark 2.0-Dataset開發詳解-初步體驗untypd操作案例:計算部門平均年齡與薪資
第257講-Spark 2.0-Dataset開發詳解-action操作:collect、count、foreach、reduce等
第258講-Spark 2.0-Dataset開發詳解-基礎操作:持久化、臨時檢視、ds與df互轉換、寫資料等
第259講-Spark 2.0-Dataset開發詳解-typed操作:coalesce、repartition
第260講-Spark 2.0-Dataset開發詳解-typed操作:distinct、dropDuplicates
第261講-Spark 2.0-Dataset開發詳解-typed操作:except、filter、intersect
第262講-Spark 2.0-Dataset開發詳解-typed操作:map、flatMap、mapPartitions
第263講-Spark 2.0-Dataset開發詳解-typed操作:joinWith
第264講-Spark 2.0-Dataset開發詳解-typed操作:sort
第265講-Spark 2.0-Dataset開發詳解-typed操作:randomSplit、sample
第266講-Spark 2.0-Dataset開發詳解-untyped操作:select、where、groupBy、agg、col、join
第267講-Spark 2.0-Dataset開發詳解-聚合函式:avg、sum、max、min、count、countDistinct
第268講-Spark 2.0-Dataset開發詳解-聚合函式:collect_list、collect_set
第269講-Spark 2.0-Dataset開發詳解-其他常用函式
第270講-Spark 2.0-Structured Streaming:深入淺出的介紹
第271講-Spark 2.0-Structured Streaming:wordcount入門案例
第272講-Spark 2.0-Structured Streaming:程式設計模型
第273講-Spark 2.0-Structured Streaming:建立流式的dataset和dataframe
第274講-Spark 2.0-Structured Streaming:對流式的dataset和dataframe執行計算操作
第275講-Spark 2.0-Structured Streaming:output mode、sink以及foreach sink詳解
第276講-Spark 2.0-Structured Streaming:管理streaming query
第277講-Spark 2.0-Structured Streaming:基於checkpoint的容錯機制
第278講-Spark面試、簡歷中的專案編寫以及實際生產環境的叢集和資源配置等
下載地址:http://www.javaxxz.com/thread-342081-1-1.html
本課程主要講解目前大資料領域最熱門、最火爆、最有前景的技術——Spark。在本課程中,會從淺入深,基於大量案例實戰,深度剖析和講解Spark,並且會包含完全從企...
適合人群:中級
課時數量:278課時
用到技術:Scala、Spark、Spark SQL、Spark Streaming
涉及專案:每日uv和銷售額統計、各品類top3熱賣商品統計、每日top3熱點搜尋詞統計、廣告計費實時過濾、熱點搜尋詞滑動統計、各品類top3熱賣商品滑動實時統計
一、Scala程式設計詳解:
第1講-Spark的前世今生
第2講-課程介紹、特色與價值
第3講-Scala程式設計詳解:基礎語法
第4講-Scala程式設計詳解:條件控制與迴圈
第5講-Scala程式設計詳解:函式入門
第6講-Scala程式設計詳解:函式入門之預設引數和帶名引數
第7講-Scala程式設計詳解:函式入門之變長引數
第8講-Scala程式設計詳解:函式入門之過程、lazy值和異常
第9講-Scala程式設計詳解:陣列操作之Array、ArrayBuffer以及遍歷陣列
第10講-Scala程式設計詳解:陣列操作之陣列轉換
第11講-Scala程式設計詳解:Map與Tuple
第12講-Scala程式設計詳解:面向物件程式設計之類
第13講-Scala程式設計詳解:面向物件程式設計之物件
第14講-Scala程式設計詳解:面向物件程式設計之繼承
第15講-Scala程式設計詳解:面向物件程式設計之Trait
第16講-Scala程式設計詳解:函數語言程式設計
第17講-Scala程式設計詳解:函數語言程式設計之集合操作
第18講-Scala程式設計詳解:模式匹配
第19講-Scala程式設計詳解:型別引數
第20講-Scala程式設計詳解:隱式轉換與隱式引數
第21講-Scala程式設計詳解:Actor入門
二、課程環境搭建:
第22講-課程環境搭建:CentOS 6.5叢集搭建
第23講-課程環境搭建:Hadoop 2.4.1叢集搭建
第24講-課程環境搭建:Hive 0.13搭建
第25講-課程環境搭建:ZooKeeper 3.4.5叢集搭建
第26講-課程環境搭建:kafka_2.9.2-0.8.1叢集搭建
第27講-課程環境搭建:Spark 1.3.0叢集搭建
三、Spark核心程式設計:
第28講-Spark核心程式設計:Spark基本工作原理與RDD
第29講-Spark核心程式設計:使用Java、Scala和spark-shell開發wordcount程式
第30講-Spark核心程式設計:wordcount程式原理深度剖析
第31講-Spark核心程式設計:Spark架構原理
第32講-Spark核心程式設計:建立RDD實戰(集合、本地檔案、HDFS檔案)
第33講-Spark核心程式設計:操作RDD實戰(transformation和action案例實戰)
第34講-Spark核心程式設計:transformation操作開發案例實戰
第35講-Spark核心程式設計:action操作開發案例實戰
第36講-Spark核心程式設計:RDD持久化詳解
第37講-Spark核心程式設計:共享變數(Broadcast Variable和Accumulator)
第38講-Spark核心程式設計:高階程式設計之基於排序機制的wordcount程式
第39講-Spark核心程式設計:高階程式設計之二次排序實戰
第40講-Spark核心程式設計:高階程式設計之topn與分組取topn實戰
四、Spark核心原始碼深度剖析:
第41講-Spark核心原始碼深度剖析:Spark核心架構深度剖析
第42講-Spark核心原始碼深度剖析:寬依賴與窄依賴深度剖析
第43講-Spark核心原始碼深度剖析:基於Yarn的兩種提交模式深度剖析
第44講-Spark核心原始碼深度剖析:SparkContext初始化原理剖析與原始碼分析
第45講-Spark核心原始碼深度剖析:Master主備切換機制原理剖析與原始碼分析
第46講-Spark核心原始碼深度剖析:Master註冊機制原理剖析與原始碼分析
第47講-Spark核心原始碼深度剖析:Master狀態改變處理機制原理剖析與原始碼分析
第48講-Spark核心原始碼深度剖析:Master資源排程演算法原理剖析與原始碼分析
第49講-Spark核心原始碼深度剖析:Worker原理剖析與原始碼分析
第50講-Spark核心原始碼深度剖析:Job觸發流程原理剖析與原始碼分析
第51講-Spark核心原始碼深度剖析:DAGScheduler原理剖析與原始碼分析(stage劃分演算法與task最佳位置演算法)
第52講-Spark核心原始碼深度剖析:TaskScheduler原理剖析與原始碼分析(task分配演算法)
第53講-Spark核心原始碼深度剖析:Executor原理剖析與原始碼分析
第54講-Spark核心原始碼深度剖析:Task原理剖析與原始碼分析
第55講-Spark核心原始碼深度剖析:Shuffle原理剖析與原始碼分析(普通Shuffle與優化後的Shuffle)
第56講-Spark核心原始碼深度剖析:BlockManager原理剖析與原始碼分析(Spark底層儲存機制)
第57講-Spark核心原始碼深度剖析:CacheManager原理剖析與原始碼分析
第58講-Spark核心原始碼深度剖析:Checkpoint原理剖析與原始碼分析
五、Spark效能優化:
第59講-Spark效能優化:效能優化概覽
第60講-Spark效能優化:診斷記憶體的消耗
第61講-Spark效能優化:高效能序列化類庫
第62講-Spark效能優化:優化資料結構
第63講-Spark效能優化:對多次使用的RDD進行持久化或Checkpoint
第64講-Spark效能優化:使用序列化的持久化級別
第65講-Spark效能優化:Java虛擬機器垃圾回收調優
第66講-Spark效能優化:提高並行度
第67講-Spark效能優化:廣播共享資料
第68講-Spark效能優化:資料本地化
第69講-Spark效能優化:reduceByKey和groupByKey
第70講-Spark效能優化:shuffle效能優化
六、Spark SQL:
第71講-課程環境搭建:Spark 1.5.1新版本特性、原始碼編譯、叢集搭建
第72講-Spark SQL:前世今生
第73講-Spark SQL:DataFrame的使用
第74講-Spark SQL:使用反射方式將RDD轉換為DataFrame
第75講-Spark SQL:使用程式設計方式將RDD轉換為DataFrame
第76講-Spark SQL:資料來源之通用的load和save操作
第77講-Spark SQL:Parquet資料來源之使用程式設計方式載入資料
第78講-Spark SQL:Parquet資料來源之自動分割槽推斷
第79講-Spark SQL:Parquet資料來源之合併元資料
第80講-Spark SQL:JSON資料來源複雜綜合案例實戰
第81講-Spark SQL:Hive資料來源複雜綜合案例實戰
第82講-Spark SQL:JDBC資料來源複雜綜合案例實戰
第83講-Spark SQL:內建函式以及每日uv和銷售額統計案例實戰
第84講-Spark SQL:開窗函式以及top3銷售額統計案例實戰
第85講-Spark SQL:UDF自定義函式實戰
第86講-Spark SQL:UDAF自定義聚合函式實戰
第87講-Spark SQL:工作原理剖析以及效能優化
第87講-Spark SQL:與Spark Core整合之每日top3熱點搜尋詞統計案例實戰
第87講-Spark SQL:核心原始碼深度剖析(DataFrame lazy特性、Optimizer優化策略等)
第87講-Spark SQL:延伸知識之Hive On Spark
七、Spark Streaming:
第88講-Spark Streaming:大資料實時計算介紹
第89講-Spark Streaming:DStream以及基本工作原理
第90講-Spark Streaming:與Storm的對比分析
第91講-Spark Streaming:實時wordcount程式開發
第92講-Spark Streaming:StreamingContext詳解
第93講-Spark Streaming:輸入DStream和Receiver詳解
第94講-Spark Streaming:輸入DStream之基礎資料來源以及基於HDFS的實時wordcount案例實戰
第95講-Spark Streaming:輸入DStream之Kafka資料來源實戰(基於Receiver的方式)
第96講-Spark Streaming:輸入DStream之Kafka資料來源實戰(基於Direct的方式)
第97講-Spark Streaming:DStream的transformation操作概覽
第98講-Spark Streaming:updateStateByKey以及基於快取的實時wordcount案例實戰
第99講-Spark Streaming:transform以及廣告計費日誌實時黑名單過濾案例實戰
第100講-Spark Streaming:window滑動視窗以及熱點搜尋詞滑動統計案例實戰
第101講-Spark Streaming:DStream的output操作以及foreachRDD效能優化詳解
第102講-Spark Streaming:與Spark SQL結合使用之top3熱門商品實時統計案例實戰
第103講-Spark Streaming:快取與持久化機制詳解
第104講-Spark Streaming:Checkpoint機制詳解(Driver高可靠方案詳解)
第105講-Spark Streaming:部署、升級和監控實時應用程式
第106講-Spark Streaming:容錯機制以及事務語義詳解
第107講-Spark Streaming:架構原理深度剖析
第108講-Spark Streaming:StreamingContext初始化與Receiver啟動原理剖析與原始碼分析
第109講-Spark Streaming:資料接收原理剖析與原始碼分析
第110講-Spark Streaming:資料處理原理剖析與原始碼分析(block與batch關係透徹解析)
第111講-Spark Streaming:效能調優詳解
第112講-課程總結(學到了什麼?達到了什麼水平?)
Spark開發進階(升級內容!)
一、Scala程式設計進階:
第113講-Scala程式設計進階:Scaladoc的使用
第114講-Scala程式設計進階:跳出迴圈語句的3種方法
第115講-Scala程式設計進階:多維陣列、Java陣列與Scala陣列的隱式轉換
第116講-Scala程式設計進階:Tuple拉鍊操作、Java Map與Scala Map的隱式轉換
第117講-Scala程式設計進階:擴大內部類作用域的2種方法、內部類獲取外部類引用
第118講-Scala程式設計進階:package與import實戰詳解
第119講-Scala程式設計進階:重寫field的提前定義、Scala繼承層級、物件相等性
第120講-Scala程式設計進階:檔案操作實戰詳解
第121講-Scala程式設計進階:偏函式實戰詳解
第122講-Scala程式設計進階:執行外部命令
第123講-Scala程式設計進階:正則表示式支援
第124講-Scala程式設計進階:提取器實戰詳解
第125講-Scala程式設計進階:樣例類的提取器實戰詳解
第126講-Scala程式設計進階:只有一個引數的提取器
第127講-Scala程式設計進階:註解實戰詳解
第128講-Scala程式設計進階:常用註解介紹
第129講-Scala程式設計進階:XML基礎操作實戰詳解
第130講-Scala程式設計進階:XML中嵌入scala程式碼
第131講-Scala程式設計進階:XML修改元素實戰詳解
第132講-Scala程式設計進階:XML載入和寫入外部文件
第133講-Scala程式設計進階:集合元素操作
第134講-Scala程式設計進階:集合的常用操作方法
第135講-Scala程式設計進階:map、flatMap、collect、foreach實戰詳解
第136講-Scala程式設計進階:reduce和fold實戰詳解
二、Spark核心程式設計進階:
第137講-環境搭建-CentOS 6.4虛擬機器安裝
第138講-環境搭建-Hadoop 2.5偽分散式叢集搭建
第139講-環境搭建-Spark 1.5偽分散式叢集搭建
第140講-第一次課程升級大綱介紹以及要點說明
第141講-Spark核心程式設計進階-Spark叢集架構概覽
第142講-Spark核心程式設計進階-Spark叢集架構的幾點特別說明
第143講-Spark核心程式設計進階-Spark的核心術語講解
第144講-Spark核心程式設計進階-Spark Standalone叢集架構
第145講-Spark核心程式設計進階-單獨啟動master和worker指令碼詳解
第146講-Spark核心程式設計進階-實驗:單獨啟動master和worker程序以及啟動日誌檢視
第147講-Spark核心程式設計進階-worker節點配置以及spark-evn.sh引數詳解
第148講-Spark核心程式設計進階-實驗:local模式提交spark作業
第149講-Spark核心程式設計進階-實驗:standalone client模式提交spark作業
第150講-Spark核心程式設計進階-實驗:standalone cluster模式提交spark作業
第151講-Spark核心程式設計進階-standalone模式下的多作業資源排程
第152講-Spark核心程式設計進階-standalone模式下的作業監控與日誌記錄
第153講-Spark核心程式設計進階-實驗:執行中作業監控以及手工列印日誌
第154講-Spark核心程式設計進階-yarn-client模式原理講解
第155講-Spark核心程式設計進階-yarn-cluster模式原理講解
第156講-Spark核心程式設計進階-實驗:yarn-client模式提交spark作業
第157講-Spark核心程式設計進階-yarn模式下日誌檢視詳解
第158講-Spark核心程式設計進階-yarn模式相關引數詳解
第159講-Spark核心程式設計進階-spark工程打包以及spark-submit詳解
第160講-Spark核心程式設計進階-spark-submit示例以及基礎引數講解
第161講-Spark核心程式設計進階-實驗:spark-submit簡單版本提交spark作業
第162講-Spark核心程式設計進階-實驗:spark-submit給main類傳遞引數
第163講-Spark核心程式設計進階-spark-submit多個示例以及常用引數詳解
第164講-Spark核心程式設計進階-SparkConf、spark-submit以及spark-defaults.conf
第165講-Spark核心程式設計進階-spark-submit配置第三方依賴
第166講-Spark核心程式設計進階-spark運算元的閉包原理詳解
第167講-Spark核心程式設計進階-實驗:對閉包變數進行累加操作的無效現象
第168講-Spark核心程式設計進階-實驗:在運算元內列印資料的無法看到現象
第169講-Spark核心程式設計進階-mapPartitions以及學生成績查詢案例
第170講-Spark核心程式設計進階-mapPartitionsWithIndex以開學分班案例
第171講-Spark核心程式設計進階-sample以及公司年會抽獎案例
第172講-Spark核心程式設計進階-union以及公司部門合併案例
第173講-Spark核心程式設計進階-intersection以及公司跨多專案人員查詢案例
第174講-Spark核心程式設計進階-distinct以及網站uv統計案例
第175講-Spark核心程式設計進階-aggregateByKey以及單詞計數案例
第176講-Spark核心程式設計進階-cartesian以及服裝搭配案例
第177講-Spark核心程式設計進階-coalesce以及公司部門整合案例
第178講-Spark核心程式設計進階-repartition以及公司新增部門案例
第179講-Spark核心程式設計進階-takeSampled以及公司年會抽獎案例
第180講-Spark核心程式設計進階-shuffle操作原理詳解
第181講-Spark核心程式設計進階-shuffle操作過程中進行資料排序
第182講-Spark核心程式設計進階-會觸發shuffle操作的運算元
第183講-Spark核心程式設計進階-shuffle操作對效能消耗的原理詳解
第184講-Spark核心程式設計進階-shuffle操作所有相關引數詳解以及效能調優
第185講-Spark核心程式設計進階-綜合案例1:移動端app訪問流量日誌分析
第186講-Spark核心程式設計進階-綜合案例1:日誌檔案格式分析
第187講-Spark核心程式設計進階-綜合案例1:讀取日誌檔案並建立RDD
第188講-Spark核心程式設計進階-綜合案例1:建立自定義的可序列化類
第189講-Spark核心程式設計進階-綜合案例1:將RDD對映為key-value格式
第190講-Spark核心程式設計進階-綜合案例1:基於deviceID進行聚合操作
第191講-Spark核心程式設計進階-綜合案例1:自定義二次排序key類
第192講-Spark核心程式設計進階-綜合案例1:將二次排序key對映為RDD的key
第193講-Spark核心程式設計進階-綜合案例1:執行二次排序以及獲取top10資料
第194講-Spark核心程式設計進階-綜合案例1:程式執行測試以及程式碼除錯
第195講-Spark核心程式設計進階-部署第二臺CentOS機器
第196講-Spark核心程式設計進階-部署第二個Hadoop節點
第197講-Spark核心程式設計進階-將第二個Hadoop節點動態加入叢集
第198講-Spark核心程式設計進階-使用yarn-client和yarn-cluster提交spark作業
三、Spark核心原理進階:
第199講-Spark核心原理進階-union運算元內部實現原理剖析
第200講-Spark核心原理進階-groupByKey運算元內部實現原理剖析
第201講-Spark核心原理進階-reduceByKey運算元內部實現原理剖析
第202講-Spark核心原理進階-distinct運算元內部實現原理剖析
第203講-Spark核心原理進階-cogroup運算元內部實現原理剖析
第204講-Spark核心原理進階-intersection運算元內部實現原理剖析
第205講-Spark核心原理進階-join運算元內部實現原理剖析
第206講-Spark核心原理進階-sortByKey運算元內部實現原理剖析
第207講-Spark核心原理進階-cartesian運算元內部實現原理剖析
第208講-Spark核心原理進階-coalesce運算元內部實現原理剖析
第209講-Spark核心原理進階-repartition運算元內部實現原理剖析
四、Spark SQL實戰開發進階:
第210講-Spark SQL實戰開發進階-Hive 0.13安裝與測試
第211講-Spark SQL實戰開發進階-Thrift JDBC、ODBC Server
第212講-Spark SQL實戰開發進階-CLI命令列使用
第213講-Spark SQL實戰開發進階-綜合案例2:新聞網站關鍵指標離線統計
第214講-Spark SQL實戰開發進階-綜合案例2:頁面pv統計以及排序和企業級專案開發流程說明
第215講-Spark SQL實戰開發進階-綜合案例2:頁面uv統計以及排序和count(distinct) bug說明
第216講-Spark SQL實戰開發進階-綜合案例2:新使用者註冊比例統計
第217講-Spark SQL實戰開發進階-綜合案例2:使用者跳出率統計
第218講-Spark SQL實戰開發進階-綜合案例2:版塊熱度排行榜統計
第219講-Spark SQL實戰開發進階-綜合案例2:測試與除錯
五、Spark Streaming實戰開發進階:
第220講-Spark Streaming實戰開發進階-flume安裝
第221講-Spark Streaming實戰開發進階-接收flume實時資料流-flume風格的基於push的方式
第222講-Spark Streaming實戰開發進階-接收flume實時資料流-自定義sink的基於poll的方式
第223講-Spark Streaming實戰開發進階-高階技術之自定義Receiver
第224講-Spark Streaming實戰開發進階-kafka安裝
第225講-Spark Streaming實戰開發進階-綜合案例3:新聞網站關鍵指標實時統計
第226講-Spark Streaming實戰開發進階-綜合案例3:頁面pv實時統計
第227講-Spark Streaming實戰開發進階-綜合案例3:頁面uv實時統計
第228講-Spark Streaming實戰開發進階-綜合案例3:註冊使用者數實時統計
第229講-Spark Streaming實戰開發進階-綜合案例3:使用者跳出量實時統計
第230講-Spark Streaming實戰開發進階-綜合案例3:版塊pv實時統計
六、Spark運維管理進階:
第231講-Spark運維管理進階-基於ZooKeeper實現HA高可用性以及自動主備切換
第232講-Spark運維管理進階-實驗:基於ZooKeeper實現HA高可用性以及自動主備切換
第233講-Spark運維管理進階-基於檔案系統實現HA高可用性以及手動主備切換
第234講-Spark運維管理進階-實驗:基於檔案系統實現HA高可用性以及手動主備切換
第235講-Spark運維管理進階-作業監控-實驗:通過Spark Web UI進行作業監控
第236講-Spark運維管理進階-作業監控-實驗:standalone模式下檢視歷史作業的Web UI
第237講-Spark運維管理進階-作業監控-實驗:啟動HistoryServer檢視歷史作業的Web UI
第238講-Spark運維管理進階-作業監控-實驗:使用curl+REST API進行作業監控
第239講-Spark運維管理進階-作業監控-實驗:Spark Metrics系統以及自定義Metrics Sink
第240講-Spark運維管理進階-作業資源排程-靜態資源分配原理
第241講-Spark運維管理進階-作業資源排程-動態資源分配原理
第242講-Spark運維管理進階-作業資源排程-實驗:standalone模式下使用動態資源分配
第243講-Spark運維管理進階-作業資源排程-實驗:yarn模式下使用動態資源分配
第244講-Spark運維管理進階-作業資源排程-多個job資源排程原理
第245講-Spark運維管理進階-作業資源排程-Fair Scheduler使用詳解
Spark2.0(升級內容!)
七、Spark 2.0深入淺出
第246講-Spark 2.0-新特性介紹
第247講-Spark 2.0-新特性介紹-易用性:標準化SQL支援以及更合理的API
第248講-Spark 2.0-新特性介紹-高效能:讓Spark作為編譯器來執行
第249講-Spark 2.0-新特性介紹-智慧化:Structured Streaming介紹
第250講-Spark 2.0-新特性介紹-Spark 1.x的Volcano Iterator Model技術缺陷分析
第251講-Spark 2.0-新特性介紹-whole-stage code generation技術和vectorization技術
第252講-Spark 2.0-Spark 2.x與1.x對比以及分析、學習建議以及使用建議
第253講-Spark 2.0-課程環境搭建:虛擬機器、CentOS、Hadoop、Spark等
第254講-Spark 2.0-開發環境搭建:Eclipse+Maven+Scala+Spark
第255講-Spark 2.0-SparkSession、Dataframe、Dataset開發入門
第256講-Spark 2.0-Dataset開發詳解-初步體驗untypd操作案例:計算部門平均年齡與薪資
第257講-Spark 2.0-Dataset開發詳解-action操作:collect、count、foreach、reduce等
第258講-Spark 2.0-Dataset開發詳解-基礎操作:持久化、臨時檢視、ds與df互轉換、寫資料等
第259講-Spark 2.0-Dataset開發詳解-typed操作:coalesce、repartition
第260講-Spark 2.0-Dataset開發詳解-typed操作:distinct、dropDuplicates
第261講-Spark 2.0-Dataset開發詳解-typed操作:except、filter、intersect
第262講-Spark 2.0-Dataset開發詳解-typed操作:map、flatMap、mapPartitions
第263講-Spark 2.0-Dataset開發詳解-typed操作:joinWith
第264講-Spark 2.0-Dataset開發詳解-typed操作:sort
第265講-Spark 2.0-Dataset開發詳解-typed操作:randomSplit、sample
第266講-Spark 2.0-Dataset開發詳解-untyped操作:select、where、groupBy、agg、col、join
第267講-Spark 2.0-Dataset開發詳解-聚合函式:avg、sum、max、min、count、countDistinct
第268講-Spark 2.0-Dataset開發詳解-聚合函式:collect_list、collect_set
第269講-Spark 2.0-Dataset開發詳解-其他常用函式
第270講-Spark 2.0-Structured Streaming:深入淺出的介紹
第271講-Spark 2.0-Structured Streaming:wordcount入門案例
第272講-Spark 2.0-Structured Streaming:程式設計模型
第273講-Spark 2.0-Structured Streaming:建立流式的dataset和dataframe
第274講-Spark 2.0-Structured Streaming:對流式的dataset和dataframe執行計算操作
第275講-Spark 2.0-Structured Streaming:output mode、sink以及foreach sink詳解
第276講-Spark 2.0-Structured Streaming:管理streaming query
第277講-Spark 2.0-Structured Streaming:基於checkpoint的容錯機制
第278講-Spark面試、簡歷中的專案編寫以及實際生產環境的叢集和資源配置等