1. 程式人生 > >Spark視頻教程|Spark從入門到上手實戰

Spark視頻教程|Spark從入門到上手實戰

spark

Spark從入門到上手實戰
網盤地址:https://pan.baidu.com/s/1uLUPAwsw8y7Ha1qWGjNx7A 密碼:m8l2
備用地址(騰訊微雲):https://share.weiyun.com/55RRnmc 密碼:8qywnp

課程是2017年錄制,還比較新,還是有學習的價值的

課程簡介:
Spark屬於新起的基於內存處理海量數據的框架,由於其快速被眾公司所青睞。Spark 生態棧框架,非常的強大,可以對數據進行批處理、流式處理、SQL 交互式處理及機器學習和Graphx 圖像計算。目前絕大數公司都使用,主要在於 Spark SQL 結構化數據的處理,非常的快速,高性能。

基於Spark Core之上的流式處理和結構化數據查詢,已被眾多公司青睞,在企業中使用最廣泛,很多大數據公司都在將以往RDBMS和 Hive中的數據處理,遷移使用Spark SQL。

課程目錄:

第1章:SCALA編程(一)
1.大數據分析框架概要、Spark課程學習計劃及建議
2.為什麽學習SCALA語言及SCALA語言介紹和學習提綱
3.SCALA環境搭建及IDEA安裝配置(JAVA安裝、SCALA安裝及IDEA安裝))
4.SCALA語言HelloWorld及安裝總結(作業LINUX系統安裝)
5.SCALA中變量的聲明(兩種方式)
6.SCALA中數據類型及操作符
7.IF語句及WHILE循環、循環表達式及FOR基本使用
8.FOR循環深入講解及yield功能
9.SCALA中的Breaks使用
10.函數的定義(如何確定一個函數)
11.函數的定義(各種情況下函數定義與使用)

12.函數的作用域、默認參數函數和名稱參數函數使用詳解
13.變長參數函數和內部函數使用詳解
14.匿名函數定義與使用
15.高階函數定義與使用
16.深入高階函數的使用

第2章:SCALA編程(二)
17.數組Array和ArrayBuffer
18.SCALA中集合類Collections概要講解
19.集合類之List和ListBuffer創建與基本操作
20.集合List中常見高階函數使用詳解(一)
21.集合List中常見高階函數使用詳解(二)
22.SCALA中元組創建與使用
23.集合類之Set及常見函數使用
24.集合類之Map創建與遍歷
25.集合類綜合應用:實現WordCount詞頻統計

26.類Class的定義與創建對象
27.對象object及apply方法
28.類class的構造方法(主構造方法和附屬構造方法)
29.SCALA中的Trait初步使用
30.SCALA中異常的處理及模式匹配初步使用
31.模式匹配之匹配類型、元組

  1. CaseClass及在模式匹配中使用
    33.Option(Some、Node)及模式匹配使用
    34.SCALA中隱式轉換詳解(結合案例)
    35.SCALA中隱式參數詳解(結合案例)
    36.綜合回顧復習SCALA的所有知識要點

第3章:Spark Core(一)
37.SPARK框架學習的基礎及與Spark初步認識
38.Spark Feature詳解及處理數據三步走策略
39.Spark 學習資源、源碼下載及編譯詳解
40.SPARK 安裝目錄及使用的方便優點
41.Local Mode配置、啟動spark-shell及運行程序測試
42.編程實現WordCount程序(類比MapReduce實現思路)
43.Spark Local Mode深入剖析詳解
44.使用IDEA創建MAVEN工程及配置依賴
45.編寫Spark Application開發模板
46.深入WordCount程序分析(sortByKey和top函數使用)
47.如何導入Spark源碼至IDEA中(Windows下)
48.Spark Standalone 集群架構、配置、啟動深入詳解及運行spark-shell測試
49.淺析Spark Application運行Cluster組成及spark-submit提交應用
50.深入剖析Spark Application中Job、Stage和Task關系
51.案例:對原始數據進行清洗過濾及實現每日瀏覽量統計
52.案例:實現每日訪客數統計及使用HiveQL進行結果驗證、打包運行SparkStandalone集群

第4章:Spark Core(二)
53.Spark Application運行的Deploy Mode詳解(結合案例演示)
54.使用spark-submit提交應用運行Standalone集群及性能調優
55.Spark Application運行的EventLog啟用
56.Spark HistoryServer配置及使用
57.RDD是什麽及創建方式
58.RDD操作類型及持久化詳解
59.RDD中常用的Transformation和Action詳解(一)
60.RDD中常用的Transformation和Action詳解(二)
61.案例:分組排序TopKey實現及如何處理數據傾斜(分階段聚合)
62.SparkOnYarn:運行SparkApplication在YARN上(編寫腳本)
63.配置HIstoryServer及運行在YARN的兩種Deploy Mode架構
64.官方案例:讀取日誌數據及正則解析(CASE CLASS)
65.官方案例:依據業務編碼實現及熟悉RDD API
66.官方案例:其他業務編碼實現測試及過濾數據
67.官方案例:RDD#top函數使用(自定義排序規則)及提交運行YARN集群
68.內核調度:Spark Job Scheduler詳解(一)
69.內核調度:Spark Job Scheduler詳解(二)

第5章:Spark SQL
70.SparkSQL的重要性及Spark2.x的生態圈
71.SparkSQL前世今生(Hive、Shark、SparkSQL)及初步使用說明
72.案例分析:基於DataFrame和SQL分析數據(一)
73.案例分析:基於DataFrame和SQL分析數據(二)
74.SparkSQL Introduction及處理數據的方式
75.SparkSQL與Hive集成配置詳解
76.基於SQL和DSL方式分析處理Hive表的數據
77.SparkSQL中提供的spark-sql命令行的使用
78.SparkSQL中ThriftServer配置使用詳解
79.SparkSQL性能優化及DataFrame是什麽
80.SparkSQL讀取多種數據數據實例
81.DataFrame實現多數據源數據的關聯分析
82.SparkSQL讀取AVRO格式數據詳解
83.SparkSQL讀取CSV或TSV格式數據詳解
84.自定義schema的方式轉換RDD為DataFrame及直接運行SQL在數據文件上
85.SparkSQL中自帶函數的使用及如何自定義UDF、註冊和使用
86.Spark 2.x中SparkSQL基本使用(一)
87.Spark 2.x中SparkSQL基本使用(二)

第6章:Spark Streaming及Kafka
88.大數據處理的類型、流式計算的框架及Streaming內容概要
89.SparkStreaming是什麽、使用案例及數據處理流程
90.官方Example案例:詞頻統計運行詳解
91.SparkStreaming編程實現從Socket讀取數據實時統計分析
92.深入SparkStreaming運行的工作原理
93.深度剖析batch interval和block interval及性能優化
94.編程模型:從源碼深入剖析DStream(StreamingContext、DStream操作)
95.深入詳解DStream#foreachRDD使用
96.Apache Kafka介紹及架構詳解
97.Apache Kafka安裝、部署、啟動
98.創建Topic、發送和消費數據及深入理解KAFKA數據的存儲
99.剖析分享Kafka企業技術架構及使用(結合Kafka Meetup分享)
100.SparkStreaming與Flume和Kafka兩種集成方式詳解
101.采用Pull方式與Kafka集成進行數據分析處理
102.狀態Stateful實時統計updataStateByKey使用
103.SparkStreaming實時分析應用的高可用性
104.實時窗口Window統計詳解(reduceByKeyAndWindow使用)

第7章:基於Java和Python的Spark編程
105.基於Java和Python語言的Spark開發的提綱及學習方式
106.基於JAVA語言編寫Spark Application編程模板、讀取數據及測試監控
107.案例WordCount:結合源碼編碼實現JAVA語言編程
108.案例WordCount:對統計的詞頻進行降序排序(涉及TopKey)及作業說明
109.案例分析:基於JAVA實現如何將RDD轉換為DataFrame
110.案例分析:使用SQL進行數據分析
111.案例分析:使用DSL進行數據分析及自定義UDF註冊使用
112.SparkStreaming基於JAVA實現從Socket讀取數據WordCount統計及測試
113.結合案例實現JAVA編程DStream#foreachRDD和從KAFKA讀取數據
114結合案例講解基於JAVA的updateState和window編程及作業
115.Python介紹、Windows下2.7的安裝及測試
116.PyCharm安裝、設置及創建工程和測試
117.PySpark第三方包的安裝配置
118.基於Python的SparkCore編程模板
119.並行化本地集合創建RDD及RDD初步使用
120.Python中函數的定義及匿名函數lambda使用
121.PySpark實現WordCount程序及測試
122.PySpark實現從HDFS讀取數據實現WordCount(屬性配置)
123.深入WordCount程序之SortByKey
124.深入WordCount程序之TopKey
125.Anaconda2版本、安裝、配置、使用及測試(針對pyspark編程)
126.Spark自帶交互式pyspark命令的使用
127.pyspark底層架構及如何提交pyspark程序運行

第8章、SparkCore項目實戰 (2017.8.24新增,加量不加價)

128.項目實戰:離線數據分析平臺架構及處理處理流程
129.項目實戰:如何將RDD數據保存到HBase表中
130:項目實戰:如何從HBase表中讀取數據
131:項目實戰:日誌數據ETL保存到HBase表(一)
132:項目實戰:日誌數據ETL保存到HBase表(二)
133:項目實戰:日誌數據ETL保存到HBase表(三)
134:項目實戰:日誌數據ETL保存到HBase表(四)
135:項目實戰:從HBase表讀取數據進行新增用戶統計分析(一)
136:項目實戰:從HBase表讀取數據進行新增用戶統計分析(二)
137:項目實戰:從HBase表讀取數據進行新增用戶統計分析(三)
138:項目實戰:從HBase表讀取數據進行新增用戶統計分析(四)
139:項目實戰:部署運行(CLASSPATH設置)及Executor內存使用優化

Spark視頻教程|Spark從入門到上手實戰