1. 程式人生 > >Cloudera Developer之Spark 及 Hadoop 開發員培訓(CCA-175)

Cloudera Developer之Spark 及 Hadoop 開發員培訓(CCA-175)

環境 課堂 nbsp 教材 vro tro 數據處理 操作 上海

學習如何將數據導入到 Apache Hadoop 機群並使用 Spark、Hive、Flume、Sqoop、Impala 及其他 Hadoop 生態系統工具對數據進行各種操作和處理分析。

詳情:https://www.huodongjia.com/event-1838227010.html

技術分享

在為期四天的培訓中,學員將學習關鍵概念和掌握使用最新技術和工具將數據采集到 Hadoop 機群並進行處理。通過學習掌握諸如 Spark、Hive、Flume、Sqoop 和 Impala 這樣的 Hadoop 生態系統工具和技術,Hadoop 開發員將具備解決實際大數據問題和挑戰的能力。本課程包含了大量的實操及編程練習來幫助學員熟悉並掌握各種工具,並最終獲得在實際工作中針對特定的問題或場景來選取最佳解決工具或技術的能力。

“通過 Cloudera 的培訓,讓我們在使用大數據核心平臺 Hadoop 方面,能把握現在、更能信心百倍地在未來面對和贏得更多的大數據挑戰。”

——Persado

培訓內容

通過講師在課堂上的講解,以及實操練習,學員將學習 Apache Spark 及如何將其集成到整個 Hadoop 生態系統中去,包括以下內容:

  • 數據是如何在 Hadoop 機群裏進行分布式存儲及處理的

  • 如何使用 Sqoop 和 Flume 導入數據

  • 如何使用 Apache Spark 處理分布式數據

  • 如何使用 Impala 及 Hive 將結構化數據建模成表並進行分析查詢

  • 如何根據數據使用場景來確定最佳存儲格式

  • 數據存儲最佳實踐

培訓對象及學員基礎

本課程適合準備報考 CCA Spark 及 Hadoop 開發員認證考試的技術人員。雖然通過該認證考試,考生仍然需要做進一步的學習和準備,但是本課程涵蓋了在該認證考試中考核的很多主題和知識點。

在參加完本培訓後,我們建議學員參加此課程的一個後繼課程:“設計和創建大數據應用”。

課程介紹

Hadoop 及生態系統介紹

  • 傳統大規模系統的問題

  • Hadoop !

  • Hadoop 生態系統

Hadoop 體系結構及 HDFS

  • 機群環境下的分布式處理

  • 存儲:HDFS 體系結構

  • 存儲:使用 HDFS

  • 資源管理:YARN 體系結構

  • 資源管理:使用 YARN

使用 Apache Sqoop 導入關系數據

  • Sqoop 簡介

  • 數據的基本導入導出

  • 減少傳輸的數據量

  • 改善 Sqoop 性能

  • Sqoop 2

Impala 及 Hive 介紹

  • 簡介

  • 為什麽使用 Impala 及 Hive

  • Hive 和傳統數據庫的比較

  • Hive 應用場景

使用 Impala 及 Hive 管理數據及建模

  • 數據存儲

  • 創建數據庫及表

  • 表數據導入

  • HCatalog

  • Impala 元數據緩存

數據格式

  • 選擇文件格式

  • 支持不同文件格式的工具

  • Avro 數據格式定義模式

  • 在 Hive 及 Sqoop 裏使用 Avro

  • Avro 格式數據模式變更

  • 壓縮

數據分區

  • 分區概述

  • Impala 及 Hive 裏的數據分區

Apache Flume 實時數據采集

  • 什麽是 Apache Flume

  • Flume 基本體系結構

  • Flume 源

  • Flume 槽

  • Flume 通道

  • Flume 配置

Spark 基礎

  • 什麽是 Apache Spark

  • 使用 Spark Shell

  • RDDs( 可恢復的分布式數據集)

  • Spark 裏的函數式編程

Spark RDD

  • RDD

  • 鍵值對 RDD

  • MapReduce

  • 其他鍵值對 RDD 操作

編寫和部署 Spark 應用

  • Spark 應用對比 Spark Shell

  • 創建 SparkContext

  • 創建 Spark 應用(Scala 和 Java)

  • 運行 Spark 應用

  • Spark 應用 WebUI

  • 配置 Spark 屬性

  • 運行日誌

Spark 的並行處理

  • 回顧:機群環境裏的Spark

  • RDD 分區

  • 基於文件RDD 的分區

  • HDFS 和本地化數據

  • 執行並行操作

  • 執行階段及任務

Spark 緩存和持久化

  • RDD 演變

  • 緩存

  • 分布式持久化

Spark 數據處理的常見模式

  • 常見 Spark 應用案例

  • 叠代式算法

  • 圖處理及分析

  • 機器學習

  • 例子:K -Means

預覽:Spark SQL

  • Spark SQL 和 SQL Context

  • 創建 DataFrames

  • 變更及查詢 DataFrames

  • 保存 DataFrames

  • Spark SQL 對比 Impala

總結

培訓費用

8500元/人次,包含一次對應的考試(如果來參加培訓的人不考試,僅參加培訓的價格為6500/人次)

費用包含:教材、實驗手冊、虛擬機、稅票費用(8500是含考試的)

教室設施:投影、WiFi、排插、飲水(三餐及住宿請自理)

PS:上課時需攜帶筆記本電腦,虛擬機及課件由講師發放

CCA Spark and Hadoop Developer (CCA175) 開發者認證

認證準備建議:Spark and Hadoop開發者培訓

考試形式:120分鐘;70%通過;解決10~12基於CDH5機群上需通過實際操作的問題

培訓報名指南>>>>https://www.huodongjia.com/event-1838227010.html

相關培訓:

Cloudera Developer training for Spark and Hadoop(CCA-175) 2017-09-27 上海

Cloudera Administrator Training for Apache Hadoop(CCA131) 2017-09-18 北京

Cloudera Developer之Spark 及 Hadoop 開發員培訓(CCA-175)