如何進行大資料的入門級學習?
一、大資料入門的前期準備工作
1. 瞭解什麼是雲端計算
2. 瞭解什麼是虛擬化
3. 學習Linux作業系統
4. 具備紮實的JAVA基礎
一般的學習方法如下:
1、Linux命令基礎實戰
大資料架構體系結構及開源元件介紹 (要掌握)
Linux基本操作 (常見的Linux命令需要會)
2:Hadoop基礎
Hadoop基礎,對Hadoop架構、核心元件HDFS/YARN做了深入淺出的介紹,讓你快速把握Hadoop的核心技術和工作原理,逐漸形成分散式思維;
Hadoop介紹
Hadoop執行模式
3:Hadoop叢集搭建
Hadoop叢集搭建——安裝Linux虛擬機器
Hadoop叢集搭建——遠端連線
Hadoop叢集搭建(on Linux)——Hadoop(上)
Hadoop叢集搭建(on Linux)——Hadoop(下)
Hadoop叢集搭建(on Mac)——Hadoop
4:HDFS原理
番外篇-課程體系
HDFS架構原理
FS Shell命令介紹及實踐
5:YARN工作原理
YARN的產生背景
YARN的設計思想
YARN的基本架構
YARN的工作流程(小結)
6:Sqoop
Sqoop,作為關係型資料庫與Hadoop之間的橋樑,批量傳輸資料,讓你自然的從關係型資料庫過度到Hadoop平臺,在關係型資料庫與Hadoop之間遊刃有餘的進行資料匯入匯出;
Sqoop & Hive課程內容介紹
Sqoop介紹與安裝
Sqoop的基本使用
Sqoop 匯入引數詳解
Sqoop匯入實戰
Sqoop增量匯入(上)
Sqoop增量匯入(下)
Sqoop匯出實戰(上)
Sqoop匯出實戰(下)
Sqoop Job
7:Hive
Hive,基於Hadoop大資料平臺的資料倉庫,可以讓你實現傳統資料倉庫中的絕大部分資料處理、統計分析,讓你在Hadoop大資料平臺上感受到Hive QL帶來的便利的互動式查詢體驗;Mars將以日誌分析或其他示例帶大家熟練掌握Hive的應用;
Hive架構介紹(一)
Hive架構介紹(二)
Hive環境搭建(一)
Hive環境搭建(二)
Hive CLI初探
Beeline介紹
Hive資料型別
Hive表一——標準建表語句解析&內、外表
Hive表二——檔案及資料格式
Hive分割槽&桶&傾斜概念
Hive表——Alter
Hive檢視&索引簡介
Hive表——show & Desc命令
Hive資料匯入--load
Hive資料匯入--insert
Hive分割槽表實戰
Hive複雜資料型別的巢狀例項
Hive原始碼閱讀環境
Hive執行原理
Hive查詢優化
UDF函式例項
Hive終極例項——日誌分析
(1)網站日誌分析的術語、架構介紹
(2)建表及資料準備
(3)資料處理及統計分析
(4)資料採集到統計分析結果的crontab定時排程
8:HBase
HBase,列式儲存資料庫,提供了快速的查詢方式,是Apache Kylin的預設資料儲存結果;
HBase介紹及架構
HBase安裝
HBase操作實戰
Hive與HBase整合實戰
9:Kylin
Kylin,基於Hadoop的OLAP分析引擎,在Kylin中可以實現傳統OLAP的各種操作,直接讀取Hive的資料或流式資料作為資料來源,把這些資料根據業務模型構建成Cube,Kylin提供了基於Hadoop(MapReduce)的Cube構建,Build完成的Cube資料直接儲存於HBase中。Kylin提供了Web UI供查詢,包括一些圖表展現,是基於大資料的完美OLAP工具;
維度建模
Kylin背景及原理架構
Kylin環境搭建
維度建模知識
Kylin Cube Build步驟解析
Kylin Cube實戰
Kylin 增量Cube
Kylin 優化
10:Spark
Spark,基於記憶體計算的大資料計算引擎,提供了Spark SQL、Spark MLlib(基於Spark的機器學習)、SparkR等框架適應不同的應用需求,Spark專題將和大家一起實踐操作各種應用和演算法;
Spark叢集搭建
Spark Core
Spark WordCount(Spark-shell/pyspark..)
IDEA IntelliJ搭建Spark開發環境
Spark程式設計例項
Spark SQL及DataFrame
Spark SQL例項
Spark Streaming
Spark Streaming例項
Spark MLlib
Spark MLlib應用例項
Spark R介紹
可以基於每個模版去查一些相應的資料 及教程,然後按照操作即可。。。
大資料基礎路線學習圖
大資料學習加群:19942--7210 一起學習資源分享