1. 程式人生 > >大資料初學者應該怎樣學?

大資料初學者應該怎樣學?

學習大資料的話,可以給你一個大綱,入門可以參考。


 

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

一般的學習方法如下:

1、Linux命令基礎實戰

大資料架構體系結構及開源元件介紹 (要掌握)

Linux基本操作 (常見的Linux命令需要會)

 

2:Hadoop基礎

Hadoop基礎,對Hadoop架構、核心元件HDFS/YARN做了深入淺出的介紹,讓你快速把握Hadoop的核心技術和工作原理,逐漸形成分散式思維;

Hadoop介紹

Hadoop執行模式

 

3:Hadoop叢集搭建

Hadoop叢集搭建——安裝Linux虛擬機器

Hadoop叢集搭建——遠端連線

Hadoop叢集搭建(on Linux)——Hadoop(上)

Hadoop叢集搭建(on Linux)——Hadoop(下)

Hadoop叢集搭建(on Mac)——Hadoop

 

4:HDFS原理

番外篇-課程體系

HDFS架構原理

FS Shell命令介紹及實踐

 

5:YARN工作原理

YARN的產生背景

YARN的設計思想

YARN的基本架構

YARN的工作流程(小結)

 

6:Sqoop

Sqoop,作為關係型資料庫與Hadoop之間的橋樑,批量傳輸資料,讓你自然的從關係型資料庫過度到Hadoop平臺,在關係型資料庫與Hadoop之間遊刃有餘的進行資料匯入匯出;

Sqoop & Hive課程內容介紹

Sqoop介紹與安裝

Sqoop的基本使用

Sqoop 匯入引數詳解

Sqoop匯入實戰

Sqoop增量匯入(上)

Sqoop增量匯入(下)

Sqoop匯出實戰(上)

Sqoop匯出實戰(下)

Sqoop Job

 

7:Hive

Hive,基於Hadoop大資料平臺的資料倉庫,可以讓你實現傳統資料倉庫中的絕大部分資料處理、統計分析,讓你在Hadoop大資料平臺上感受到Hive QL帶來的便利的互動式查詢體驗;Mars將以日誌分析或其他示例帶大家熟練掌握Hive的應用;

Hive架構介紹(一)

Hive架構介紹(二)

Hive環境搭建(一)

Hive環境搭建(二)

Hive CLI初探

Beeline介紹

Hive資料型別

Hive表一——標準建表語句解析&內、外表

Hive表二——檔案及資料格式

Hive分割槽&桶&傾斜概念

Hive表——Alter

Hive檢視&索引簡介

Hive表——show & Desc命令

Hive資料匯入--load

Hive資料匯入--insert

Hive分割槽表實戰

Hive複雜資料型別的巢狀例項

Hive原始碼閱讀環境

Hive執行原理

Hive查詢優化

UDF函式例項

Hive終極例項——日誌分析

(1)網站日誌分析的術語、架構介紹

(2)建表及資料準備

(3)資料處理及統計分析

(4)資料採集到統計分析結果的crontab定時排程

 

8:HBase

HBase,列式儲存資料庫,提供了快速的查詢方式,是Apache Kylin的預設資料儲存結果;

HBase介紹及架構

HBase安裝

HBase操作實戰

Hive與HBase整合實戰

 

9:Kylin

Kylin,基於Hadoop的OLAP分析引擎,在Kylin中可以實現傳統OLAP的各種操作,直接讀取Hive的資料或流式資料作為資料來源,把這些資料根據業務模型構建成Cube,Kylin提供了基於Hadoop(MapReduce)的Cube構建,Build完成的Cube資料直接儲存於HBase中。Kylin提供了Web UI供查詢,包括一些圖表展現,是基於大資料的完美OLAP工具;

維度建模

Kylin背景及原理架構

Kylin環境搭建

維度建模知識

Kylin Cube Build步驟解析

Kylin Cube實戰

Kylin 增量Cube

Kylin 優化

 

10:Spark

Spark,基於記憶體計算的大資料計算引擎,提供了Spark SQL、Spark MLlib(基於Spark的機器學習)、SparkR等框架適應不同的應用需求,Spark專題將和大家一起實踐操作各種應用和演算法;

Spark叢集搭建

Spark Core

Spark WordCount(Spark-shell/pyspark..)

IDEA IntelliJ搭建Spark開發環境

Spark程式設計例項

Spark SQL及DataFrame

Spark SQL例項

Spark Streaming

Spark Streaming例項

Spark MLlib

Spark MLlib應用例項

Spark R介紹

 

 

可以基於每個模版去查一些相應的資料 及教程,然後按照操作即可。。。