40個大資料學習資源，個個是乾貨，最後7個太給力

阿新 • • 發佈：2018-12-12

“資料是驅動商業向前發展的核心，更是人類社會的未來。”

儘管將馬雲的這句話斷章取義地拿出來說會顯得唐突，但這話所表達的意思卻顯而易見。今天給大家分享的這40個教程，送給對未來抱有遠見的樂觀主義者，涵蓋了大資料入門的大多基礎知識，從Java基礎到Scala，Hadoop，Hbase，Mhout，Sqoop以及Spark等等。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙： 957205962，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份2018最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴

Vim編輯器

本教程的正確食用姿勢：教程大都是公開免費資源（僅有一小撮需要會員許可權）。區別於目前所有主流教程，該教程的核心就是動手！跟著文件說明，在線上的Linux系統中一步一步地敲出基礎知識，各種有趣專案；走出只看書、看視訊卻不動手的禁區，你會比別人學的更快的，放心。

Java基礎

Java程式語言（新版）

介紹 Java 語言基本語法、Java 平臺應用、 Java 的核心概念：JVM、JDK、JRE以及 java 面向物件思想。同時我們會學到如何在系統中搭建 Java 開發環境，以及如何利用第三方工具進行 Java 程式的開發。

Java進階之設計模式

介紹常用的設計模式以及 Java 語言的實現例項來學習 java 設計模式。從中我們可以學習到很多型別的設計模式，其中包括工廠模式、抽象工廠模式、單例模式、介面卡模式、觀察者模式、裝飾者模式等等。

JDK 核心 API

學習包括 java.lang 包，java.util 包，java.io 包，swing以及多執行緒的相關知識。

JDBC 入門教程

通過學習 JDBC 定義和架構，回顧 SQL 語法，搭建 JDBC 的環境，通過例項來深入學習 JDBC。從中我們將學習到如何用 java 連線到資料庫，並練習編寫了一個資訊管理的程式，在此基礎上可以提高自己的資料庫管理能力。

Java 8 新特性指南

介紹了 Lambda 表示式、函式式介面、Stream 流和 Date/Time API 等相關知識點。難度一般，適用於Java初學者或者是具有一定程式設計經驗的開發者。

Scala基礎

Scala 開發教程

Scala 是一門多正規化的程式語言，類似於 Java 。設計初衷是實現可伸縮的語言、並整合面向物件程式設計和函數語言程式設計的各種特性。

Scala 專題教程 - Case Class和模式匹配

本教程側重介紹Scala的case class和pattern matching（模式匹配），這兩個程式結構對於處理樹結構的資料非常有幫助。你將可以學習到模式匹配中的常量模式、通配模式和變數模式等。

Scala 專題教程 - 隱式變換和隱式引數

主要介紹 Scala 中可以讓函式庫呼叫變得更加方便的隱式變換和隱式引數，以及如何通過它們來避免一些繁瑣和顯而易見的細節問題。

Scala 專題教程 - 抽象成員

主要介紹 Scala 中的抽象成員用法。在本教程中，你將可以學到如何使用 Type 成員，以及抽象 vals 變數的初始化方法等要點。

Scala 專題教程 - Extractor

本教程側重講解 Scala 中的 Extractor ，它可以將資料模型和檢視邏輯分離，在 Scala 體系中充當類似於介面卡的角色，是一種極具函式式的做法。你將可以在課程中學到如何定義和設定 Extractor 。

Scala 開發二十四點遊戲

24 點是一種數學遊戲，正如象棋、圍棋一樣是一種人們喜聞樂見的娛樂活動。它始於何年何月已無從考究，但它以自己獨具的數學魅力和豐富的內涵正逐漸被越來越多的人們所接受。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙： 957205962，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份2018最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴

Hadoop技術模組

Hadoop部署及管理

Hadoop是一款支援資料密集型分散式應用並以Apache 2.0許可協議釋出的開源軟體框架，本實驗學習並實踐Hadoop系統的不同模式的部署，以及基本的系統使用與管理。

Hadoop入門進階課程

涵蓋了大資料領域常見的元件，如Hadoop，Mapreduce，HBase，Mahout，Pig，Hive，Sqoop等。首先從理論上進行介紹，然後讓您在實驗環境中一步步搭建，及相應的案例學習。

HBASE 教程

HBase是一個開源的非關係型分散式資料庫（NoSQL），是Hadoop專案的一部分，運行於HDFS檔案系統之上，為 Hadoop 提供類似於BigTable 規模的服務。

Hadoop 分散式檔案系統——匯入和匯出資料

一個經典的資料架構中，Hadoop 是處理複雜資料流的核心。資料往往是從許多分散的系統中收集而來，並匯入 Hadoop 分散式檔案系統（HDFS）中，通過 MapReduce 或者其他基於MapReduce 封裝的語言進行處理，將這些已經過濾、轉換和聚合過的結果匯出到一個或多個外部系統中。

使用 Flume 收集資料

Flume 可以從多個數據源獲取資料，把這些資料傳給遠端主機（可能是一對多或流水線模型中的多個目標），再把它們傳給多個目的端。儘管 Flume 提供了開發自定義資料來源和資料目的端的程式設計 API，但它原本就支援許多常見的場景。

Kafka快速上手教程

介紹 Kafka 及實現原理，然後講解 Kafka 整合 Flume ，KafkaOffsetMonitor 安裝及使用，案例演示，學習完本教程，你將對kafka有深入的瞭解，很快上手。

基於 Hadoop 對武俠小說進行詞頻分析

利用實驗樓提供的 Hadoop 環境，對一本武俠小說的文集進行簡單的 WordCount 詞頻統計，從而得到該書中出現頻次最高的人名。需要一定的 Hadoop 和 MapReduce 基礎。

Hadoop 圖處理--《hadoop應用框架》

對於圖處理，hadoop的mapreduce提供一層合併，這表明我們不得不像剝洋蔥一樣來處理圖資料，Giraph 是 Google Pregel 的一種開源實現。本教程將基於hadoop平臺實現Giraph 分散式系統中的圖處理。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙： 957205962，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份2018最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴

Spark技術模組

Spark2.x 快速入門教程

Spark進入2.0時代，引入了很多優秀特性，效能上有較大提升，API更易用。在“程式設計統一”方面非常驚豔，實現了離線計算和流計算API的統一，實現了Spark sql和Hive Sql操作API的統一。真正做到了“更簡單、更快速、更智慧”！

Spark 大資料動手實驗

9個實驗帶你親身體驗Spark大資料分析的魅力，最快的上手教程，最新的技術領域，最多的動手實踐。

Spark 基礎之 GraphX 圖計算框架學習

GraphX通過RDD的擴充套件，在其中引入了一個新的圖抽象，即頂點和邊帶有特性的有向多重圖，提供了一些基本運算子和優化了的Pregel API，來支援圖計算。

流式實時日誌分析系統——《Spark 最佳實踐》

我們將基於 Spark Streaming 流式計算框架，簡單地實現一個類似於百度分析的系統。本教程源自圖靈教育的《Spark 最佳實踐》第6章第3節，感謝圖靈教育授權實驗樓釋出。

Spark 基礎之 DataFrame 基本概念學習

針對飛行準點率資料集，通過一些簡單的分析任務來學習 DataFrame 的由來、構建方式以及一些常用操作。在本教程中，你可以瞭解到 Spark 生態體系中，核心的 RDD 與 DataFrame 之間的區別和聯絡。

Spark 基礎之 DataFrame 高階應用技巧

通過更加深入的講解，使用真實的 SFPD 資料集，結合實際問題的分析過程，帶你學習 DataFrame 的建立方式、常用操作、UDF 自定義函式和重分割槽相關知識。

Spark 基礎之 Streaming 快速上手

Spark Streaming 是 Spark 引擎的一種擴充套件，適用於實時處理流式資料。本教程將帶你學習 Spark Streaming 的工作機制，瞭解 Streaming 應用的基本結構，以及如何在 Streaming 應用中附加 SQL 查詢。

Spark 基礎之 SQL 快速上手

你將可以學習到 Spark SQL 的基礎概念，瞭解如何利用 SQL Context 及相關的 API 進行統計分析。最後還將通過一個分析股票價格與石油價格關係的例項，進一步學習如何利用 Spark SQL 分析資料。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙： 957205962，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份2018最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴

Spark 基礎之使用機器學習庫 MLlib

你將可以學習到 Spark 的機器學習庫—— MLlib 的相關知識，瞭解 MLlib 與 ML 之間的區別和聯絡，掌握 MLlib 中的幾個基本資料型別。同時，還將通過一個電影推薦的例項，講解如何利用機器學習演算法解決實際問題。

Spark 基礎之 SparkR 快速上手

學習 Spark 平臺中對於 R 語言的支援前端——SparkR。教程將會講解到如何在 SparkR 中建立和操作 DataFrame、如何執行 SQL 查詢，以及如何利用機器學習相關的 API。

使用 Spark 和 D3.js 分析航班大資料

將通過一個航班資料分析例項來學習 Spark 綜合技巧和資料視覺化技術。在航班資料分析實驗中，可以學習到如何使用 OpenRefine 進行簡單的資料清洗，以及如何通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具，對航班起降的記錄資料進行分析，嘗試找出造成航班延誤的原因，以及對航班延誤情況進行預測。