1. 程式人生 > >推薦BIG DATA Spark 的7本學習電子書籍(大牛專區)

推薦BIG DATA Spark 的7本學習電子書籍(大牛專區)

目錄

Lean Apache Spark 2

本書於2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全書356頁。

通過本書你將學到以下知識:

  • 概述大資料分析及其對組織和資料專業人員的重要性
  • 深入瞭解Spark,瞭解它與現有處理平臺的區別
  • 瞭解各種檔案格式的複雜性,以及如何使用Apache Spark處理它們。
  • 實現如何使用YARN,MESOS或獨立叢集管理器部署Spark。
  • 瞭解Spark SQL,SchemaRDD,快取以及使用Hive和Parquet檔案格式的概念
  • 瞭解Spark MLLib的架構,同時討論Spark附帶的一些現成演算法。
  • 介紹一下SparkR的部署和使用情況。
  • 瞭解圖形計算和市場上可用的圖形處理系統的重要性
  • 通過使用ALS使用Spark構建推薦引擎來檢查Spark的真實示例。
  • 使用Telco資料集,使用隨機森林預測客戶流失。

Apache Spark 2.x Cookbook,第2版

本書適合資料工程師,資料科學家以及那些想使用Spark的讀者。閱讀本書之前最好有Scala的程式設計基礎。通過本書你將學到以下知識:

  • 在AWS上使用各種叢集管理器安裝和配置Apache Spark
  • 為Apache Spark設定開發環境,包括Databricks Cloud筆記本
  • 瞭解如何使用模式在Spark中操作資料
  • 使用Spark Streaming和Structured Streaming掌握實時流分析
  • 使用MLlib掌握監督學習和無監督學習
  • 使用MLlib構建推薦引擎
  • 使用GraphX和GraphFrames庫進行圖形處理
  • 開發一組通用應用程式或專案型別,以及解決複雜大資料問題的解決方案

Learning Spark Streaming

通過本書你將學到以下知識

  • 瞭解Spark流媒體是如何適應全域性的
  • 學習核心概念,如Spark RDDs、Spark流叢集和DStream的基礎知識
  • 瞭解如何建立健壯的部署
  • 深入流演算法
  • 學習如何調優,測量和監測火花流

Apache Spark 2.x for Java Developers

通過本書你將學到以下知識

  • 使用不同的檔案格式處理資料,例如XML、JSON、CSV和純文字,使用Spark core庫。
  • 使用Spark流媒體庫對來自各種資料來源的資料進行分析,例如Kafka和Flume
  • 學習使用各種SQL函式(包括Spark SQL庫中的視窗函式)建立SQL模式和分析結構化資料
  • 在實現機器學習技術以解決實際問題的同時,探索Spark Mlib api
  • 瞭解Spark GraphX,這樣您就可以瞭解使用Spark執行的各種基於圖形的分析

Scala and Spark for Big Data Analytics

通過本書你將學到以下知識

  • 瞭解Scala面向物件和函數語言程式設計的概念
  • 深入瞭解Scala集合api
  • 使用RDD和DataFrame學習Spark的核心抽象
  • 使用SparkSQL和GraphX分析結構化和非結構化資料
  • 使用Spark結構化流進行可伸縮的容錯流應用程式開發
  • 學習機器學習的最佳實踐,分類,迴歸,降維,和推薦系統,以建立預測模型與廣泛使用的演算法在Spark MLlib & ML
    構建叢集模型來叢集大量資料
  • 瞭解Spark應用程式的調優、除錯和監視
    在獨立叢集、Mesos和YARN上部署Spark應用程式

High Performance Spark完整版

本書適合軟體工程師、資料工程師、開發者以及Spark系統管理員的使用。通過本數你可以學到:

  • 瞭解如何使Spark作業執行速度更快;
  • 使用Spark探索資料;
  • 使用Spark處理更大的資料集;
  • 減少管道執行時間以獲得更快的洞察力。

Machine Learning with Spark Second Edition

  • 接觸最新版本的Spark ML
  • 用Scala和Python建立您的第一個Spark程式
  • 在您自己的計算機上以及在Amazon EC2上為Spark設定和配置開發環境
  • 訪問公共機器學習資料集並使用Spark載入、處理、清理和轉換資料
  • 使用Spark機器學習庫通過使用眾所周知的機器學習模型來實現程式
  • 處理大規模的文字資料,包括特徵提取和使用文字資料作為機器學習模型的輸入
  • 編寫Spark函式來評估機器學習模型的效能