推薦BIG DATA Spark 的7本學習電子書籍(大牛專區)
阿新 • • 發佈:2018-12-25
目錄
Lean Apache Spark 2
本書於2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全書356頁。
通過本書你將學到以下知識:
- 概述大資料分析及其對組織和資料專業人員的重要性
- 深入瞭解Spark,瞭解它與現有處理平臺的區別
- 瞭解各種檔案格式的複雜性,以及如何使用Apache Spark處理它們。
- 實現如何使用YARN,MESOS或獨立叢集管理器部署Spark。
- 瞭解Spark SQL,SchemaRDD,快取以及使用Hive和Parquet檔案格式的概念
- 瞭解Spark MLLib的架構,同時討論Spark附帶的一些現成演算法。
- 介紹一下SparkR的部署和使用情況。
- 瞭解圖形計算和市場上可用的圖形處理系統的重要性
- 通過使用ALS使用Spark構建推薦引擎來檢查Spark的真實示例。
- 使用Telco資料集,使用隨機森林預測客戶流失。
Apache Spark 2.x Cookbook,第2版
本書適合資料工程師,資料科學家以及那些想使用Spark的讀者。閱讀本書之前最好有Scala的程式設計基礎。通過本書你將學到以下知識:
- 在AWS上使用各種叢集管理器安裝和配置Apache Spark
- 為Apache Spark設定開發環境,包括Databricks Cloud筆記本
- 瞭解如何使用模式在Spark中操作資料
- 使用Spark Streaming和Structured Streaming掌握實時流分析
- 使用MLlib掌握監督學習和無監督學習
- 使用MLlib構建推薦引擎
- 使用GraphX和GraphFrames庫進行圖形處理
- 開發一組通用應用程式或專案型別,以及解決複雜大資料問題的解決方案
Learning Spark Streaming
通過本書你將學到以下知識
- 瞭解Spark流媒體是如何適應全域性的
- 學習核心概念,如Spark RDDs、Spark流叢集和DStream的基礎知識
- 瞭解如何建立健壯的部署
- 深入流演算法
- 學習如何調優,測量和監測火花流
Apache Spark 2.x for Java Developers
通過本書你將學到以下知識
- 使用不同的檔案格式處理資料,例如XML、JSON、CSV和純文字,使用Spark core庫。
- 使用Spark流媒體庫對來自各種資料來源的資料進行分析,例如Kafka和Flume
- 學習使用各種SQL函式(包括Spark SQL庫中的視窗函式)建立SQL模式和分析結構化資料
- 在實現機器學習技術以解決實際問題的同時,探索Spark Mlib api
- 瞭解Spark GraphX,這樣您就可以瞭解使用Spark執行的各種基於圖形的分析
Scala and Spark for Big Data Analytics
通過本書你將學到以下知識
- 瞭解Scala面向物件和函數語言程式設計的概念
- 深入瞭解Scala集合api
- 使用RDD和DataFrame學習Spark的核心抽象
- 使用SparkSQL和GraphX分析結構化和非結構化資料
- 使用Spark結構化流進行可伸縮的容錯流應用程式開發
- 學習機器學習的最佳實踐,分類,迴歸,降維,和推薦系統,以建立預測模型與廣泛使用的演算法在Spark MLlib & ML
構建叢集模型來叢集大量資料 - 瞭解Spark應用程式的調優、除錯和監視
在獨立叢集、Mesos和YARN上部署Spark應用程式
High Performance Spark完整版
本書適合軟體工程師、資料工程師、開發者以及Spark系統管理員的使用。通過本數你可以學到:
- 瞭解如何使Spark作業執行速度更快;
- 使用Spark探索資料;
- 使用Spark處理更大的資料集;
- 減少管道執行時間以獲得更快的洞察力。
Machine Learning with Spark Second Edition
- 接觸最新版本的Spark ML
- 用Scala和Python建立您的第一個Spark程式
- 在您自己的計算機上以及在Amazon EC2上為Spark設定和配置開發環境
- 訪問公共機器學習資料集並使用Spark載入、處理、清理和轉換資料
- 使用Spark機器學習庫通過使用眾所周知的機器學習模型來實現程式
- 處理大規模的文字資料,包括特徵提取和使用文字資料作為機器學習模型的輸入
- 編寫Spark函式來評估機器學習模型的效能