1. 程式人生 > >《Spark MLlib機器學習實踐》內容簡介、目錄

《Spark MLlib機器學習實踐》內容簡介、目錄



Spark作為新興的、應用範圍最為廣泛的大資料處理開源框架引起了廣泛的關注,它吸引了大量程式設計和開發人員進行相關內容的學習與開發,其中 MLlib是 Spark框架使用的核心。本書是一本細緻介紹 Spark MLlib程式設計的圖書,入門簡單,示例豐富。

本書分為 12章,從 Spark基礎安裝和配置開始,依次介紹 MLlib程式設計基礎、MLlib的資料物件構建、MLlib中 RDD使用介紹,各種分類、聚類、迴歸等資料處理方法,最後還通過一個完整的例項,回顧了前面的學習內容,並通過程式碼實現了一個完整的分析過程。 本書理論內容由淺而深,採取例項和理論相結合的方式,內容全面而詳盡,講解細緻直觀,適合 Spark MLlib初學者、大資料分析和挖掘人員,也適合高校和培訓學習相關專業的師生教學參考。

   

目錄
第1章 星星之火
1.1 大資料時代
1.2 大資料分析時代
1.3 簡單、優雅、有效——這就是Spark
1.4 核心——MLLib
1.5 星星之火,可以燎原
1.6 小結
第2章 Spark安裝和開發環境配置
2.1 Windows單機模式Spark安裝和配置
2.1.1 Windows 7安裝Java
2.1.2 Windows 7安裝Scala
2.1.3 Intellij IDE下載和安裝
2.1.4 Intellij IDE中Scala外掛的安裝
2.1.5 Spark單機版安裝
2.2 經典的WordCount
2.2.1 Spark實現WordCount
2.2.2 MapReduce實現WordCount
2.3 小結
第3章 RDD詳解
3.1 RDD是什麼
3.1.1 RDD名稱的祕密
3.1.2 RDD特性
3.1.3 與其他分散式共享記憶體的區別
3.1.4 RDD缺陷
3.2 RDD工作原理
3.2.1 RDD工作原理
3.2.2 RDD的相互依賴
3.3 RDD應用API詳解
3.3.1 使用aggregate方法對給定的資料集進行方法設定
3.3.2 提前計算的的cache方法
3.3.3 笛卡爾操作的cartesian方法
3.3.4 分片儲存的coalesce方法
3.3.5 以value計算的countByValue方法
3.3.6 以key計算的countByKey方法
3.3.7 出去資料集中重複項的distinct方法
3.3.8 過濾資料的filter方法
3.3.9 以行為單位操作資料的flatMap方法
3.3.10 以單個數據為目標進行操作的map方法
3.3.11 分組資料的groupBy方法
3.3.12 生成鍵值對的keyBy方法
3.3.13 同時對兩個資料進行處理的reduce方法
3.3.14 對資料進行重新排序的sortBy方法
3.3.15 合併壓縮的zip方法
3.4 小結
第4章 MLLib基本概念
4.1 MLLib基本資料型別
4.1.1 多種資料型別
4.1.2 從本地向量集起步
4.1.3 向量標籤的使用
4.1.4 本地矩陣的使用
4.1.5 分散式矩陣的使用
4.2 MLLib數理統計基本概念
4.2.1 基本統計量
4.2.2 統計量基本資料
4.2.3 距離計算
4.2.4 兩組資料相關係數計算
4.2.5 分層抽樣
4.2.6 假設檢驗
4.2.7 隨機數
4.3 小結
第5章 協同過濾演算法
5.1何為協同過濾
5.1.1 何為協同過濾
5.1.2 何為基於使用者的推薦
5.1.3 何為基於物品的推薦
5.1.4 協同過濾演算法的不足
5.2 相似度度量
5.2.1 基於歐幾里得距離的相似度計算
5.2.2 基於餘弦角度的相似度計算
5.2.3 歐幾里得相似度與餘弦相似度的比較
5.2.4 第一個例子——餘弦相似度實戰
5.3 MLLib中的交替最小二乘法(ALS演算法)
5.3.1 最小二乘法(LS演算法)詳解
5.3.2 MLLib中交替最小二乘法(ALS演算法)詳解
5.3.3 ALS演算法實戰
5.4 小結
第6章 MLLIB線性迴歸理論與實戰
6.1 隨機梯度下降演算法詳解
6.1.1 道士下山的故事
6.1.2 隨機梯度下降演算法的理論基礎
6.1.3 隨機梯度下降演算法實戰
6.2 MLLib迴歸的過擬合
6.2.1 過擬合產生的原因
6.2.2 lasso迴歸與嶺迴歸
6.3 MLLib線性迴歸實戰
6.3.1 MLLib線性迴歸基本準備
6.3.2 MLLib線性迴歸實戰:商品價格與消費者收入之間的關係
6.3.3 對擬合曲線的驗證
6.4 小結
第7章 MLLib分類實戰
7.1 邏輯迴歸詳解
7.1.1 邏輯迴歸不是迴歸演算法
7.1.2 邏輯迴歸的數學基礎
7.1.3 一元邏輯迴歸示例
7.1.4 多元邏輯迴歸示例
7.1.5 MLLib邏輯迴歸驗證
7.1.6 MLLib邏輯迴歸例項-胃癌的轉移判斷
7.2 支援向量機詳解
7.2.1 三角還是圓
7.2.2 支援向量機的數學基礎
7.2.3 支援向量機使用示例
7.2.4 使用支援向量機分析胃癌轉移
7.3 樸素貝葉斯詳解
7.3.1 穿褲子的男生or女生
7.3.2 貝葉斯定理的數學基礎和意義
7.3.3 樸素貝葉斯定理
7.3.4 MLLib樸素貝葉斯使用示例
7.3.5 MLLib樸素貝葉斯實戰——“殭屍粉”的鑑定
7.4 小結
第8章 決策樹與保序迴歸
8.1 決策樹詳解
8.1.1 水晶球的祕密
8.1.2 決策樹的演算法基礎-資訊熵
8.1.3 決策樹的演算法基礎——ID3演算法
8.1.4 MLLib中決策樹的構建
8.1.5 MLLib中決策樹示例
8.1.6 隨機雨林與梯度提升演算法(GBT)
8.2 保序迴歸詳解
8.2.1 何為保序迴歸
8.2.2 保序迴歸示例
8.3 小結
第9章 MLLib中聚類詳解
9.1 聚類與分類
9.1.1 什麼是分類
9.1.2 什麼是聚類
9.2 MLLib中的Kmeans演算法
9.2.1 什麼是kmeans演算法
9.2.2 MLLib中kmeans演算法示例
9.2.3 Kmeans演算法中細節的討論
9.3 高斯混合聚類
9.3.1 從高斯分佈聚類起步
9.3.2 混合高斯聚類
9.3.3 MLLib高斯混合模型使用示例
9.4 快速迭代聚類
9.4.1 快速迭代聚類理論基礎
9.4.2 快速迭代聚類示例
9.5 小結
第10章 MLLib中關聯規則
10.1 Apriori頻繁項集演算法
10.1.1 啤酒與尿布
10.1.2 經典的Apriori演算法
10.1.3 Apriori演算法示例
10.2 FP-growth演算法
10.2.1 Apriori演算法的侷限性
10.2.2 FP-growth演算法
10.2.3 FP樹示例
10.3 小結
第11章 資料降維
11.1 奇異值分解(SVD)
11.1.1 行矩陣(RowMatrix)詳解
11.1.2 奇異值分解演算法基礎
11.1.3 MLLib中奇異值分解示例
11.2 主成分分析(PCA)
11.2.1 主成分分析(PCA)的定義
11.2.2 主成分分析(PCA)的數學基礎
11.2.3 MLLib中主成分分析(PCA)示例
11.3 小結
第12章 特徵提取和轉換
12.1 TF-IDF
12.1.1 如何查詢我要的新聞
12.1.2 TF-IDF演算法的數學計算
12.1.3 MLLib中TF-IDF示例
12.2 詞向量化工具
12.2.1 詞向量化基礎
12.2.2 詞向量化使用示例
12.3 基於卡方檢驗的特徵選擇
12.3.1 “吃貨”的苦惱
12.3.2 MLLib中基於卡方檢驗的特徵選擇示例
12.4 小結
第13章 MLLib實戰演練——鳶尾花分析
13.1 建模說明
13.1.1 資料的描述與分析目標
13.1.2 建模說明
13.2 資料預處理和分析
13.2.1 微觀分析——均值與方差的對比分析
13.2.2 巨集觀分析——不同種類特性的長度計算
13.2.3 去除重複項——相關係數的確定
13.3 長與寬之間的關係——資料集的迴歸分析
13.3.1 使用線性迴歸分析長與寬之間的關係
13.3.1 使用邏輯迴歸分析長與寬之間的關係
13.4 使用分類和聚類對鳶尾花資料集進行處理
13.4.1 使用聚類分析對資料集進行聚類處理
13.4.2 使用分類分析對資料集進行分類處理
13.5 最終的判定——決策樹測試
13.5.1 決定資料集的歸類——決策樹
13.5.2 決定資料集歸類的分散式方法——隨機雨林
13.6 小結