1. 程式人生 > >Spark2.x 機器學習視頻教程

Spark2.x 機器學習視頻教程

訓練集 rms 評估 rdd word 介紹 需要 協同過濾算法 持久化

Spark2.x 機器學習視頻教程
講師:軒宇老師
鏈接:https://pan.baidu.com/s/1TcFl6KDjxJS597TxYFSCOA 密碼:3t2z

本課程講解Spark 在機器學習中的應用,並介紹如何從各種公開渠道獲取用於機器學習系統的數據。內容涵蓋推薦系統、回歸、聚類、分類等經典機器學習算法及其實際應用,涵蓋使用Spark ML Pipeline API創建和調試機器學習流程,內容更加系統、全面、與時俱進,適合所有欲借助Spark來實現常見機器學習應用的開發者。

本課程主要講解基於Spark 2.x的機器學習庫,MLlib實現了常用的機器學習,如:聚類、分類、回歸等6大算法,使用Kaggle競賽數據集模型構建。

本課拒絕枯燥的講述,將循序漸進從Spark2.x的基礎知識開始,然後再透徹講解各個算法的理論、詳細展示Spark實現,最後均會通過實例進行解析實戰,幫助大家真正從理論到實踐全面掌握Spark MLlib分布式機器學習。

通過該課程的學習同學們可以全面掌握Spark MLlib機器學習,進而能夠在實際工作中進行ML的應用開發和定制開發。

課程目錄:

第一章:Spark 構建協同過濾ALS推薦模型
第1節、推薦系統概述及ALS算法剖析
1、Spark MLlib機器學習庫兩類API及常見四大類算法回顧說明
2、通過JD推薦和亞馬遜圖書推薦剖析推薦系統功能及核心點:相似度
3、分享淘寶推薦系統及協同過濾推薦核心思想及用戶對產品的評分分類

4、協同過濾推薦算法ALS核心剖析(將稀疏矩陣分解為用戶因子矩陣和產品因子矩陣)
5、Spark MLlib中基於RDD的ALS算法相關類的實現深入剖析

第2節、基於MovieLens電影推薦和模型評估RMSE
1、基於MovieLens電影評分數據使用ALS算法訓練模型並查看因子舉證
2、將MatrixFactorizeModel對用戶產品預測評價和為用戶、產品進行推薦及保存加載模型
3、如何評估模型為最佳模型(均方根誤差RMSE)及通過調整數據集和算法超參數獲取最佳模型

第3節、基於Audioscrobbler音樂推薦及模型調優
1、回顧復習協同過濾算法核心要點及ALS算法矩陣分解
2、使用Scala語言開發對音樂推薦數據訓練模型(ALS中隱式評價函數)

3、組合ALS算法中多個超參數訓練模型、評估模型找到最佳模型
4、綜合分析不同超參數組合訓練不同模型狀況(顯示與隱式)

第二章:Spark 構建分類模型
第1節、分類算法概述及鳶尾花數據集分類
1、Spark MLlib中支持的分類算法(SVM、LR、NB和DT)和集成分類算法(RF和GBDT)及決策樹核心剖析
2、分類算法數據格式LabeledPoint及鳶尾花數據調研
3、讀取鳶尾花數據構建特征數據Features和標簽label、劃分數據集為訓練集和測試集
4、使用邏輯回歸算法訓練模型(二分類,調整數據集)及預測分類
5、使用樸素貝葉斯和決策樹回歸算法訓練鳶尾花數據集並預測計算精確度ACC

第2節、Kaggle競賽Titanic數據集預測生存預測
1、回顧復習Spark MLlib中分類算法、機器學習三要素及特征表示Vector
2、Kaggle競賽Titanic生存預測數據集調研及自定義Schema讀取
3、構建分類算法提取特征和數據格式LabeledPoint標簽向量
4、劃分數據集、使用二分類算法LR算法訓練模型和計算評估指標AUC
5、使用二分類算法LR、DT及RF和GBT算法分別訓練模型和計算AUC值比較
6、類別特征使用1-of-K方法轉換及Titanic數據中Sex轉換與測試
7、對Titanic數據中Age特征字段劃分範圍及使用1-of-K轉換特征(使用DT和RF進行分類訓練)

第3節、新聞數據NewsCorpora文本分類
1、文本特征提取詞袋模型BOW及TF-IDF加權方式剖析
2、針對新聞分類數據集使用樸素貝葉斯算法訓練模型和預測分類(一)
3、針對新聞分類數據集使用樸素貝葉斯算法訓練模型和預測分類(二)
4、樸素貝葉斯算法超參數解釋說明及分類模型評估指標精確度與混淆矩陣說明
5、Word2Vec算法模型將文本轉換為單詞向量及查找某單詞相似單詞

第三章:Spark 構建回歸模型
第1節、回歸算法概述及BikeSharing數據集訓練模型
1、Spark MLlib中支持的回歸算法及共享單車數據集調研分析與讀取
2、針對共享單車數據集選取特征(8個類別特征和4個數值特征)及構建RDD數據集
3、使用決策樹回歸算法訓練模型及計算RMSE值評估模型
4、模型優化兩板斧:特征數據及算法超參數、使用隨機森林RF回歸算法訓練模型及調整參數評估模型
5、使用線性回歸算法訓練共享單車數據(類別特征未處理)及引出類別特征處理重要性
6、定義函數轉換8個類別特征及使用線性回歸算法訓練模型及RMSE評估

第2節:線性回歸模型深入剖析(Ridge和Lasso)
1、復習Spark MLlib中三個回歸算法及從源碼引入模型過擬合及泛化能力(深入剖析)
2、線性回歸正則化Regularization損失函數及L1和L2兩種 正則化方式
3、從線性回歸算法源碼剖析SGD方法參數說明及正則化參數含義說明
4、線性回歸算法、Lasso算法及Ridge回歸算法分別使用訓練數據訓練模型及調整參數訓練比較

第四章:Spark 構建聚類KMeans模型
第1節:聚類KMeans對出租車軌跡聚類
1、機器學習算法分類、非監督學習中聚類算法是什麽及以KMeans為例講解聚類和數據格式Vector
2、深入剖析KMeans算法如何進行聚類操作及出租車軌跡數據說明
3、使用KMeans算法對出租車軌跡數據進行聚類和找出10個類簇中心
4、使用KMeans模型預測測試數據集所屬類簇
第2節:基於DataFrame構建KMeans模型
1、基於DataFrame API機器學習庫使用三要點
2、基於DataFrame的KMeans算法針對出租車軌跡數據聚類

第五章:Spark 構建關聯規則模型
第1節、使用FP-Growth進行關聯規則推薦
1、關聯規則算法概述及重要概念剖析(支持度、置信度和提升度)
2、使用FPGrowth算法構建模型獲取頻繁項集
3、依據FPGrowthModel生成關聯規則AssociationRules
4、使用RDD聚合函數,依據關聯規則,針對業務,得到推薦列表

第2節:使用PrefixSpan構建頻繁序列推薦
1、數據挖掘中三種關聯算法比較、頻繁序列算法PrefixSpan概述及Spark MLlib中實現
2、構建數據集,使用PrefixSpan算法訓練數據獲取頻繁序列集
3、結合實際需要找出符合規則的頻繁序列集、模型和結果保存

第六章:Spark ML Pipeline 構建機器學習
第1節:Spark ML Pipeline入門案例
1、Spark MLlib 總結回顧發展及基於DataFrame API的區別
2、Spark ML Pipeline幾個重要概念(Transformer、Estimator及Pipeline)剖析
3、管道Pipeline組成及簡易文本分類案例需求分析
4、定義轉換器與模型學習器、創建Pipeline和模型預測
5、Model持久化及Pipeline如何工作剖析
6、采用TF-IDF方式獲取文本特征及Pipeline中Estimator工作原理
7、Transformor和Estimator參數設置(實例和ParamMap)
060108_Cross Validation設置及測試演示

第2節:Spark ML預測森林植被
1、基於ML預測森林植被之SparkSession讀取CSV數據並指定列名
2、基於ML預測森林植被之提取特征及決策樹算法訓練模型(查看決策樹)
3、基於ML預測森林植被之決策樹算法中每個特征重要性及測試數據預測值
4、基於ML預測森林植被之多分類評估器使用及分類評估混淆矩陣
5、基於ML預測森林植被之Pipeline組合預測流程(轉換器、模型學習器、評估器、訓練驗證和參數調優)
6、基於ML預測森林植被之解碼還原類別特征數據
7、基於ML預測森林植被之對類別特征數據使用決策樹算法訓練模型
8、基於ML預測森林植被之對類別特征數據使用隨機決策森林算法訓練模型

Spark2.x 機器學習視頻教程