機器學習(Macheine Learning)面試知識點
阿新 • • 發佈:2021-06-17
關注我的公眾號【寶哥大資料】
零、數學基礎
一、 探索資料
1.1、資料質量分析
-
缺失值、異常值、不一致的資料、錯誤資料
1.2、特徵工程
1.2.1、資料特徵分析
1.2.2、歸一化、標準化、正則化
1.2.3、特徵提取、轉換和選擇
- 降維
- 特徵提取: 通過屬性間的關係,如組合不同的屬性得到新的屬性,這樣就改變了原來的特徵空間
- 特徵選擇:從原始特徵資料集中選擇出子集,是一種包含的關係,沒有更改原始的特徵空間
- 特徵轉換
1.3、模型
1.3.1、模型的選擇、調優
1.3.2、模型的評估
1.4、資料視覺化
1.5、Spark ML
二、 概念、理論、
機器學習概念,公式總結
2.1、統計方法三要素:模型+策略+演算法
2.2、判別模型與生成模型
2.3、損失函式、代價函式與目標函式
2.3、核函式
三、監督學習
監督學習中,如果預測的變數是離散的,我們稱其為分類(如決策樹,支援向量機等),如果預測的變數是連續的,我們稱其為迴歸
3.1、分類
3.1.1、分類的原理
- 感知機
- KNN(K均鄰演算法)
- SVM(支援向量機)
- logistic 迴歸
- 樸素貝葉斯決策
3.1.2、Spark ML 構建分類模型
3.2、迴歸
3.2.1、 linear regression(線性迴歸)
-
- 標準線性迴歸 - 區域性加權線性迴歸 - 縮減法 - 嶺迴歸 - lasso - 前向逐步迴歸
3.2.2、廣義線性迴歸
3.2.3、樹迴歸
3.2.4、隨機森林迴歸
3.2.5、梯度提高樹迴歸(Gradient-boosted tree regression)
3.2.6、生存迴歸(Survival regression)
3.2.7、保序迴歸
3.2.8、Spark ML 構建迴歸模型
3.3、決策樹
-
Ensembles of decision trees
- random forests
- gradient-boosted trees
-
Isotonic regression
Linear models
四、非監督學習
根據給定已知類別標籤
指事先並不知道樣本的類別標籤,希望通過某種演算法來把未知類別的樣本劃分成若干類,亦稱作 unsupervised learning (無監督學習)。
4.1、聚類
4.1.1、基於劃分
4.1.1.1、k-means
- 效果衡量方法
- SSE, 肘部法、輪廓係數法
- k-means的改進
- K-Menas處理的經驗
- 列舉特徵
- 長尾特徵 對特徵取log