1. 程式人生 > 其它 >機器學習(Macheine Learning)面試知識點

機器學習(Macheine Learning)面試知識點

關注我的公眾號【寶哥大資料】

零、數學基礎

一、 探索資料

1.1、資料質量分析

  • 缺失值、異常值、不一致的資料、錯誤資料

  • 資料預處理

1.2、特徵工程

1.2.1、資料特徵分析

1.2.2、歸一化、標準化、正則化

1.2.3、特徵提取、轉換和選擇

  • 降維
    • 特徵提取: 通過屬性間的關係,如組合不同的屬性得到新的屬性,這樣就改變了原來的特徵空間
    • 特徵選擇:從原始特徵資料集中選擇出子集,是一種包含的關係,沒有更改原始的特徵空間
  • 特徵轉換

1.3、模型

 1.3.1、模型的選擇、調優

 1.3.2、模型的評估

1.4、資料視覺化

1.5、Spark ML

二、 概念、理論、

機器學習的理論框架


機器學習概念,公式總結

2.1、統計方法三要素:模型+策略+演算法

2.2、判別模型與生成模型

2.3、損失函式、代價函式與目標函式

2.3、核函式


三、監督學習

  監督學習中,如果預測的變數是離散的,我們稱其為分類(如決策樹,支援向量機等),如果預測的變數是連續的,我們稱其為迴歸

3.1、分類

3.1.1、分類的原理

3.1.2、Spark ML 構建分類模型


3.2、迴歸

3.2.1、 linear regression(線性迴歸)

  • 線性迴歸python實現

     - 標準線性迴歸
     - 區域性加權線性迴歸
     - 縮減法
     	- 嶺迴歸
     	- lasso
     	- 前向逐步迴歸
    

3.2.2、廣義線性迴歸

3.2.3、樹迴歸

3.2.4、隨機森林迴歸

3.2.5、梯度提高樹迴歸(Gradient-boosted tree regression)

3.2.6、生存迴歸(Survival regression)

3.2.7、保序迴歸

3.2.8、Spark ML 構建迴歸模型


3.3、決策樹

  • python實現

  • Ensembles of decision trees

    • random forests
    • gradient-boosted trees
  • Isotonic regression


Linear models


四、非監督學習

  根據給定已知類別標籤

的樣本,訓練出某種模型,然後對未知類別的樣本進行分類,稱為supervised learning(監督學習)。
  指事先並不知道樣本的類別標籤,希望通過某種演算法來把未知類別的樣本劃分成若干類,亦稱作 unsupervised learning (無監督學習)。

4.1、聚類

4.1.1、基於劃分

4.1.1.1、k-means

4.1.2、層次聚類

4.1.3、基於密度聚類

4.1.3.1、Gaussian Mixture Model(GMM)

4.1.3.2、DBSCAN

4.1.3.3、Mean Shift(均值漂移)

4.1.4、基於網格

4.1.5、基於模型的方法(Model-based methods)


4.2、Apriori

 4.2.1、Apriori概念及原理

4.3、FP-Growth

 4.3.1、FP-Growth概念及原理


六、 深度學習

深度學習與機器學習的關係


七、應用

 6.1、推薦系統

八、知識點

8.1、百面機器學習學習筆記

8.2、轉自光影流年925部落格