資料探勘--模型選擇

阿新 • • 發佈：2018-12-06

本文轉自：https://blog.csdn.net/qq_20800249/article/details/80046476

名稱

假設

/關鍵

優缺點

模型

策略

演算法

感知機

拉格朗日對偶

1.初值不同結果不同

2.無法處理非線性

3.對偶形式將內積儲存（Gram矩陣），加速計算

誤分類點總數最小

梯度下降

KNN

1.k值選擇（交叉驗證法）

2.距離度量

3.分類決策規則

1.對異常點不敏感

2.不具有顯示學習過程（可解釋行差）

3.適用於多分類問題

4.計算量大（佔記憶體）

距離度量：p範數（L1、L2）

（各個座標距離最大值）

決策規則：多數表決（=經驗風險最小化）

1.計算與x最近的k個點（Nk）

2.分類規則（多數表決）

3.kd樹（適用於訓練例項遠大於空間維數的搜素）

聚類分析

（無監督）

1.k值選擇

2.相似度量（距離）

1.初值敏感

2.異常點敏感

3.kmeans適合球狀

4.大資料集伸縮性好，高效，高斯分佈效果好

質心：

MSE（均方差）：

K選擇：SSE（和方差）

選擇最小的k

K-means：

1.隨機初始化k個質心

2.對所有樣本計算x到k的距離，找最近的簇，新增類標記Ci；重新計算質心（均值）

3.重複直到中止（迭代次數、最小平方MSE、簇中心點變化率）

密度聚類、層次聚類

樸素貝葉斯

1.特徵條件獨立

2.貝葉斯定理

1.小規模表現良好，速度快，引數估計的個數銳減

2.在特徵關聯性較強的任務效能差

3.適用於多分類

極大似然估計：

貝葉斯估計

（λ=1 拉普拉斯平滑）：

1.學習輸入輸出聯合概率分佈

2.求出最大後驗概率輸出y

迴歸模型

1．正則化：

L1會引入稀疏性，而L2會充分利用更多的特徵

2.LR迴歸：

1）假設特徵與分類結果存線上性關係

2）使用sigmoid函式對映到0-1（非線性對映將遠離分類面的點作用減弱）

LR：1適合分類概率的場景

2時間和記憶體需求高效（分散式資料、線上演算法）

3 對於小噪聲魯棒

4.易欠擬合精度不高

5資料特徵有缺失或者特徵空間很大時表現效果不好

6.必須線性可分

最小二乘：

1.均值迴歸，異常點敏感，魯棒性不高

2.存在最優解

LR迴歸（二項）：

對數機率：（概率->迴歸）

1.線性迴歸

2.嶺迴歸

3.lasso迴歸

4.LR迴歸（極大似然估計，求極大，也可增加L1、L2正則項）

1.梯度下降法

2.擬牛頓法（二階）

SVM

非線性對映

1.低泛化誤差，易解釋

2.只考慮支援向量的影響，對異常敏感，但也剔除冗餘

3.大規模訓練樣本，耗記憶體佔時間

4.多分類問題困難

核技巧：

1. 如果Feature的數量很大，跟樣本數量差不多，這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數量比較小，樣本數量一般，不算大也不算小，選用SVM+Gaussian Kernel

3. 如果Feature的數量比較小，而樣本數量很多，需要手工新增一些feature變成第一種情況

硬間隔（線性可分）：

軟間隔（線性不可分）：

核技巧：

1.將原空間對映到新空間

2.新空間中線性分類

多項式核：

高斯核：

（最小間隔最大化）

拉格朗日對偶將minmax->maxmin

便有優化求導得到最優解

硬間隔：

軟間隔：

核技巧：

解出優化方程

得到相應引數

決策樹

1.特徵選擇

2.決策樹生成

3.決策樹修剪

1. 資料準備簡單，可解釋性強

2. 能夠同時處理資料型和常規型屬性

3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果

4.適合處理缺失屬性樣本

5.易過擬合

特徵準則—資訊增益（ID3）：

（熵越大不確定性越大）

特徵準則—資訊增益比（C4.5）：

（比值解決了偏向取值較多的屬性的問題）

特徵準則—Gini（CART）：

（越小集合D不確定性越小）

決策樹剪枝：

極小化決策樹整體損失，遞歸回縮，若C(Ta)<=C(Tb)，剪枝

1.分類：遞迴選擇最優特徵

2.迴歸：最小二乘

1）選擇最優切分變數和切分點

2）計算每個劃分區域相應的輸出值

提升樹

採用加法模型與前向分步演算法，同時基函式採用決策樹演算法，對待分類問題採用二叉分類樹，對於迴歸問題採用二叉迴歸樹

Adboost：

1.低泛化誤差

2.易實現，分類準確率高，沒太多引數可調

3.對異常點較敏感

GBDT：

1.可用於多有分類和迴歸（線性/非線性）

2.可篩選特徵

3.解決過擬合問題

4.不好並行，複雜度高，不適合高維稀疏特徵

5.需要特徵歸一化

加法模型：

前向分部演算法:

經驗風險最小化：

（分類0-1損失，

迴歸平方損失，擬合殘差）

引數調優（GBDT）：

樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比

Adboost：指數損失（e為誤差率）

（分類）

GBDT：對數、平方（殘差），0-1，似然損失，CART樹（迴歸），負梯度擬合（在上一輪分類器殘差上訓練，從而降低偏差）

構造特徵：（每個類別一棵樹）

新特徵維度為葉子節點總數，樣本落入每顆樹的節點為1，其餘為0，與RF結合輸入效果較好

預測：每個樹的預測值與縮放因子相乘求和。分類需轉化為（0-1），

樣本在每個樹的輸出f，計算概率

Xgboost：支援線性分類器；模型複雜度作為正則項加到優化目標中；使用二階導（泰勒展開）；自動學習特徵缺失樣本的分裂向；特徵粒度上的並行（特徵儲存排序）；列抽樣（降低過擬合）；Shrinkage（縮減），相當於學習率

Adboost：

1.初始化權值分佈

2.學習基本分類器Gm(x)

3.計算誤差率

4.計算Gm係數α

5.更新權值分佈（誤差率越小樹權值越大，誤分類樣本權值增加）

GBDT：

1.初始化弱學習器

2.計算負梯度

3.對殘差擬合迴歸樹

3.葉子節點擬合

4.得到迴歸樹

整合模型

1.Bagging

2.隨機特徵

隨機森林：

1.難以解釋，平均很多樹的結果。

2.構造過程長，可以採用多核並行

3.隨機性：不易過擬合、較好的抗噪聲

4.高維資料，無特徵選擇，離散連續均可

隨機森林：

從d個特徵中隨機K個生成決策樹，若K=d為原始決策樹；若k=1為完全隨機樹，一般令K=logd

1.取樣T個取樣集（有放回），隨機抽取含m個特徵的取樣集

2.基於每個取樣集訓練一個基學習器

3. 分類問題：由投票表決；迴歸問題：k個模型預測結果的均值

關於調參：手動搜尋、網格搜尋、隨機搜尋、貝葉斯方法（通過計算在已知資料的情況下，哪種模型的後驗概率大即選擇哪種模型）

更多案例請關注“思享會Club”公眾號或者關注思享會部落格：http://gkhelp.cn/

在這裡插入圖片描述

名稱

假設

/關鍵

優缺點

模型

策略

演算法

感知機

拉格朗日對偶

1.初值不同結果不同

2.無法處理非線性

3.對偶形式將內積儲存（Gram矩陣），加速計算

誤分類點總數最小

梯度下降

KNN

1.k值選擇（交叉驗證法）

2.距離度量

3.分類決策規則

1.對異常點不敏感

2.不具有顯示學習過程（可解釋行差）

3.適用於多分類問題

4.計算量大（佔記憶體）

距離度量：p範數（L1、L2）

（各個座標距離最大值）

決策規則：多數表決（=經驗風險最小化）

1.計算與x最近的k個點（Nk）

2.分類規則（多數表決）

3.kd樹（適用於訓練例項遠大於空間維數的搜素）

聚類分析

（無監督）

1.k值選擇

2.相似度量（距離）

1.初值敏感

2.異常點敏感

3.kmeans適合球狀

4.大資料集伸縮性好，高效，高斯分佈效果好

質心：

MSE（均方差）：

K選擇：SSE（和方差）

選擇最小的k

K-means：

1.隨機初始化k個質心

2.對所有樣本計算x到k的距離，找最近的簇，新增類標記Ci；重新計算質心（均值）

3.重複直到中止（迭代次數、最小平方MSE、簇中心點變化率）

密度聚類、層次聚類

樸素貝葉斯

1.特徵條件獨立

2.貝葉斯定理

1.小規模表現良好，速度快，引數估計的個數銳減

2.在特徵關聯性較強的任務效能差

3.適用於多分類

極大似然估計：

貝葉斯估計

（λ=1 拉普拉斯平滑）：

1.學習輸入輸出聯合概率分佈

2.求出最大後驗概率輸出y

迴歸模型

1．正則化：

L1會引入稀疏性，而L2會充分利用更多的特徵

2.LR迴歸：

1）假設特徵與分類結果存線上性關係

2）使用sigmoid函式對映到0-1（非線性對映將遠離分類面的點作用減弱）

LR：1適合分類概率的場景

2時間和記憶體需求高效（分散式資料、線上演算法）

3 對於小噪聲魯棒

4.易欠擬合精度不高

5資料特徵有缺失或者特徵空間很大時表現效果不好

6.必須線性可分

最小二乘：

1.均值迴歸，異常點敏感，魯棒性不高

2.存在最優解

LR迴歸（二項）：

對數機率：（概率->迴歸）

1.線性迴歸

2.嶺迴歸

3.lasso迴歸

4.LR迴歸（極大似然估計，求極大，也可增加L1、L2正則項）

1.梯度下降法

2.擬牛頓法（二階）

SVM

非線性對映

1.低泛化誤差，易解釋

2.只考慮支援向量的影響，對異常敏感，但也剔除冗餘

3.大規模訓練樣本，耗記憶體佔時間

4.多分類問題困難

核技巧：

1. 如果Feature的數量很大，跟樣本數量差不多，這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數量比較小，樣本數量一般，不算大也不算小，選用SVM+Gaussian Kernel

3. 如果Feature的數量比較小，而樣本數量很多，需要手工新增一些feature變成第一種情況

硬間隔（線性可分）：

軟間隔（線性不可分）：

核技巧：

1.將原空間對映到新空間

2.新空間中線性分類

多項式核：

高斯核：

（最小間隔最大化）

拉格朗日對偶將minmax->maxmin

便有優化求導得到最優解

硬間隔：

軟間隔：

核技巧：

解出優化方程

得到相應引數

決策樹

1.特徵選擇

2.決策樹生成

3.決策樹修剪

1. 資料準備簡單，可解釋性強

2. 能夠同時處理資料型和常規型屬性

3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果

4.適合處理缺失屬性樣本

5.易過擬合

特徵準則—資訊增益（ID3）：

（熵越大不確定性越大）

特徵準則—資訊增益比（C4.5）：

（比值解決了偏向取值較多的屬性的問題）

特徵準則—Gini（CART）：

（越小集合D不確定性越小）

決策樹剪枝：

極小化決策樹整體損失，遞歸回縮，若C(Ta)<=C(Tb)，剪枝

1.分類：遞迴選擇最優特徵

2.迴歸：最小二乘

1）選擇最優切分變數和切分點

2）計算每個劃分區域相應的輸出值

提升樹

採用加法模型與前向分步演算法，同時基函式採用決策樹演算法，對待分類問題採用二叉分類樹，對於迴歸問題採用二叉迴歸樹

Adboost：

1.低泛化誤差

2.易實現，分類準確率高，沒太多引數可調

3.對異常點較敏感

GBDT：

1.可用於多有分類和迴歸（線性/非線性）

2.可篩選特徵

3.解決過擬合問題

4.不好並行，複雜度高，不適合高維稀疏特徵

5.需要特徵歸一化

加法模型：

前向分部演算法:

經驗風險最小化：

（分類0-1損失，

迴歸平方損失，擬合殘差）

引數調優（GBDT）：

樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比

Adboost：指數損失（e為誤差率）

（分類）

GBDT：對數、平方（殘差），0-1，似然損失，CART樹（迴歸），負梯度擬合（在上一輪分類器殘差上訓練，從而降低偏差）

構造特徵：（每個類別一棵樹）

新特徵維度為葉子節點總數，樣本落入每顆樹的節點為1，其餘為0，與RF結合輸入效果較好

預測：每個樹的預測值與縮放因子相乘求和。分類需轉化為（0-1），

樣本在每個樹的輸出f，計算概率

Adboost：

1.初始化權值分佈

2.學習基本分類器Gm(x)

3.計算誤差率

4.計算Gm係數α

5.更新權值分佈（誤差率越小樹權值越大，誤分類樣本權值增加）

GBDT：

1.初始化弱學習器

2.計算負梯度

3.對殘差擬合迴歸樹

3.葉子節點擬合

4.得到迴歸樹

整合模型

1.Bagging

2.隨機特徵

隨機森林：

1.難以解釋，平均很多樹的結果。

2.構造過程長，可以採用多核並行

3.隨機性：不易過擬合、較好的抗噪聲

4.高維資料，無特徵選擇，離散連續均可

隨機森林：

從d個特徵中隨機K個生成決策樹，若K=d為原始決策樹；若k=1為完全隨機樹，一般令K=logd

1.取樣T個取樣集（有放回），隨機抽取含m個特徵的取樣集

2.基於每個取樣集訓練一個基學習器

3. 分類問題：由投票表決；迴歸問題：k個模型預測結果的均值

資料探勘--模型選擇

資料探勘--模型選擇

【Mark Schmidt課件】機器學習與資料探勘——特徵選擇

演算法模型---演算法調優---資料探勘模型效果評估方法彙總

資料探勘模型介紹之三：決策樹

資料探勘模型中的IV和WOE詳解

論資料探勘模型的有用性

吳裕雄資料探勘與分析案例實戰（6）——線性迴歸預測模型

吳裕雄資料探勘與分析案例實戰（12）——SVM模型的應用

使用Weka進行資料探勘（Weka教程九）模型序列化/持久化儲存和載入

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

【機器學習_3】常見術語區別(人工智慧&資料探勘&機器學習&統計模型等)

資料探勘十大演算法——支援向量機SVM（二）：線性支援向量機的軟間隔最大化模型

資料探勘之特徵選擇

資料探勘，篩選，補充的廣義線性模型的---- LASSO 迴歸

泰坦尼克號資料探勘專案實戰——Task3 模型構建

資料探勘（三）分類模型的描述與效能評估，以決策樹為例

泰坦尼克號資料探勘專案實戰——Task7 模型融合

泰坦尼克號資料探勘專案實戰——Task6 模型調優

泰坦尼克號資料探勘專案實戰——Task5 模型評估

泰坦尼克號資料探勘專案實戰——Task4 模型構建之整合模型

資料探勘--模型選擇

相關推薦