資料探勘--模型選擇
名稱 |
假設 /關鍵 |
優缺點 |
模型 |
策略 |
演算法 |
感知機 |
拉格朗日對偶 |
1.初值不同結果不同 2.無法處理非線性 3.對偶形式將內積儲存(Gram矩陣),加速計算 |
|
誤分類點總數最小 |
梯度下降
|
KNN |
1.k值選擇(交叉驗證法) 2.距離度量 3.分類決策規則 |
1.對異常點不敏感 2.不具有顯示學習過程(可解釋行差) 3.適用於多分類問題 4.計算量大(佔記憶體) |
距離度量:p範數(L1、L2)
(各個座標距離最大值 ) |
決策規則:多數表決(=經驗風險最小化)
|
1.計算與x最近的k個點(Nk) 2.分類規則(多數表決) 3.kd樹(適用於訓練例項遠大於空間維數的搜素) |
聚類分析 (無監督) |
1.k值選擇 2.相似度量(距離) |
1.初值敏感 2.異常點敏感 3.kmeans適合球狀 4.大資料集伸縮性好,高效,高斯分佈效果好 |
質心:
|
MSE(均方差):
K選擇:SSE(和方差)
選擇最小的k |
K-means: 1.隨機初始化k個質心 2.對所有樣本計算x到k的距離,找最近的簇,新增類標記Ci;重新計算質心(均值) 3.重複直到中止(迭代次數、最小平方MSE、簇中心點變化率) 密度聚類、層次聚類 |
樸素貝葉斯 |
1.特徵條件獨立 2.貝葉斯定理 |
1.小規模表現良好,速度快,引數估計的個數銳減 2.在特徵關聯性較強的任務效能差 3.適用於多分類 |
極大似然估計: 貝葉斯估計 (λ=1 拉普拉斯平滑):
|
|
1.學習輸入輸出聯合概率分佈 2.求出最大後驗概率輸出y |
迴歸模型 |
1.正則化: L1會引入稀疏性,而L2會充分利用更多的特徵 2.LR迴歸: 1)假設特徵與分類結果存線上性關係 2)使用sigmoid函式對映到0-1(非線性對映將遠離分類面的點作用減弱) |
LR:1適合分類概率的場景 2時間和記憶體需求高效(分散式資料、線上演算法) 3 對於小噪聲魯棒 4.易欠擬合精度不高 5資料特徵有缺失或者特徵空間很大時表現效果不好 6.必須線性可分 最小二乘: 1.均值迴歸,異常點敏感,魯棒性不高 2.存在最優解
|
LR迴歸(二項):
對數機率:(概率->迴歸)
|
1.線性迴歸
2.嶺迴歸 3.lasso迴歸 4.LR迴歸(極大似然估計,求極大,也可增加L1、L2正則項)
|
1.梯度下降法 2.擬牛頓法(二階) |
SVM |
非線性對映
|
1.低泛化誤差,易解釋 2.只考慮支援向量的影響,對異常敏感,但也剔除冗餘 3.大規模訓練樣本,耗記憶體佔時間 4.多分類問題困難 核技巧: 1. 如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM 2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel 3. 如果Feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況 |
硬間隔(線性可分): 軟間隔(線性不可分):
核技巧: 1.將原空間對映到新空間 2.新空間中線性分類
多項式核:
高斯核: |
(最小間隔最大化) 拉格朗日對偶將minmax->maxmin 便有優化求導得到最優解 硬間隔: 軟間隔: 核技巧:
|
解出優化方程 得到相應引數 |
決策樹 |
1.特徵選擇 2.決策樹生成 3.決策樹修剪 |
1. 資料準備簡單,可解釋性強 2. 能夠同時處理資料型和常規型屬性 3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果 4.適合處理缺失屬性樣本 5.易過擬合 |
特徵準則—資訊增益(ID3): (熵越大不確定性越大) 特徵準則—資訊增益比(C4.5):
(比值解決了偏向取值較多的屬性的問題) 特徵準則—Gini(CART): (越小集合D不確定性越小)
|
決策樹剪枝: 極小化決策樹整體損失,遞歸回縮,若C(Ta)<=C(Tb),剪枝
|
1.分類:遞迴選擇最優特徵 2.迴歸:最小二乘 1)選擇最優切分變數和切分點
2)計算每個劃分區域相應的輸出值
|
提升樹 |
採用加法模型與前向分步演算法,同時基函式採用決策樹演算法,對待分類問題採用二叉分類樹,對於迴歸問題採用二叉迴歸樹 |
Adboost: 1.低泛化誤差 2.易實現,分類準確率高,沒太多引數可調 3.對異常點較敏感 GBDT: 1.可用於多有分類和迴歸(線性/非線性) 2.可篩選特徵 3.解決過擬合問題 4.不好並行,複雜度高,不適合高維稀疏特徵 5.需要特徵歸一化 |
加法模型:
前向分部演算法: 經驗風險最小化:
(分類0-1損失, 迴歸平方損失,擬合殘差)
引數調優(GBDT): 樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比 |
Adboost:指數損失(e為誤差率) (分類) GBDT:對數、平方(殘差),0-1,似然損失,CART樹(迴歸),負梯度擬合(在上一輪分類器殘差上訓練,從而降低偏差)
構造特徵:(每個類別一棵樹) 新特徵維度為葉子節點總數,樣本落入每顆樹的節點為1,其餘為0,與RF結合輸入效果較好 預測:每個樹的預測值與縮放因子相乘求和。分類需轉化為(0-1), 樣本在每個樹的輸出f,計算概率 Xgboost:支援線性分類器;模型複雜度作為正則項加到優化目標中;使用二階導(泰勒展開);自動學習特徵缺失樣本的分裂向;特徵粒度上的並行(特徵儲存排序);列抽樣(降低過擬合);Shrinkage(縮減),相當於學習率 |
Adboost: 1.初始化權值分佈 2.學習基本分類器Gm(x) 3.計算誤差率 4.計算Gm係數α 5.更新權值分佈(誤差率越小樹權值越大,誤分類樣本權值增加)
GBDT: 1.初始化弱學習器
2.計算負梯度 3.對殘差擬合迴歸樹 3.葉子節點擬合 4.得到迴歸樹 |
整合模型 |
1.Bagging 2.隨機特徵 |
隨機森林: 1.難以解釋,平均很多樹的結果。 2.構造過程長,可以採用多核並行 3.隨機性:不易過擬合、較好的抗噪聲 4.高維資料,無特徵選擇,離散連續均可 |
隨機森林: 從d個特徵中隨機K個生成決策樹,若K=d為原始決策樹;若k=1為完全隨機樹,一般令K=logd |
|
1.取樣T個取樣集(有放回),隨機抽取含m個特徵的取樣集 2.基於每個取樣集訓練一個基學習器 3. 分類問題:由投票表決;迴歸問題:k個模型預測結果的均值 |
關於調參:手動搜尋、網格搜尋、隨機搜尋、貝葉斯方法(通過計算在已知資料的情況下,哪種模型的後驗概率大即選擇哪種模型)
更多案例請關注“思享會Club”公眾號或者關注思享會部落格:http://gkhelp.cn/
名稱 |
假設 /關鍵 |
優缺點 |
模型 |
策略 |
演算法 |
感知機 |
拉格朗日對偶 |
1.初值不同結果不同 2.無法處理非線性 3.對偶形式將內積儲存(Gram矩陣),加速計算 |
|
誤分類點總數最小 |
梯度下降
|
KNN |
1.k值選擇(交叉驗證法) 2.距離度量 3.分類決策規則 |
1.對異常點不敏感 2.不具有顯示學習過程(可解釋行差) 3.適用於多分類問題 4.計算量大(佔記憶體) |
距離度量:p範數(L1、L2)
(各個座標距離最大值 ) |
決策規則:多數表決(=經驗風險最小化)
|
1.計算與x最近的k個點(Nk) 2.分類規則(多數表決) 3.kd樹(適用於訓練例項遠大於空間維數的搜素) |
聚類分析 (無監督) |
1.k值選擇 2.相似度量(距離) |
1.初值敏感 2.異常點敏感 3.kmeans適合球狀 4.大資料集伸縮性好,高效,高斯分佈效果好 |
質心:
|
MSE(均方差):
K選擇:SSE(和方差)
選擇最小的k |
K-means: 1.隨機初始化k個質心 2.對所有樣本計算x到k的距離,找最近的簇,新增類標記Ci;重新計算質心(均值) 3.重複直到中止(迭代次數、最小平方MSE、簇中心點變化率) 密度聚類、層次聚類 |
樸素貝葉斯 |
1.特徵條件獨立 2.貝葉斯定理 |
1.小規模表現良好,速度快,引數估計的個數銳減 2.在特徵關聯性較強的任務效能差 3.適用於多分類 |
極大似然估計: 貝葉斯估計 (λ=1 拉普拉斯平滑):
|
|
1.學習輸入輸出聯合概率分佈 2.求出最大後驗概率輸出y |
迴歸模型 |
1.正則化: L1會引入稀疏性,而L2會充分利用更多的特徵 2.LR迴歸: 1)假設特徵與分類結果存線上性關係 2)使用sigmoid函式對映到0-1(非線性對映將遠離分類面的點作用減弱) |
LR:1適合分類概率的場景 2時間和記憶體需求高效(分散式資料、線上演算法) 3 對於小噪聲魯棒 4.易欠擬合精度不高 5資料特徵有缺失或者特徵空間很大時表現效果不好 6.必須線性可分 最小二乘: 1.均值迴歸,異常點敏感,魯棒性不高 2.存在最優解
|
LR迴歸(二項):
對數機率:(概率->迴歸)
|
1.線性迴歸
2.嶺迴歸 3.lasso迴歸 4.LR迴歸(極大似然估計,求極大,也可增加L1、L2正則項)
|
1.梯度下降法 2.擬牛頓法(二階) |
SVM |
非線性對映
|
1.低泛化誤差,易解釋 2.只考慮支援向量的影響,對異常敏感,但也剔除冗餘 3.大規模訓練樣本,耗記憶體佔時間 4.多分類問題困難 核技巧: 1. 如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM 2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel 3. 如果Feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況 |
硬間隔(線性可分): 軟間隔(線性不可分):
核技巧: 1.將原空間對映到新空間 2.新空間中線性分類
多項式核:
高斯核: |
(最小間隔最大化) 拉格朗日對偶將minmax->maxmin 便有優化求導得到最優解 硬間隔: 軟間隔: 核技巧:
|
解出優化方程 得到相應引數 |
決策樹 |
1.特徵選擇 2.決策樹生成 3.決策樹修剪 |
1. 資料準備簡單,可解釋性強 2. 能夠同時處理資料型和常規型屬性 3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果 4.適合處理缺失屬性樣本 5.易過擬合 |
特徵準則—資訊增益(ID3): (熵越大不確定性越大) 特徵準則—資訊增益比(C4.5):
(比值解決了偏向取值較多的屬性的問題) 特徵準則—Gini(CART): (越小集合D不確定性越小)
|
決策樹剪枝: 極小化決策樹整體損失,遞歸回縮,若C(Ta)<=C(Tb),剪枝
|
1.分類:遞迴選擇最優特徵 2.迴歸:最小二乘 1)選擇最優切分變數和切分點
2)計算每個劃分區域相應的輸出值
|
提升樹 |
採用加法模型與前向分步演算法,同時基函式採用決策樹演算法,對待分類問題採用二叉分類樹,對於迴歸問題採用二叉迴歸樹 |
Adboost: 1.低泛化誤差 2.易實現,分類準確率高,沒太多引數可調 3.對異常點較敏感 GBDT: 1.可用於多有分類和迴歸(線性/非線性) 2.可篩選特徵 3.解決過擬合問題 4.不好並行,複雜度高,不適合高維稀疏特徵 5.需要特徵歸一化 |
加法模型:
前向分部演算法: 經驗風險最小化:
(分類0-1損失, 迴歸平方損失,擬合殘差)
引數調優(GBDT): 樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比 |
Adboost:指數損失(e為誤差率) (分類) GBDT:對數、平方(殘差),0-1,似然損失,CART樹(迴歸),負梯度擬合(在上一輪分類器殘差上訓練,從而降低偏差)
構造特徵:(每個類別一棵樹) 新特徵維度為葉子節點總數,樣本落入每顆樹的節點為1,其餘為0,與RF結合輸入效果較好 預測:每個樹的預測值與縮放因子相乘求和。分類需轉化為(0-1), 樣本在每個樹的輸出f,計算概率 Xgboost:支援線性分類器;模型複雜度作為正則項加到優化目標中;使用二階導(泰勒展開);自動學習特徵缺失樣本的分裂向;特徵粒度上的並行(特徵儲存排序);列抽樣(降低過擬合);Shrinkage(縮減),相當於學習率 |
Adboost: 1.初始化權值分佈 2.學習基本分類器Gm(x) 3.計算誤差率 4.計算Gm係數α 5.更新權值分佈(誤差率越小樹權值越大,誤分類樣本權值增加)
GBDT: 1.初始化弱學習器
2.計算負梯度 3.對殘差擬合迴歸樹 3.葉子節點擬合 4.得到迴歸樹 |
整合模型 |
1.Bagging 2.隨機特徵 |
隨機森林: 1.難以解釋,平均很多樹的結果。 2.構造過程長,可以採用多核並行 3.隨機性:不易過擬合、較好的抗噪聲 4.高維資料,無特徵選擇,離散連續均可 |
隨機森林: 從d個特徵中隨機K個生成決策樹,若K=d為原始決策樹;若k=1為完全隨機樹,一般令K=logd |
|
1.取樣T個取樣集(有放回),隨機抽取含m個特徵的取樣集 2.基於每個取樣集訓練一個基學習器 3. 分類問題:由投票表決;迴歸問題:k個模型預測結果的均值 |
關於調參:手動搜尋、網格搜尋、隨機搜尋、貝葉斯方法(通過計算在已知資料的情況下,哪種模型的後驗概率大即選擇哪種模型)
更多案例請關注“思享會Club”公眾號或者關注思享會部落格:http://gkhelp.cn/