10種經典統計方法總結
方法 | 適用問題 | 模型特點 | 模型類型 | 學習策略 | 學習的損失函數 | 學習算法 | 註意事項 | ||||||||||||
感知機 | 二類分類 | 分離超平面 |
判別模型 |
極小化誤分點到超平面距離 |
誤分點到超平面的距離 |
隨機梯度下降 |
對偶解法(Gram矩陣) |
||||||||||||
k近鄰法 |
多類分類, 回歸 |
特征空間, 樣本點 |
判別模型 |
三要素: 1、距離度量:曼哈頓和歐氏距離 2、k值選取:(估計誤差和近似誤差),交叉驗證求最優 3、分類決策:多數表決 kd樹(構造和搜索,適用於訓練實例遠大於空間維數) |
|||||||||||||||
樸素貝葉斯法 | 多類分類 |
特征與類別的聯合概率 分布,條件獨立解釋 |
生成模型 (學習聯合概率,求條件概率) |
極大似然估計(參數估計), 極大後驗概率估計 |
對數似然損失 |
概率計算公式, EM算法 |
(0-1損失函數)期望風險最小化就是後驗概率最大化 概率估計:極大似然估計或貝葉斯估計(拉普拉斯平滑) |
||||||||||||
決策樹 |
多類分類, 回歸 |
分類樹,回歸樹 |
判別模型
|
正則化的極大似然估計 | 對數似然損失 |
特征選擇,生成, 剪枝 |
if-then規則:互斥並且完備 啟發式學習,得出次最優 生成:局部最優;剪枝:全局最優
|
||||||||||||
邏輯斯蒂回歸 和最大熵模型 |
多類分類 |
特征條件下類別的條件 概率分布,對數線性模型 |
判別模型 |
極大似然估計, 正則化的極大似然估計 |
邏輯斯蒂損失 二項:
|
改進的叠代尺度算法, 梯度下降, 擬牛頓法 |
還差最大熵模型 | ||||||||||||
支持向量機 | 二類分類 | 分離超平面,核技巧 |
判別模型 線性:
非線性(核):
|
極小化正則化合頁函數 軟間隔最大化 |
合頁損失 | 序列最小最優化SMO算法(解決大樣本下以往算法效率低的問題) |
凸優化問題是指約束最優化問題,最大分離間隔可化為凸二次規劃問題 學習的對偶算法:拉格朗日對偶性 KKT條件:對偶問題和原始問題同最優化解 軟間隔就是允許異常值的間隔 感知機的損失函數的右平移是合頁函數 常用核:多項式核,高斯核 SMO:啟發式算法,第一個變量a1是違反KKT最嚴重的樣本點, 第二個變量a2是使其變化足夠大的點 |
||||||||||||
提升方法 | 二類分類 | 弱分類器的線性組合 |
判別模型
|
極小化加法模型的指數損失 | 指數損失 | 前向分步加法算法 |
AdaBoost: 系數am:誤差越大的分類器,權值am越小 系數wm: 誤分類的樣本的權值wm 加大,正確分類的wm減少 GBDT: 回歸樹:平方損失(殘差),指數損失,梯度提升(針對一般的損失函數)
|
||||||||||||
EM算法 | 概率模型參數估計 | 含隱變量概率模型 |
極大似然估計 極大後驗概率估計 |
對數似然損失 | 叠代算法 |
不同初值可能得到不同的參數估計 EM算法是不斷求下界的極大化逼近求解對數似然函數極大化的算法,不能保證收斂到全局最優 高斯混合模型的EM算法 E步:Q函數-完全數據的期望
M步:極大化Q函數
|
|||||||||||||
隱馬爾可夫HMM | 標註 | 觀測序列與狀態序列的聯合概率分布模型 |
生成模型 時序模型 |
極大似然估計 極大似然後驗概率估計 |
對數似然損失 |
概率計算公式 EM算法 |
隱馬爾可夫三要素λ=(A,B,∏) 兩個假設:齊次馬爾可夫和觀測獨立 概率計算:直接計算和前後向算法 學習問題(參數估計):監督學習法和非監督Baum-Welch算法(EM算法實現) 預測問題(求狀態序列):近似算法和維特比算法(動態規劃) |
||||||||||||
10種經典統計方法總結