統計學習方法——學習筆記之概論
阿新 • • 發佈:2018-06-12
單調遞增 可能 性能 gist 子集 數據 速度 計算機 模型選擇
原文地址(http://liuao.tech/post/20180612/)
1.統計學習
赫爾伯特·西蒙曾對學習給出以下定義:
如果一個系統能夠通過執行某個過程改進它的性能,這就是學習。
統計學習就是計算機系統通過運用數據及統計方法提高系統性能的機器學習。
2.統計學習三要素
- 模型
- 策略
- 算法
3.實現統計學習方法的步驟
- 1.獲取一個有限的訓練數據集合;
- 2.確定包含所有可能模型的假設空間(學習模型的集合);
- 3.確定模型選擇的準則(策略);
- 4.實現求解模型的算法(算法);
- 5.通過學習方法選擇最優模型;
- 6.利用學習的最優模型對新數據進行預測或分析。
4.統計學習的分類
- 監督學習
- 非監督學習
- 半監督學習
- 強化學習
5.一些基本概念
- 輸入空間:輸入所有可能的取值。
- 輸出空間:輸出所有可能的取值。
- 特征向量:每個具體的輸入是一個實例,通常是由特征向量表示。
- 特征空間:特征向量存在的空間。
- 聯合概率分布:監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y),它是監督學習關於數據的基本假設。
- 假設空間:輸入空間到輸出空間的映射集合。
- 過擬合:學習時選擇的模型包含的參數過多,以至於出現這一模型對已知數據預測得很好,但對未知數據預測得很差的現象。
- 泛化能力:學習到的模型對位置數據的預測能力。
- 泛化誤差:所學習到的模型的期望風險。
6.損失函數
損失函數或代價函數用來度量模型一次預測的好壞,常用的損失函數有如下幾種:
損失函數越小,模型就越好。
7.風險
學習的目標是選擇期望風險最小的模型。根據大數定律,當樣本容量N趨於無窮時,經驗風險趨於期望風險。
但實際中樣本數量有限,甚至很小。因此需要對經驗進行一定的矯正,這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
8.正則化
正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化會罰項。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化值就越大。如,回歸問題中,損失函數是平方損失,正則化項的參數向量的L1和L2範數表示:
9.交叉驗證
交叉驗證是一種模型選擇方法,基本思想是重復的使用數據。
- 簡單交叉驗證:隨機將數據分為兩部分,一部分作為訓練集,另一部分作為測試集。
- S折交叉驗證:將數據隨機地分為S個大小相同互不相交的子集,然後利用S-1個子集的數據進行訓練,利用余下的子集測試模型,將這一過程對可能的S種選擇城府進行,最後選出S次評測中平均誤差最小的模型。
- 留一交叉驗證:S=N,N為給定數據集的容量,稱為留一交叉驗證。
10.生成模型與判別模型
生成模型:
- 生成方法:由數據學習聯合概率分布P(X,Y),然後求出條件概率分布P(Y|X)作為預測的模型,即生成模型。
- 典型的模型:樸素貝葉斯法和隱馬爾可夫模型。
- 生成方法特點:
- 可以還原出聯合概率分布P(X,Y);
- 學習收斂速度更快;
- 當存在隱變量時,仍可以用生成方法。
判別模型:
- 判別方法:由數據直接學習決策函數f(X)或者條件概率分布P(Y|X)作為預測的模型,即為判別模型。
- 典型的模型:k鄰近法、感知機、決策樹,logistics regression、最大熵模型、支持向量機、提升方法和條件隨機場等。
- 判別方法的特點:
- 直接學習的是決策函數f(X)或者條件概率分布P(Y|X),直接面對預測,往往學習的準確率更高;
- 由於直接學習f(X)或者P(Y|X),可以對數據進行各種程度上的抽象、定義特征並使用特征,可以簡化學習問題。
參考文檔:
1. 統計學習方法 李航 著
統計學習方法——學習筆記之概論